【花师小哲】鉴定网络热门（？）AI（8）——计算机视觉也要终结了？

作者：花师小哲-中二发布时间：2023-04-07

ChatGPT GPT-4

虽然最近真的很忙，我也在动态提过专栏会暂缓更新。虽然真的最近有些有意思的论文，但现在还是先放一放。

不过昨天各路公众号都在发一篇论文，标题一般是取“CV（计算机视觉）终结了”之类的，嗯，我发到朋友圈后有师弟还信了。所以我们还是讲一讲这篇论文到底是在干什么

1.大模型与大统一

随着现在模型规模的急剧扩大，另一个趋势就是大统一。

很多人都在说（包括这篇论文自己也在说）自然语言处理（NLP）已经率先迈向大统一模型了，其实指的就是ChatGPT和GPT-4等模型。

不过要说大统一，其实更早就有了，即T5

从上面这张图其实可以很清楚地看到T5的思路，即将一切NLP任务转化成语言生成的任务。这其实不难理解，举几个例子：

（1）对于机器翻译，例如输入是英文，输出是中文，中文本身就是文本

（2）对于文本分类，例如分析一段文本的感情。原先的做法可能是输出层有N个神经元，分别代表高兴、悲伤等，然后我们根据输出层来判定到底是哪一类。但是不管是“高兴”“悲伤”甚至是0或者1，都可以让一个模型直接说出来

（3）对于公式证明，输出虽然包含各种符号，但依然是没有离开文本的范畴。包括我们人类做算术题也可以用文本来表述

从上面的例子中我们可以看到，一切自然语言处理任务确实都可以转化成文本生成任务，这是没有什么阻碍的。

而GPT模型从诞生起专注的就是文本生成，所以在别人研究BERT等模型的时候才能默默发展（虽然GPT-3出来的时候也有人知道其强大了，但当时并没有引起足够多人的注意）

2.大道至简与大统一

我们再回归GPT，GPT虽然要做大一统，但在整体架构上其实并没有什么非常新奇的技术（主要难点还是在工程层面），毕竟不同于BERT等巧妙的预训练策略，GPT的预训练策略极其简单——预测下一个词。

这是RNN出现的时候就有的任务。我们看到的ChatGPT的输出其实就是对于一个输入，先输出一个词，然后将这个词作为输入再预测下一个词，一个个预测出来的（当然稍有不同，但基本思路是这样）。当然，更准确的说法不是输出词，而是输出token，这里就不展开。

然后这种大道至简的方案能不能用于计算机视觉呢？Meta的这篇论文就是要搞这个的

3.segment anything

这篇论文的题目真的霸气，我印象中由两个单词组成的论文还有就是《Random Forest》（随机森林）了，不过随机森林的论文是早些年的大牛写的。不清楚计算机领域有没有一个单词的论文，问了new bing它也不知道怎么找。

segment anything模型（后简称SAM）预训练要做的事情也只有一件——分割一切。

应该比较好理解，一张图片中往往由多个组成部分，例如有两只猫和背景，我们就可以把猫和背景分别用不同颜色框选出来。熟悉PS之类的朋友应该知道，其实就是一种自动抠图。

分割任务也是CV里面很基础的一件事情了，并且相应地能做很多事情。例如做分类的话我们可以根据这些分割出来的图像进一步处理，做目标检测等也是一样。

当然，分割存在一些问题，一个很显然的例子就是我们到底要分的多么细，例如我们是要框选一只完整的猫还是要框选一只猫的眼睛呢？单纯地分割实际上是没有意义的，我们需要提示（prompt），没错，又和ChatGPT搭上边了。

其实可以看到，整体思路也不难，对于一张图片，在没有prompt的情况下做全分割就好了，有了prompt的情况下就可以做些更有意义的事情了。例如一些自动抠图软件可以支持的内外画点、框选、涂抹等辅助抠图的提示，当然更重要的还是基于语言的提示。输入一张照片并且要求框选黑耳朵猫，模型就可以做。

4.大数据与大统一

当然，要实现大统一当然需要大模型或大数据集的支持（在Meta开源的LLaMA中，也提到大量的训练集也一样重要），要训练好SAM模型，也需要大量数据。

于是Meta做了有史以来最大的分割数据集，一共有1100万张图片。当然，要全部手工标注不太现实，所以本文也用半自动的方法进行了标注。

5.结语

当然在CV里做大统一其实还是比NLP困难的，例如这种方法实际上仍然停留在图像的处理上，目前看来还做不来生成任务。

不过其实很多CV任务也可以转化为生成任务的，例如风格迁移、图像上色等都有端到端的模型，也许CV未来也可以用这样统一的架构进行统一？

最后说一下，我对CV不是很熟，所以对于这件事对做CV的人来说影响有多大还不是很清楚，但“CV终结了”我个人认为还是有些过早了。

最后再说一句，看过我比较早专栏的朋友可能知道我之前主要发哲学专栏（现在太忙了都没什么时间看哲学书了），里面提到当下的哲学发展其实是大框架崩溃后的情况，很多哲学家都不再尝试做一个统一一些的理论了，不知道AI的发展能不能稍微刺激一下。

相关资讯

【花师小哲】鉴定网络热门（？）AI（8）——计算机视觉也要终结了？

推荐体验

相关资讯

【花师小哲】鉴定网络热门（？）AI（6）——Prompt

【花师小哲】鉴定网络热门（？）AI（2）——ChatGPT篇（2）

【花师小哲】鉴定网络热门（？）AI（14）——合成数据

【花师小哲】鉴定网络热门（？）AI（13）——从旧网络到新网络

【花师小哲】鉴定网络热门（？）AI（17）——GPT-4V

近期资讯

南京华易泰取得一种用于LCD玻璃的干燥箱专利，提高了LCD玻璃干燥效率

浙江三禾精密机械取得轴承合金浇铸用的烘干保温装置专利，方便对轴承进行取放

常州市杰洋精密机械有限公司取得烘干箱专利，提高了烘干效率

张家港力尔威取得一种高效桶盖烘干立式烘房专利，自动化程度高

维意美嘉取得阻燃纸干燥设备专利，有效提高对阻燃纸的干燥效率

浙江久灵笔刷取得电红外烘干设备专利，吹风效率高

广东纽恩泰取得物料烘干设备专利，提高物料烘干效果节能且降低能耗

重庆和进机械取得变压器零部件烘干装置专利，使变压器外壳受热充分，增强烘干效果

上海沃莘取得高温热泵除湿干燥装置专利，节省整体占空面积

青岛光线能源取得一种银镜生产用烘干装置专利，能够对银镜进行均匀烘干且排出水汽

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响