当前位置:首页|资讯|ChatGPT|GPT-4

【花师小哲】鉴定网络热门(?)AI(8)——计算机视觉也要终结了?

作者:花师小哲-中二发布时间:2023-04-07

虽然最近真的很忙,我也在动态提过专栏会暂缓更新。虽然真的最近有些有意思的论文,但现在还是先放一放。

不过昨天各路公众号都在发一篇论文,标题一般是取“CV(计算机视觉)终结了”之类的,嗯,我发到朋友圈后有师弟还信了。所以我们还是讲一讲这篇论文到底是在干什么

1.大模型与大统一

随着现在模型规模的急剧扩大,另一个趋势就是大统一。

很多人都在说(包括这篇论文自己也在说)自然语言处理(NLP)已经率先迈向大统一模型了,其实指的就是ChatGPTGPT-4等模型。

不过要说大统一,其实更早就有了,即T5

从上面这张图其实可以很清楚地看到T5的思路,即将一切NLP任务转化成语言生成的任务。这其实不难理解,举几个例子:

(1)对于机器翻译,例如输入是英文,输出是中文,中文本身就是文本

(2)对于文本分类,例如分析一段文本的感情。原先的做法可能是输出层有N个神经元,分别代表高兴、悲伤等,然后我们根据输出层来判定到底是哪一类。但是不管是“高兴”“悲伤”甚至是0或者1,都可以让一个模型直接说出来

(3)对于公式证明,输出虽然包含各种符号,但依然是没有离开文本的范畴。包括我们人类做算术题也可以用文本来表述

从上面的例子中我们可以看到,一切自然语言处理任务确实都可以转化成文本生成任务,这是没有什么阻碍的。

GPT模型从诞生起专注的就是文本生成,所以在别人研究BERT等模型的时候才能默默发展(虽然GPT-3出来的时候也有人知道其强大了,但当时并没有引起足够多人的注意)

2.大道至简与大统一

我们再回归GPT,GPT虽然要做大一统,但在整体架构上其实并没有什么非常新奇的技术(主要难点还是在工程层面),毕竟不同于BERT等巧妙的预训练策略,GPT的预训练策略极其简单——预测下一个词

这是RNN出现的时候就有的任务。我们看到的ChatGPT的输出其实就是对于一个输入,先输出一个词,然后将这个词作为输入再预测下一个词,一个个预测出来的(当然稍有不同,但基本思路是这样)。当然,更准确的说法不是输出词,而是输出token,这里就不展开。

然后这种大道至简的方案能不能用于计算机视觉呢?Meta的这篇论文就是要搞这个的

3.segment anything

这篇论文的题目真的霸气,我印象中由两个单词组成的论文还有就是《Random Forest》(随机森林)了,不过随机森林的论文是早些年的大牛写的。不清楚计算机领域有没有一个单词的论文,问了new bing它也不知道怎么找。

segment anything模型(后简称SAM)预训练要做的事情也只有一件——分割一切。

应该比较好理解,一张图片中往往由多个组成部分,例如有两只猫和背景,我们就可以把猫和背景分别用不同颜色框选出来。熟悉PS之类的朋友应该知道,其实就是一种自动抠图

分割任务也是CV里面很基础的一件事情了,并且相应地能做很多事情。例如做分类的话我们可以根据这些分割出来的图像进一步处理,做目标检测等也是一样。

当然,分割存在一些问题,一个很显然的例子就是我们到底要分的多么细,例如我们是要框选一只完整的猫还是要框选一只猫的眼睛呢?单纯地分割实际上是没有意义的,我们需要提示(prompt),没错,又和ChatGPT搭上边了。

其实可以看到,整体思路也不难,对于一张图片,在没有prompt的情况下做全分割就好了,有了prompt的情况下就可以做些更有意义的事情了。例如一些自动抠图软件可以支持的内外画点、框选、涂抹等辅助抠图的提示,当然更重要的还是基于语言的提示。输入一张照片并且要求框选黑耳朵猫,模型就可以做。

4.大数据与大统一

当然,要实现大统一当然需要大模型或大数据集的支持(在Meta开源的LLaMA中,也提到大量的训练集也一样重要),要训练好SAM模型,也需要大量数据。

于是Meta做了有史以来最大的分割数据集,一共有1100万张图片。当然,要全部手工标注不太现实,所以本文也用半自动的方法进行了标注。

5.结语

当然在CV里做大统一其实还是比NLP困难的,例如这种方法实际上仍然停留在图像的处理上,目前看来还做不来生成任务。

不过其实很多CV任务也可以转化为生成任务的,例如风格迁移图像上色等都有端到端的模型,也许CV未来也可以用这样统一的架构进行统一?

最后说一下,我对CV不是很熟,所以对于这件事对做CV的人来说影响有多大还不是很清楚,但“CV终结了”我个人认为还是有些过早了。

最后再说一句,看过我比较早专栏的朋友可能知道我之前主要发哲学专栏(现在太忙了都没什么时间看哲学书了),里面提到当下的哲学发展其实是大框架崩溃后的情况,很多哲学家都不再尝试做一个统一一些的理论了,不知道AI的发展能不能稍微刺激一下。


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1