当前位置:首页|资讯|ChatGPT

【花师小哲】当代炼金术(神经网络)前沿(18)——多模态思维链战胜大模型?

作者:花师小哲-中二发布时间:2023-02-27

由于小冰打算不走ChatGPT的路而选择压宝思维链CoT,所以思维链最近比较火,在之前的专栏中提到了思维链,不过没有专门来讲,今天就来看这一篇吧:

1.多模态

这是本系列专栏第一次提到多模态,虽然多模态也是最近很热门的一个研究方向了(不过众所周知我对CV并不是很熟,所以涉及到多模态的也会少一些)。

其实多模态也没有多么神秘,最简单的理解就是你的输入是自然语言+图片。所谓模态,就是把某种类型的数据和其他类型数据区分开的一个术语,其他的模态还有表格模态、声音模态等等,而且模态也是可以自己定义的。这也没什么奇怪的,之前讲embedding的时候就提到过,embedding的目的就是一切输入化为向量,所以多模态似乎就能顺理成章地做出来

为什么要有多模态呢?原因也很简单,因为很多时候单模态的信息是不够的。人不只一种感官,这让一些人觉得单纯的一个模态达不到智能。

多模态的困难还是很多的,例如怎么样平衡多个模态,这件事做不好的话多模态甚至不如单模态

2.思维链CoT

思维链也没什么难理解的,就像你做数学题,一步一步地求证,最后得到答案,思维链就是这样的夹在输入和输出之间的推理步骤,你在给GPT-3提示的时候加一句“请一步步思考”之类的就能得到思维链式的输出。

那么多模态+思维链,就如图所示了:

这个例子把多模态表现的比较好,模型可以通过图片获取这两种食物的一些性质(例如是否是硬的),从而辅助自己的回答。

3.难点

要做多模态思维链有个很现实的问题:我们有现成的大语言模型,有现成的大视觉模型,没有现成的大多模态模型,也就是说我们的输入是没法直接扔到一个预训练大模型中的。考虑到思维链主要是语言模型的东西,所以一个很自然的想法:把视觉模态转化为语言模态作为输入。事实证明结果并不好。

对于小实验室来说,要研究多模态CoT,自己写个大多模态模型显然是不现实的,于是只能铤而走险——自己训练小多模态模型。而难点也就出来了:

(1)为什么思维链之前没有受到应有的重视呢?是因为很多实验表明似乎只有大语言模型才能hold住思维链,在小语言模型上使用思维链往往会降低性能。如图所示,可以看到性能提升是在参数量扩大到某一个临界点后突然爆发出来的(表现为性能突然大幅提高):

小语言模型不行,小多模态模型难道就可以吗?

(2)多模态本身也是处于发展过程中的,还不成熟。

当然,结果是好的,小多模态模型的性能还是很不错的。

4.结论

这篇论文的意义比较重大,值得后续研究,例如为什么小语言模型hold不住的思维链加上视觉就可以hold住了呢?另一点也是表明大模型虽然好像天生就拥有思维链这个能力且能通过思维链强化自身,但也容易受到错觉和错误提示等影响。更重要的是,这篇论文再次证明了思维链的潜力。



Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1