【花师小哲】当代炼金术（神经网络）前沿（18）——多模态思维链战胜大模型？

作者：花师小哲-中二发布时间：2023-02-27

由于小冰打算不走ChatGPT的路而选择压宝思维链CoT，所以思维链最近比较火，在之前的专栏中提到了思维链，不过没有专门来讲，今天就来看这一篇吧：

1.多模态

这是本系列专栏第一次提到多模态，虽然多模态也是最近很热门的一个研究方向了（不过众所周知我对CV并不是很熟，所以涉及到多模态的也会少一些）。

其实多模态也没有多么神秘，最简单的理解就是你的输入是自然语言+图片。所谓模态，就是把某种类型的数据和其他类型数据区分开的一个术语，其他的模态还有表格模态、声音模态等等，而且模态也是可以自己定义的。这也没什么奇怪的，之前讲embedding的时候就提到过，embedding的目的就是一切输入化为向量，所以多模态似乎就能顺理成章地做出来

为什么要有多模态呢？原因也很简单，因为很多时候单模态的信息是不够的。人不只一种感官，这让一些人觉得单纯的一个模态达不到智能。

多模态的困难还是很多的，例如怎么样平衡多个模态，这件事做不好的话多模态甚至不如单模态

2.思维链CoT

思维链也没什么难理解的，就像你做数学题，一步一步地求证，最后得到答案，思维链就是这样的夹在输入和输出之间的推理步骤，你在给GPT-3提示的时候加一句“请一步步思考”之类的就能得到思维链式的输出。

那么多模态+思维链，就如图所示了：

这个例子把多模态表现的比较好，模型可以通过图片获取这两种食物的一些性质（例如是否是硬的），从而辅助自己的回答。

3.难点

要做多模态思维链有个很现实的问题：我们有现成的大语言模型，有现成的大视觉模型，没有现成的大多模态模型，也就是说我们的输入是没法直接扔到一个预训练大模型中的。考虑到思维链主要是语言模型的东西，所以一个很自然的想法：把视觉模态转化为语言模态作为输入。事实证明结果并不好。

对于小实验室来说，要研究多模态CoT，自己写个大多模态模型显然是不现实的，于是只能铤而走险——自己训练小多模态模型。而难点也就出来了：

（1）为什么思维链之前没有受到应有的重视呢？是因为很多实验表明似乎只有大语言模型才能hold住思维链，在小语言模型上使用思维链往往会降低性能。如图所示，可以看到性能提升是在参数量扩大到某一个临界点后突然爆发出来的（表现为性能突然大幅提高）：

小语言模型不行，小多模态模型难道就可以吗？

（2）多模态本身也是处于发展过程中的，还不成熟。

当然，结果是好的，小多模态模型的性能还是很不错的。

4.结论

这篇论文的意义比较重大，值得后续研究，例如为什么小语言模型hold不住的思维链加上视觉就可以hold住了呢？另一点也是表明大模型虽然好像天生就拥有思维链这个能力且能通过思维链强化自身，但也容易受到错觉和错误提示等影响。更重要的是，这篇论文再次证明了思维链的潜力。

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（18）——多模态思维链战胜大模型？

推荐体验

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（44）——语言模型战胜了Diffusion？！

【花师小哲】当代炼金术（神经网络）前沿（16）——语言模型的其他出路

【花师小哲】当代炼金术（神经网络）前沿（36）——ChatGPT比我会砍价

【花师小哲】当代炼金术（神经网络）前沿（10）——Diffusion是记忆者？

【花师小哲】当代炼金术（神经网络）前沿（37）——语言模型学会制作工具？

近期资讯

轻松安装路由器的步骤与技巧，助你畅享稳定网络体验

天合光能获得实用新型专利授权：“一种系泊系统及光伏平台”

宇树科技机器狗走红：吉华集团三连板，十余家上市公司密集回应业务合作

AI软件开发商Palladyne AI Corp.涨超77%

打造“天空之城”，珠海又有新动作

小米“超级小爱”内测招募，体验形式转为推送 Apk 测试

晚报 | 12月27日主题前瞻

雏鹰小卫士青少年安全基地揭牌

大疆发布DJI Fly App重磅更新：一键抖音直播

我国首个国家级海上风电研究与试验检测传动链平台基地投运

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响