当前位置:首页|资讯|GPT-4|AGI|苹果|编程

当代炼金术(神经网络)前沿(52)——大模型:每天看书半小时,用画画养活自己

作者:花师小哲-中二发布时间:2024-01-31

因为真的想把这个标题打完全,所以就就把开头的【花师小哲】去掉了QAQ

这次我们来看一篇非常有趣的论文:

1.语言模型可以单纯通过学习语言获得视觉“概念”吗

GPT-4的“曙光”论文中,有这样一类测试,即测试GPT-4(纯正的语言模型版本,不是现在的GPT-4V)生成图像的能力,其中一个特别经典的示例就是画独角兽,据说现在也是每天更新一张:

【花师小哲】鉴定网络热门(?)AI(7)——GPT4:AGI的曙光?

不过也不能说完全不能理解吧,例如我们日常可能就说“苹果是圆的”,然后再一些代码数据中有画圆的代码,那么语言模型应该是可以将两者联系起来的。

当然,GPT-4生成图像的方法大体分为两种,一种是直接生成像素值和符号(例如你现在就可以进入ChatGPT或GPT-4之类的让它给你画一张ASCII码画),但这个难度对于LLM(大语言模型)来说还是太高了,另一种就是通过代码生成,例如我用代码画两个同心圆,这就是煎蛋了。(还有方法就是调用工具的生成了,例如调用DELL·3)

本文作为一篇评估LLM视觉能力的论文,采用的就是后者,即以代码为中介的视觉能力评估,整体分为两部分,见下图:

2.第一部分:对LLM进行直接的测试

又分为三个子测试:

(a)图像生成能力。很简单,就是告诉LLM要生成什么东西,让它给代码。当然这里的评估不是瞎评的,有三个指标:忠实度、多样性和现实感。部分生成结果如下:

虽然是抽象画,但是简单物体还是能生成很多具有不错多样性的结果的,但是问题依然很多,例如往往生成非常粗糙、缺胳膊少腿、空间理解有问题、几乎无法绘制数字(不能画数字这个还是很有意思的,说明对于抽象点的东西,LLM的视觉理解还是差了些的)。但毕竟LLM是瞎子,也不能要求太多

(b)图像识别能力。也很简单,就是人类生成图像(也是用简单的几何图形画的抽象图)然后LLM来猜测。

这里有个稍微反直觉的结论,就是LLM的生成图像能力比识别要强,很多LLM识别不出来的东西却可以生成。这和大部分人类识别物体很准确但画不好形成了鲜明的对比。不过毕竟我们视觉是出厂配置,倒不能这样比较就是了,但确实打破了传统的“验证比生成难”的“常识”。

(c)用文本反馈改进生成。就是不断对自己的生成进行迭代,这个倒没什么值得奇怪的了。

3.第二部分:用LLM生成的图像训练视觉模型

其实这种抽象图蛮有用的,可以参考如下专栏:

【花师小哲】当代炼金术(神经网络)前沿(4)——来玩七巧板吧

要做的也很简单,我们用LLM生成的抽象图来训练一个图像分类器,然后在真实的图像上进行测试。

你还别说,效果还是很不错的,虽然没有达到SOTA(这能达到SOTA基本是想桃子了,论文猜想主要是因为抽象图缺少纹理),但还是打败了很多模型的。

之前我们也很多次讲过数据的问题了,这里的抽象图也是一种合成数据,而且看起来还挺有潜力的。

当然,之前我们也说过了,语言模型其实并不一定非得学语言,而且作为生成模型你是可以真的用图像来对其进行训练的,见:

【花师小哲】当代炼金术(神经网络)前沿(44)——语言模型战胜了Diffusion?!

4.总结

反正我看的很爽,而且本文表明了通过语言和图像能学到的表征是相似的,未来可期,未来可期。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1