当代炼金术（神经网络）前沿（52）——大模型：每天看书半小时，用画画养活自己

作者：花师小哲-中二发布时间：2024-01-31

GPT-4 AGI 苹果编程

因为真的想把这个标题打完全，所以就就把开头的【花师小哲】去掉了QAQ

这次我们来看一篇非常有趣的论文：

1.语言模型可以单纯通过学习语言获得视觉“概念”吗

在GPT-4的“曙光”论文中，有这样一类测试，即测试GPT-4（纯正的语言模型版本，不是现在的GPT-4V）生成图像的能力，其中一个特别经典的示例就是画独角兽，据说现在也是每天更新一张：

【花师小哲】鉴定网络热门（？）AI（7）——GPT4：AGI的曙光？

不过也不能说完全不能理解吧，例如我们日常可能就说“苹果是圆的”，然后再一些代码数据中有画圆的代码，那么语言模型应该是可以将两者联系起来的。

当然，GPT-4生成图像的方法大体分为两种，一种是直接生成像素值和符号（例如你现在就可以进入ChatGPT或GPT-4之类的让它给你画一张ASCII码画），但这个难度对于LLM（大语言模型）来说还是太高了，另一种就是通过代码生成，例如我用代码画两个同心圆，这就是煎蛋了。（还有方法就是调用工具的生成了，例如调用DELL·3）

本文作为一篇评估LLM视觉能力的论文，采用的就是后者，即以代码为中介的视觉能力评估，整体分为两部分，见下图：

2.第一部分：对LLM进行直接的测试

又分为三个子测试：

（a）图像生成能力。很简单，就是告诉LLM要生成什么东西，让它给代码。当然这里的评估不是瞎评的，有三个指标：忠实度、多样性和现实感。部分生成结果如下：

虽然是抽象画，但是简单物体还是能生成很多具有不错多样性的结果的，但是问题依然很多，例如往往生成非常粗糙、缺胳膊少腿、空间理解有问题、几乎无法绘制数字（不能画数字这个还是很有意思的，说明对于抽象点的东西，LLM的视觉理解还是差了些的）。但毕竟LLM是瞎子，也不能要求太多

（b）图像识别能力。也很简单，就是人类生成图像（也是用简单的几何图形画的抽象图）然后LLM来猜测。

这里有个稍微反直觉的结论，就是LLM的生成图像能力比识别要强，很多LLM识别不出来的东西却可以生成。这和大部分人类识别物体很准确但画不好形成了鲜明的对比。不过毕竟我们视觉是出厂配置，倒不能这样比较就是了，但确实打破了传统的“验证比生成难”的“常识”。

（c）用文本反馈改进生成。就是不断对自己的生成进行迭代，这个倒没什么值得奇怪的了。

3.第二部分：用LLM生成的图像训练视觉模型

其实这种抽象图蛮有用的，可以参考如下专栏：

【花师小哲】当代炼金术（神经网络）前沿（4）——来玩七巧板吧

要做的也很简单，我们用LLM生成的抽象图来训练一个图像分类器，然后在真实的图像上进行测试。

你还别说，效果还是很不错的，虽然没有达到SOTA（这能达到SOTA基本是想桃子了，论文猜想主要是因为抽象图缺少纹理），但还是打败了很多模型的。

之前我们也很多次讲过数据的问题了，这里的抽象图也是一种合成数据，而且看起来还挺有潜力的。

当然，之前我们也说过了，语言模型其实并不一定非得学语言，而且作为生成模型你是可以真的用图像来对其进行训练的，见：

【花师小哲】当代炼金术（神经网络）前沿（44）——语言模型战胜了Diffusion？！

4.总结

反正我看的很爽，而且本文表明了通过语言和图像能学到的表征是相似的，未来可期，未来可期。

相关资讯

当代炼金术（神经网络）前沿（52）——大模型：每天看书半小时，用画画养活自己

推荐体验

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（16）——语言模型的其他出路

【花师小哲】当代炼金术（神经网络）前沿（44）——语言模型战胜了Diffusion？！

【花师小哲】当代炼金术（神经网络）前沿（36）——ChatGPT比我会砍价

【花师小哲】当代炼金术（神经网络）前沿（10）——Diffusion是记忆者？

【花师小哲】当代炼金术（神经网络）前沿（45）——大模型自迭代遇到回旋镖？

近期资讯

哈弗上市5天交付超900台！待交付订单6029台

老黄刀法无敌！曝RTX 5080效能不及4090：特供5080D要无

累计行驶超1.5亿公里！捷途国庆出行报告发布

Steam新规则发布：玩家购买的游戏仅享有使用权

为电动汽车增添乐趣！本田有望推出电车专用模拟变速箱

带油箱就是好卖！阿维塔07上市17天大定超2.5万台

小鹏P7+电驱细节图首次公开！最大能力放开达270kw

鑫谷电源翻身之作！昆仑九重KE-1300P评测

售价1800万限量399台！我佩服迈凯伦做超跑的勇气

为生产磷酸铁锂电池做准备：特斯拉招聘电池材料工程师

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响