小更新一篇专栏,虽然确实没有太多可写的,但这篇论文确实很有意思(这次甚至都不打草稿了):
没错,语言模型在图片和视频生成中打败了之前的AI明星选手、将AIGC盘活的Diffusion,这可有的说道说道了。Diffusion模型见:
【花师小哲】当代炼金术(神经网络)前沿(8)——Diffusion
1. 语言模型
可能很多同学会疑惑,哎,不是说“语言模型”嘛,怎么能生成图像的?
其实之前在某PPT已经提到过了:
没错,最原教旨的语言模型实际上就是指的是唯一目的就是根据现有输入预测下一个东西(可以使一个字符、一个字词或一个单词,甚至是一个实体等)的模型,只不过在语言中用的多,例如输入法、搜索框等都是语言模型,即使强如GPT-4,它唯一在做的其实也是生成下一个token,真的是一个词一个词地往外蹦。
也许很多朋友也知道ASCII画,就是一堆字符组成的图画,再往深了说,图片不也是一个个的像素点嘛,就当成数字一个个预测就可以了啊。甚至之前马里奥GPT也是类似的原理:
【花师小哲】鉴定网络热门(?)AI(3)——GPT制作马里奥关卡?
2. 这次的突破
你能生成,不代表你生成的好,不然世界上只要最基础的神经网络——MLP不就够了嘛。
长期以来,语言模型在图像和视频生成领域都是被Diffusion这样的模型暴打的。
而这篇论文认为,要提升语言模型生成图像和视频的能力,关键在于对视觉元素的tokenizer,就是决定好每次生成的东西的表示方法。具体细节难以科普(我自己也对计算机视觉不是很熟),就不放了。
总之,这篇论文最终让语言模型达到了SOTA。
3. 更深的研究意义
如果单单是达到SOTA,那还没那么多好讲的。
我们知道,GPT-4V之前发布了,又引发了不小的轰动,我导师国庆假期几乎天天熬夜加班,非常发愁,但GPT-4V也只是能够输入两个模态(语言+视觉),输出依然只有语言一种。
要想真正做到模态的大一统,我们需要将各种模态统一成一个“东西”,没错,就是语言模型要预测的那个东西,这工作也已经有人在做了。
你说为什么一定要用语言模型来统一呢?主要是目前来看语言模型作为基底仍然占优,比视觉作为基底的多模态模型灵活多了。而且现在的视觉模型的参数量普遍离语言模型差几个量级,作为“整合模型”来说能力很可能不足。
4. 小结
不多说了,维特根斯坦信仰+1。
花师小哲-中二 2023-02-26
花师小哲-中二 2023-02-27
花师小哲-中二 2023-05-30
花师小哲-中二 2023-02-15