当前位置:首页|资讯|ChatGPT

Sora 带来的四点启发

作者:AppSo发布时间:2024-02-19

原标题:Sora 带来的四点启发

作者:王兆洋 文章来源:硅基立场

Sora 的发布是一件大事,大到开始出现人传人的「出来见上帝」现象,而到底为何大却无人关心。观察各种讨论后还是觉得有些重要的东西没有说透,把很多信息和思考串起来总结成了四条「启发」,提前剧透,以下这里没有见上帝部分。

视觉数据能训练出更强的泛化能力?

ChatGPT 标志着语言模型完成了「涌现」拥有了泛化能力。之后我一直很好奇不同模态的训练数据混合的效果,以及谁才是泛化能力诞生过程里决定性的那一个。

在去年前半年我遇到每个做图像或视频生成模型的人都会问他一个问题:语言模型模块在图像或视频模型里到底有多关键?

后来 Dalle3 似乎回答了这个问题,它的能力突破被广泛认为来自 GPT 提供的语言模型板块的强大能力。

去年底我的这个保留问题变成了:如果用了正确的方法,只用图像或者视频数据训练出来的模型,泛化能力会是怎样?

这个好奇来自两个判断,一个是视频数据是「全互联网的文字数据都被用完了」之后的下一个增量;另一个,是视频数据被广泛认为信息密度不如文字,因此它与智慧的关系也不如文字。

但我认为它包含的是另一种抽象维度的信息,比如时空关系和物理规律等,这些都因为数据「非格式化」而未被「开发」,但它潜力巨大。

在我有限的翻阅论文的经验里,有一篇关于多模态领域重要的模型 VLMO 的论文里,曾提到一个有意思的实验结论:当你完全拿一个在视觉数据上训练好的模型,可以直接对文本数据建模,甚至不需要微调就可以有很强的文本生成能力。

但反过来用语言训练在视觉上生成,则差很多。后来去年 MJ6V 的一个重要功能提升也是文字生成,它用扩散模型的思路带来了语言能力,这都让我更加好奇。

而这一次 Sora 某种程度就是在回答这个问题:它把视频数据统一了,然后用大语言模型的方法理解视频,最后产生了对物理世界的「涌现」也就是泛化能力。这种能力是语言模型无法得到的。

这是很重要的一个信息。这可能不只是对理解AI有帮助,对理解我们作为人的一些智能也有帮助。

另外再提一个很有意思的细节,Sora 这个模型的名字取自一个日语单词,Sora 在日语是天空的意思。而这个词在日语里有时候会用作动词,意思是「用心记,而不用看任何写下来的材料」,变化出来的词比如「Soranjiru」, そらんじる 的意思就是「remember by heart」。

这不就是 Sora 的能力。

现在 OpenAI 只剩下一条路线:Scaling Law

从 Sora 可以确定的信息来看,它的成功靠的是在所有人认为已经证明不可能的情况下,用数据精确处理后的大规模预训练硬生生带来了涌现——熟悉么,对,就是 ChatGPT 的又一次重演。

而这也是 OpenAI 的 Scaling law 的又一次成功。而过去很长一段时间很多人开始质疑 Scaling law。

比如在过去几个月跟业界一线从业者交流中,大家几乎默认 GPT4 就是一个 MOE(专家模型,由一群不同模型组成的大模型),而这被解读为单一模型能力撞墙,暗含着 OpenAI 坚持的 scaling law 的破产。

但现在看,可能并非如此。在 Sora 的技术报告里有一句很有意思的话:

「Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.」

「最大模型」。这句话有些故意含糊,是 OpenAI 最大的模型?比 GPT5 还大?还是这个系列最大的模型?最大的大又指的是什么大?

总之,大力出奇迹仍在继续。

OpenAI 的 Scaling law 原本是它的研究中得出的一个学术结论,它来自 Ilya 和 Karpathy 等 OpenAI 的顶尖科学家们,但它正在快速变成一种路线,充满 Altman 意志的路线,变成这家公司的核心战略

Altman 和科学家们的关系也呈现一种智术师与统治者的关系,思想体系诞生于前者,但最终为被后者按照个人意志改造。

不知所踪的 Ilya 和刚刚离职的 Karpathy,作为 OpenAI 曾经最有代表的科学家都强调过 scale 的重要,但前者很快开始警惕无限扩张过程里的失控危险,于是开始超级对齐项目,而这个项目在 OpenAI 拿不到足够算力资源也被认为是宫斗爆发的导火索之一。

Karpathy 则是从科研角度想弄清楚 scale 和算法的关系,提出「Algorithmic progress was necessity, now bonus」。而这句话带来的一统天下的前景,显然在「野心家」眼里会超过一切。

所以,今天如果把 Scaling law 视作这家公司的唯一路线,Altman 最近的很多动作也就更好理解:

在竞争上,7 万亿的传言,就是比别人更早 scale 到一个临界点,并且让其他人没卡可以用来 scale,让自己的规模冲到极致从而让别人无路可走。

在研究上,不再给学术界的研究足够的 credit,也不认为有必要给。前者聚拢来的资源远超提出一些研究方法的学界,于是任何人的研究,都能变成他的成果——学术界造出来的,OpenAI 全吞掉。

今天可以看到,每次 OpenAI 的新东西出来,都会有人出来「维权」原创,从 Q* 到今天 sora 背后的 patch,推特上一名支持开源的学者说到:今天已经没有任何一条学术规范没有被 OpenAI 无视过。

而且这些都是 Altman 的「哲学」之一。几天前我刷到奥特曼的一条推特:

you have a right to your actions,

but never to your actions' fruits.

当时还在想这是什么意思,紧接着 Sora 来了,Karpathy 走了。我们也明白了。

Ilya 和 Karpathy 两个在坚持闭源的决心上远没有 Altman 坚定,对开源一直比较暧昧的人,最终成了这一切的注脚。

这一切是不是也让你感到很熟悉?Scaling law 正在被 Altman 演化成 OpenAI 版的 moving fast and break everything 。也许这也是今天逼出了一个最强扎克伯格的原因。

这也再次说明 Altman 和扎克伯格可能才是同一类人。

这只是我们和 AGI 的第一次亲密接触,一切仍在中间态

这几天人们拿各种文生视频产品和 Sora 对比,发现它全面碾压,而非各有所长。这其实反而更说明它是视觉模型本身的 ChatGPT 时刻,第一次证明这条路线可行,并让人们看到未来雏形。

不过,Sora在生成视频的意义之外,还在于语言模型突破后又迎来视频和物理世界虚拟生成的突破,所以更大的意义是向着AGI前进的一个里程碑。

GPT4 出现后,微软当初那篇全面评测的论文,取名通用人工智能的火花,它的团队原本起的标题叫做:与通用人工智能的第一次接触。而从迈向更通用的智能的意义来看,Sora 更适合这个标题。

它预示着新拼图会继续不断出现,也意味着一切都还没到「彻底变天」,反而今天的一切都只是中间态。

Sora 对 Dalle3 的冲击已经很容易想到,而被 Sora 强行抢了头条的 Gemini 不仅明确用了 MOE,而且第一次达到 100 万上下文长度——这已经不是对语言模型的突破。

当你可以有 100 万上下文,你可以放进更多模态的数据,所以这样看它是和 Sora 有直接竞争关系的,为什么要选在 Gemini 1.5 后几小时急着用一个「PPT」发布 Sora,可能也更好理解了,OpenAI 比谁都明白,有了上下文长度就有了一切,不管你叫什么模态的模型。

这一切都指向今天还被认为是最强大的 GPT——它也只是个中间态。一切都还有机会。

不必妄自菲薄

说实话,从 OpenAI 去年宫斗闹剧到今天的 Sora 发布,围绕它们的刷屏让我非常羡慕,多希望有我们自己的企业和产品和明星人物也能获得如此高度讨论。

其实从宫斗的处理,到今天 Sora 发布,OpenAI 的每一次重要的动作和发布,都配合着一场场精巧设计的叙事和 campaign,它的设置议题的能力,节奏控制,公众引导熟练自如。哪怕你只想喊两句「中美差距拉大」吃一吃情绪馒头,也至少该知道这一切。

OpenAI 是在 gpt4 已经训练出来后,才决定发布基于 Gpt3.5 的 ChatGPT,Altman 在去了国会听证并高声呼吁要减速 AI 的发展、政府多多监管后,转头几天就按下按钮发布了 ChatGPT 的 app。

Anthropic 拿到亚马逊的最重要一笔融资后,发现 OpenAI 给 ChatGPT 做了第一次大更新,上线了语音和图像功能,以及这一次还没 ready Sora 硬GoogleGemini 的头条,Altman 掌控下的 OpenAI 议程设置上几乎登峰造极。

此外,OpenAI的每个人几乎都是一个品牌,都是一个推特上的AI界马斯克。一次发布,团队就多几个明星人物,成为以后媒体们选题的天然来源。

而且这种同样的模式已经越来越明显的在硅谷 AI 创业公司蔓延开来,比如号称要干掉 Google 的 perplexity 的印度 CEO,比如从传统浏览器变成「要再造一个互联网那么大的平台」的Arc浏览器。

而这背后与 AI 行业发展急需的资源,人才,注意力,市场竞争等直接挂钩。

中国的同行们似乎已失去了这个能力。努力追赶是必须的,但作为一个天天和一线创业者打交道的人,我开始感觉我们对自己严苛到妄自菲薄的事实也在起着反作用。

我们不缺同样带来极佳体验的 AI 模型和产品,也不缺技术社区影响力极佳的个体和作品,但却没有在我们自己的讨论里形成该有的关注。

也许所有人该放开一些包袱了。

OpenAI 不是 transformer 发明者,Stable Diffusion 不是 diffusion 发明者,Mistral 不是 MOE 发明者,其实如果对标,它们本质都可以理解是一个个 ASML,所以「我们为什么没有诞生 OpenAI」是不是并不等于「我们为什么没从头发明某某技术」?

对原创技术的理解和定义是不是在我们妄自菲薄的过程里被扩大化了,是不是哪怕一家像 ASML 这样的「只做沙子的搬运工」的公司今天诞生在中国也躲不过先被骂套壳的命运?

有时候,问题提错了可能一切就都错了。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1