我们越来越接近大一统,接近智能的本质。
作者|甲小姐 刘杨楠
经过1个月的发酵,国内AI从业者们对Sora的态度正发生着微妙的转变,从最初的震撼,到被未知裹挟的好奇、质疑,再到最近开始隐约出现“复现Sora”的潮流。
1份技术报告,32篇引用论文,一些画面堪比电影镜头的demo和1个故作高深的“世界模拟器”概念就是OpenAI给出的全部,没有技术论文,也没有可公开体验的产品入口。
OpenAI给全世界出了一系列谜题——Sora的技术架构到底是什么?和ChatGPT有什么联系?训练Sora是否会烧掉更多资金和算力?开源有机会反超Sora吗?OpenAI口中的“世界模拟器”到底是什么......?
本次对话的主人公李志飞,便是冲在一线破解谜题的人。
李志飞,出门问问创始人、CEO,美国约翰霍普金斯大学计算机系博士,前Google总部科学家,自然语言处理及人工智能专家,创业10年主导开发过语音助手、智能硬件,以及多个AIGC产品,如魔音工坊、奇妙元。
2022年底,感受到ChatGPT带来的心智冲击后,李志飞直接飞到美国,在距离OpenAI最近的地方寻找答案;但今年,李志飞没跟任何人聊,在他看来,“OpenAI很狡猾,他们试图隐藏一些东西”,而目前国内外社交媒体上对Sora激情评论的人基本“都是瞎猜”。
“过多的猜测只会浪费时间,既然找不到答案,还不如自己研究。”近一个月,李志飞一门心思研究Sora的原理,他几乎看遍了OpenAI列出的32篇论文。现在,他已经拼出了一幅完整的Sora技术架构图。
一年前,几乎是相同的时间,「甲子光年」曾与李志飞围绕ChatGPT的“炼丹大会”有过一次对话;一年后,甲小姐再次对话李志飞,主题转变为“理解Sora,复现Sora”。
1.谈感受:“理解是没有终点的,我们只能无限逼近真相”
“我不觉得他们能有比我更深的认知,都是瞎猜。 既然找不到真正的答案,我还不如自己研究。”
甲小姐:到今天为止,你对Sora理解到什么程度?
李志飞:我基本读完了所有Sora相关的论文,对Sora的理解更深了。但理解Sora不是封闭的数学题,现在我们对Sora的理解可能逻辑起点都是错的,是否在某个地方做了隐性假设都不知道。理解是没有终点的,我们只能无限逼近真相。
甲小姐:Sora跟ChatGPT相比,谁给你的震撼更大?
李志飞:从原理突破来说,肯定是ChatGPT,或者说是它背后的GPT。今天,很多人都看过GPT许多相关论文,但还是很难理解大语言模型为啥有思维链(CoT)以及上下文学习(ICL)的能力,这是心智上的冲击。而Sora真正的冲击不在原理突破,因为ChatGPT出现后我们都能预见到AI生成高质量视频是必然的,只是没料到会这么快。Sora的冲击是它生成视频的时长、高质量以及一致性。
甲小姐:Sora在业内引起的反响跟ChatGPT相比,哪个势能更大?
李志飞:ChatGPT在2022年11月底发布,国内23年1月底才开始大规模讨论,2月左右出现创业潮,大概有三四个月的时间大家都非常兴奋,觉都睡不着,Sora肯定没到这种程度。一个重要原因是ChatGPT能直接体验。Sora的下一次高峰可能是OpenAI开放体验的时候,现在降火速度非常快。
甲小姐:有人把Sora类比为GPT-3.5时刻,你认同吗?
李志飞:这完全不对,如果一定要类比,Sora应该是GPT-2到GPT-3的过渡。因为GPT-2跟GPT-3原理上没什么区别,但GPT-3证明了Scaling law(规模法则)在文本数据上work,Sora进一步证明了Transformer和Scaling law在视频上同样能work。
甲小姐:OpenAI没有把Sora开放给大众使用,有没有一种可能是,现在的demo是他们精心筛选的结果,Sora的真实能力远不及此?
李志飞:有可能。除非Meta的LLaMA-3也立马搞一个开源模型,能复现类似Sora的效果,以此证明Transformer和Scaling law确实能在视频生成领域规模化work。
甲小姐:OpenAI可能会在什么时候开放Sora的使用?
李志飞:具体何时不知道,OpenAI的Sora团队已在最新访谈中明确表示不会很快发布。如果Sora要商业可用,除了解决渲染速度、时间、成本等问题外,版权问题也是一个难点。
文本的版权已经被搜索引擎重塑了一遍。2005-2010年,纽约时报等传统媒体不断诉讼谷歌搬运他们的原创内容。经过十几年的博弈,各方对文字内容版权基本形成共识。视频还没有经过这样的洗牌,大家的版权保护意识非常强。Sora要真正开放使用