这项研究为语言模型更好地理解物理世界铺平了道路。最近,谷歌发布的Gemini 1.5多模态模型和OpenAI的视频生成技术Sora引发了科技界的广泛讨论。Gemini 1.5以其处理百万级别上下文的能力受到赞誉,而Sora模型因能够理解物理运动中的世界而被誉为“世界模型”。尽管它们的技术成就令人瞩目,但仍有局限性,例如Sora模型在复现一些复杂场景,比如逆向跑步机上跑步的人时,就显得有些力不足。随着大模型技术的迅猛发展,我们也逐渐意识到了它们的局限性。例如,对于那些难以用语言描述的现实世界内容,...【查看原文】