Sora一露脸,AI圈又起风云。你以为Runway、Pika那点小技能牛气冲天?Sora直接来了个60秒长视频一气呵成,把大家惊得不轻。
好奇Sora的底细的你我他,都急着想知道更多。但OpenAI玩神秘,只留下一份技术报告,让人摸不着头脑。
那就让咱们自己来揭秘Sora的神奇背后,那惊人的算力是怎样炼成的。
从DiT到Sora,Sora的灵感来源于《Scalable Diffusion Models with Transformers》。原来DiT搞图像,Sora上升到视频。最强大的DiT模型要耗费巨量算力,大概等同于一台H100跑满12天。
现在让我们来算算Sora的账。DiT只玩图像,而Sora升级打造视频。想象下,Sora能产出1分钟长度的视频,按24帧每秒来算,那就是1440帧的大工程。如果跟DiT一样的压缩技术,那潜在空间里其实就180帧。
再说说Sora的体量,绝对比675M参数的DiT大多了。有传闻说GPT3.5达到了20B,那估算Sora也在这个级别是合情合理的。
至于Sora的训练数据,OpenAI虽然没多透露,但暗示数据量巨大。假如Sora的数据集是DiT的10到100倍,那算力自然也是水涨船高。
最后的账单出炉,训练Sora所需的算力相当于14739张H100跑满一个月!
这玩意儿花费不菲,老黄笑开了花,要价4.4亿美元。
谈能耗,那更是天文数字,等同于波音757绕地球赤道173圈的碳排放。环保主义者可能要崩溃了。
我们还得买更多显卡。
推理Sora所需的资源也是天文数字,DiT-XL模型推算下来,一台Nvidia H100 GPU一个小时大概能产出5分钟视频。视频创作者若靠Sora,至少得囤积十张以上H100。
至于盈亏平衡,简单来说就是模型用得越多,成本越能回本。DiT和Sora的对比显示,Sora要生成53.4M分钟的视频才能回本,那得101.53年呢!
推理成本方面,Sora比GPT4贵多了。
虽然Sora现在烧钱厉害,但它开启了视频生成的新时代。不仅技术上有所突破,未来整个产业链都将因Sora而生变革。
Sora生成的视频已经够用了,无论是细节还是一致性。现在OpenAI正跟艺术和电影工作室合作,探索更多可能。
【体验中国版Sora公众号搜:索啦AI创意】
多媒体公司Shy Kids用Sora做了《Air Head》短片。导演Walter Woodman说,Sora不仅能创造真实感,更能造出超现实之物,让全球创作者终于能展示内心世界。
跨界创作者Don Allen III表示,长期以来他一直梦想创造出增强现实中的混合生物。现在,Sora让他从技术难题中解脱,专注于纯粹的创造。
【体验中国版Sora公众号搜:索啦AI创意】
Sora不仅是技术革新,更是视频内容创作新时代的开始。随着技术进步,每个人都能用AI讲述自己的故事,以前所未有的方式。