几小时前，OpenAI 爆款工具 Sora 被取消了静音模式

作者：机器之能发布时间：2024-03-17

机器之能报道

编辑：Sia

简单文字提示，即可为这些“默片”增添声音效果。

当你被 OpenAI Sora 生成的这些视频震撼时，有没有潜意识里总觉得还缺点啥？

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

这些视频和电影诞生时的默片“短视频”是不是差不多？这是1895 年路易斯·卢米埃尔导演的《火车进站》，固定机位，一镜到底拍摄火车开进站台的场景。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

电影《工厂大门》的效果是这样的：

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

不过，即使是默片也并非一点声音也没有。放映时，影院里会有乐团（大到一个乐团、小到一位钢琴师）根据剧情演奏音乐，用音乐渲染情绪，推动情节发展。现在，AI 语音克隆初创公司 ElevenLabs 也率先为一堆 Sora 创建的视频添加了背景声音，相当逼真。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

ElevenLabs 发布的 AI Sound Effects 的预告片，选择当下大热的Sora 视频体现新模型的能力。

在这个长达 1 分钟的视频中，所有声音——从城市喧闹背景下繁忙街道上的脚步声、海浪声、火车运行时有节奏的咔哒声、新年热闹的人群、未来机器人的机械声到好莱坞风格的宣传短片人声，等等——都由文本到音频提示生成。

“我们使用‘海浪撞击’、‘金属铿锵声’、‘鸟鸣声’和‘赛车引擎’等文本提示来生成音频，并将其叠加到我们最喜欢的一些 OpenAI Sora 视频上。”该公司在一篇博文中写道。

ElevenLabs 表示，他们正在开发一个新产品，可以根据用户给出的场景描述生成声音，为原本无声的视频片段添加声效。这次给 Sora 生成的内容添加效果，算是一次牛刀初试。预告片出来后，有不少赞叹的声音。

linkedin用户的支持声

x 平台用户的支持声

也不乏批评的声音，认为这些 AI 合成的声音没有“爱”和“细节”......

以 Sora、Runway、Pika 等工具为代表，完全由 AI 生成的内容正在兴起，效果逼真，但缺乏背景音频，这就是 ElevenLabs 新模型的用武之地，它允许用户通过描述他们想要的内容来为其内容制作声音效果。

ElevenLabs 表示，尚未准备好发布其文本到音效模型，但上线后它将能够帮助内容创作者创建全方位的声音，包括脚步声、波浪声和氛围声等。

市场上已经有一些文本到音效模型，不过通常围绕音乐 AI 模型构建，包括 myEdit、AudioGen 和 StabilityAI 的 Stable Audio等。除了 AI 生成的内容，ElevenLabs 新模型产生的声音甚至可以应用于任何其他需要背景音效的视频。比如 Instagram 视频、商业或视频游戏预告片等。最终效果如何，还有待检验。

虽然声效都是文本提示生成，但要生成正确的模拟效果并不容易。系统要同时针对文本和视频像素进行学习。“学习精确的视频-音频映射，还需要在潜在空间中建模一些‘隐含的’物理现象。” 英伟达 AI 科学家 Jim Fan 也关注到了 ElevenLabs 的新产品。

他同时指出，一个端到端的 Transformer 要正确模拟声效，要搞清楚很多事情。比如确定每个物体的类别、材料和空间位置、击中的是木制、还是金属表面？速度如何？处在什么样的空间环境？等等。“目前，我们还没有这么高质量的 AI 音频引擎。”他写道。

ElevenLabs 成立于 2022 年，由前谷歌机器学习工程师 Piotr Dabkowski 和前 Palantir 部署策略师 Mati Staniszewski 共同创立。此后，公司推出了由 AI 驱动的文本转语音软件和自动翻译的 AI 配音工具，可将视频中的演讲翻译成 20 多种语言，依旧“保持原来的语气和风格”。今年年初，这家公司凭借最近 8000 万美元的 B 轮融资跻身 AI 独角兽行列。

新模型可能会给 ElevenLabs 带来先发优势，但值得注意的是，活跃在 AI 语音领域的其他几家公司也有潜力涉足这一领域。其中包括 MURF.AI、Play.ht 和 WellSaid Labs 等知名厂商。接下来，应该会涌现一批能够分析视频内容并正确自动添加声音效果的工具。

生成式 AI 的梦想之一是能够通过单一提示创建完整、全面的内容。随着文本转音效、AI 视频和合成语音等技术的进步，我们正在逐渐靠近这个梦想。

想体验 ElevenLabs 最新的 AI Sound Effects ?不妨先注册等待吧，这里有传送门：

https://form.typeform.com/to/gg0xzZW4

参考链接

https://elevenlabs.io/blog/ai-sound-effects-are-coming-soon/

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

几小时前，OpenAI 爆款工具 Sora 被取消了静音模式

推荐体验

相关资讯

几小时前，OpenAI 爆款工具 Sora 被取消了静音模式

前OpenAI CEO：下一代Sora将能令视频长度从几秒增加到几小时

国内团队发布“视频生音频”通用工具Sora Opera，文生视频解除“静音模式”

几小时之内陷入生死存亡？OpenAI灵魂人物奥特曼为何被罢免

因表现不佳，OpenAI 取消了 AI 文本检测器

近期资讯

江西兆驰半导体取得发光二极管芯片专利，提升了芯片出光效果

深圳市大合半导体科技有限公司取得荧光胶量可控型LED灯封装结构专利，能够防止因为荧光胶过多而造成LED灯透光性下降

硅能光电取得双发光区域倒装LED芯片封装结构专利，在需求发光亮度较低时具备更好光集中度及更高反射光效

湖南志浩航精密科技取得液冷散热组件及芯片封装结构专利，提高散热效率

安徽吕顺智能科技取得一种光伏玻璃背板压合装置专利，提高背板压合效果

湖北瑞华光电取得一种LED背光模组及显示装置专利，能使LED背光模组整体亮度提升

帝晶光电取得均匀出光的MiniLED芯片背光模组专利，有助显示更均匀

惠州市金刚自动化取得极片防抖装置专利，实现防抖效果

成都格林纳光取得半导体量子点发光二极管封装结构专利，避免环氧树脂套和封装固定座之间易发生断裂

蔚来电池科技（安徽）取得极片及具有该极片的电芯专利，确保锂离子电池的安全性能

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响