当前位置:首页|资讯|OpenAI|英伟达|Sora

几小时前,OpenAI 爆款工具 Sora 被取消了静音模式

作者:机器之能发布时间:2024-03-17

原标题:几小时前,OpenAI 爆款工具 Sora 被取消了静音模式

机器之能报道

编辑:Sia

简单文字提示,即可为这些“默片”增添声音效果。

当你被 OpenAI Sora 生成的这些视频震撼时,有没有潜意识里总觉得还缺点啥?

已关注

关注

重播分享

关闭

观看更多

更多

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    已关注

    关注

    重播分享

    关闭

    观看更多

    更多

      退出全屏

      视频加载失败,请刷新页面再试

      刷新

      视频详情

      已关注

      关注

      重播分享

      关闭

      观看更多

      更多

        退出全屏

        视频加载失败,请刷新页面再试

        刷新

        视频详情

        这些视频和电影诞生时的默片“短视频”是不是差不多?这是1895 年路易斯·卢米埃尔导演的《火车进站》,固定机位,一镜到底拍摄火车开进站台的场景。

        已关注

        关注

        重播分享

        关闭

        观看更多

        更多

          退出全屏

          视频加载失败,请刷新页面再试

          刷新

          视频详情

          电影《工厂大门》的效果是这样的:

          已关注

          关注

          重播分享

          关闭

          观看更多

          更多

            退出全屏

            视频加载失败,请刷新页面再试

            刷新

            视频详情

            不过,即使是默片也并非一点声音也没有。放映时,影院里会有乐团(大到一个乐团、小到一位钢琴师)根据剧情演奏音乐,用音乐渲染情绪,推动情节发展。现在,AI 语音克隆初创公司 ElevenLabs 也率先为一堆 Sora 创建的视频添加了背景声音,相当逼真。

            已关注

            关注

            重播分享

            关闭

            观看更多

            更多

              退出全屏

              视频加载失败,请刷新页面再试

              刷新

              视频详情

              ElevenLabs 发布的 AI Sound Effects 的预告片,选择当下大热的Sora 视频体现新模型的能力。

              在这个长达 1 分钟的视频中,所有声音——从城市喧闹背景下繁忙街道上的脚步声、海浪声、火车运行时有节奏的咔哒声、新年热闹的人群、未来机器人的机械声到好莱坞风格的宣传短片人声,等等——都由文本到音频提示生成。

              “我们使用‘海浪撞击’、‘金属铿锵声’、‘鸟鸣声’和‘赛车引擎’等文本提示来生成音频,并将其叠加到我们最喜欢的一些 OpenAI Sora 视频上。”该公司在一篇博文中写道。

              ElevenLabs 表示,他们正在开发一个新产品,可以根据用户给出的场景描述生成声音,为原本无声的视频片段添加声效。这次给 Sora 生成的内容添加效果,算是一次牛刀初试。预告片出来后,有不少赞叹的声音。

              linkedin用户的支持声

              linkedin用户的支持声

              x 平台用户的支持声

              也不乏批评的声音,认为这些 AI 合成的声音没有“爱”和“细节”......

              以 Sora、Runway、Pika 等工具为代表,完全由 AI 生成的内容正在兴起,效果逼真,但缺乏背景音频,这就是 ElevenLabs 新模型的用武之地,它允许用户通过描述他们想要的内容来为其内容制作声音效果。

              ElevenLabs 表示,尚未准备好发布其文本到音效模型,但上线后它将能够帮助内容创作者创建全方位的声音,包括脚步声、波浪声和氛围声等。

              市场上已经有一些文本到音效模型,不过通常围绕音乐 AI 模型构建,包括 myEdit、AudioGen 和 StabilityAI 的 Stable Audio等。除了 AI 生成的内容,ElevenLabs 新模型产生的声音甚至可以应用于任何其他需要背景音效的视频。比如 Instagram 视频、商业或视频游戏预告片等。最终效果如何,还有待检验。

              虽然声效都是文本提示生成,但要生成正确的模拟效果并不容易。系统要同时针对文本和视频像素进行学习。“学习精确的视频-音频映射,还需要在潜在空间中建模一些‘隐含的’物理现象。” 英伟达 AI 科学家 Jim Fan 也关注到了 ElevenLabs 的新产品。

              他同时指出,一个端到端的 Transformer 要正确模拟声效,要搞清楚很多事情。比如确定每个物体的类别、材料和空间位置、击中的是木制、还是金属表面?速度如何?处在什么样的空间环境?等等。“目前,我们还没有这么高质量的 AI 音频引擎。”他写道。

              ElevenLabs 成立于 2022 年,由前谷歌机器学习工程师 Piotr Dabkowski 和前 Palantir 部署策略师 Mati Staniszewski 共同创立。此后,公司推出了由 AI 驱动的文本转语音软件和自动翻译的 AI 配音工具,可将视频中的演讲翻译成 20 多种语言,依旧“保持原来的语气和风格”。今年年初,这家公司凭借最近 8000 万美元的 B 轮融资跻身 AI 独角兽行列。

              新模型可能会给 ElevenLabs 带来先发优势,但值得注意的是,活跃在 AI 语音领域的其他几家公司也有潜力涉足这一领域。其中包括 MURF.AI、Play.ht 和 WellSaid Labs 等知名厂商。接下来,应该会涌现一批能够分析视频内容并正确自动添加声音效果的工具。

              生成式 AI 的梦想之一是能够通过单一提示创建完整、全面的内容。随着文本转音效、AI 视频和合成语音等技术的进步,我们正在逐渐靠近这个梦想。

              想体验 ElevenLabs 最新的 AI Sound Effects ?不妨先注册等待吧,这里有传送门:

              https://form.typeform.com/to/gg0xzZW4

              参考链接

              https://elevenlabs.io/blog/ai-sound-effects-are-coming-soon/

              © THE END

              转载请联系本公众号获得授权

              投稿或寻求报道:content@jiqizhixin.com


              Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1