音乐界 Sora 上线！AI音乐的 GPT 时刻到来了吗？

作者：AppSo发布时间：2024-04-17

Sora

Suno 爆火之后，又一个音乐界 ChatGPT 来了：Udio。

它由前 Google DeepMind 工程师开发，被硅谷知名风投 a16z、Instagram 创始人看好。

虽有爆款之相，但产品本身才能决定，Udio 可否在前辈的开荒后，再留下自己的痕迹。

体验下来发现，Udio 的缺点和优点都很明显，和 Suno 各有所长。同时，目前所有的 AI 音乐都是初听还行，听多了便会出现耳朵和大脑不耐受的情况。

🔗试用指路：https://www.udio.com/

人声更清晰的赛博点唱机

先看看 Udio 官方精挑细选的作品，直观感受好不好听。

乍一听，AI 擅长的音乐体裁挺多，很适合给团建和蹦迪热场，但留不下什么深刻印象。

反而是网友们的自发创作更有意思。从目前的热门作品来看，相比 Suno，Udio 有两个特点：一是人声更加清晰，二是曲风的既视感更强，总感觉在哪里听过。

以下这首把竞争对手 Suno 唱进词里的复古歌曲，女声比 Suno 更清晰，机器味也更少。

百老汇音乐剧版沙丘则靠创意取胜，合唱团赞美由甜茶饰演的主角保罗，融合了青少年流行、音乐剧旋律以及摇滚元素。

Udio 甚至还能模仿迪士尼歌舞片的风格，仿佛《美女与野兽》的贝儿、《阿拉丁》的茉莉公主、《冰雪奇缘》的艾莎在耳边歌唱。

‍‍‍来源：X@cryptonymics‍

‍

Udio 自己也以人声为傲，表示 AI 会很多唱法，把高亢福音、沙哑蓝调、梦幻流行、丝滑说唱一网打尽。

至于体裁和曲风方面，比较出乎意料的是，Udio 擅长古典，以下这首《C 大调快板合奏》和巴赫的勃兰登堡协奏曲非常相似。

按照 Udio 的规定，它和 Suno 一样，不支持用某个艺术家的声音生成歌曲。不过，Udio 可以用艺术家的风格作为提示词，比如「贝多芬」。甚至有网友叫嚣，如今自己也能成为古典作曲家了。

乡村音乐也是 Udio 的舒适区，《Highway Lasts》这首，有些泰勒·斯威夫特早期专辑的味道，甚至音色和唱腔也莫名形似。

官方表示，Udio 擅长的流派和风格有很多，如电子舞曲、钢琴爵士、新灵魂乐、极端金属，也精通多种语言，支持生成日本流行乐、宝莱坞音乐、俄罗斯梦幻流行音乐。

凡事不能光看说了的，也要挖掘被隐藏的。Udio 没有提及中文，可能是有意藏拙。

果然，让 Udio 唱中文歌，有种霸王硬上弓的感觉，咬字不清晰又错误频出，发音有点像塑料粤语，不知道是不是拿港台歌训练的 AI，且素材不是很够。

要不是我亲手输入了苏轼《定风波》的「竹杖芒鞋轻胜马......」，根本听不懂女声在唱什么。

让 AI 自动生成中文歌词更是灾难，时不时夹杂英语，且没有什么韵味。

Udio 生成的歌词.

生成十几遍才有一首咬字基本清晰的中文歌曲之后，我也变得佛系了。难听，不想再听，呕哑嘲哳难为听，但好不好听已经没法苛求。勉强宽慰自己，唱得还挺响亮和精神。

新手友好的开盲盒

Udio目前发布的是免费测试版，注册账号之后，每个人每月最多可以生成 1200 首歌曲，按照理想情况，40 秒内就能生成一首。

看着比 Suno 每天 50 个积分大气多了，然而官网挤爆了，服务器又不稳定，我的第一首歌三个多小时都没生成完毕，再登上去查看居然原地消失，只能重新输入提示词，之后的节奏倒是很快，基本在 2 分钟内就能生成。

而且，Udio 创作的片段，默认为 30 多秒，相比 Suno 的 2 分钟，算是大打折扣。

这些是基础设施和基本设定的问题，Udio 也有做得优秀的地方。

和 Suno 类似，Udio 的创作界面非常直观，输入提示词，点击生成，等待 AI 创作完毕。也与 Suno 一样，Udio 通过 API 调用 ChatGPT 编写歌词。

除了让 AI 自由发挥，Udio 也可以更加定制化，让你输入自己的歌词，添加具体的流派标签，选择生成纯音乐，或者包含歌词和人声的歌曲。

同时 Udio 不闲着，起到一个助手的作用，不断地给你提建议，更加新手友好。

一方面，Udio 提醒你怎么让歌词的效果更好，建议你加一些额外的标签，比如[Verse]（主歌）、[chorus]（副歌），让 AI 更好地理解歌曲的基本架构。

这点其实也写在 Suno 的社区指南里，但初次尝试的新手不一定明白，Udio 把建议写在了输入框旁边，背后原因令人暖心。

另一方面，按照你的提示词，Udio 会建议添加一些流派的标签，比如当我想要生成中国风的音乐，Udio 建议添加「traditional pop」。

Udio 还有一个手动模式（manual mode），一般来说，Udio 会改写我们的提示词，提高生成的质量。

但在这种模式下，Udio 不会做中间商，而是让你原汁原味地和模型交互，应该更适合那些本身就有音乐底子的创作人。

生成之后，Udio 还支持再加工，让你扩展音轨的长度，添加[Intro]（前奏）、[Outro]（尾奏）等部分，让作品更加完整。

这个细节 Udio 也比 Suno 做得细致，之前体验 Suno 时，我不知道可以在最前面写上[Intro]（前奏），导致生成的歌曲一开始就是人声，不太符合日常听歌的习惯。

就算 Udio 的界面做得简单，但所谓「创作」的过程，还是个开盲盒的过程，并且出错概率体感比 Suno 要多，很容易让人垂头丧气。

如果你对生成的效果不满意，不如玩玩 Udio 的随机提示词，比如「一首关于抢劫失败的合成流行音乐」「一首关于与时间赛跑的拉丁歌曲」「一首关于期待久别重逢的电子舞曲」。

抱着降低期待的心理，我们就不必将 AI 当作精准的创作工具。

如果我们在聚会、团建等场景需要歌曲调动一下氛围，那基本就够用了。这是普通音乐爱好者的赦免权，我们不必创作伟大的音乐，但可以多玩，看能不能生成自己喜欢的音乐。

允许 AI「创作」新的音乐

虽然 Udio 在 4 月 10 日才对外官宣，但这是一场事先张扬的发布，之前就有音乐泄露在 X，引起外界的关注和猜测。

类比是人类的习惯。「音乐界 ChatGPT」的名号已经被 Suno 用了，因为 Udio 可以根据文本提示，快速生成包含人声的完整音轨，支持多种风格和流派，也领了一个互联网称号：「音乐界 Sora」。

预热完了，Udio 终于露出庐山真面目，创始团队里有 4 位是 Google DeepMind 前员工。

和 Suno 一样，Udio 也是希望音乐创作更大众化，同时服务于音乐家，让创作和分享音乐更简单，让想象力变现的门槛更低。

文字、图片、音频、视频，现在的我们其实已经见过了 AI 的各种文本生成。

在 Udio 团队看来，从文本生成一首完整的歌曲，最有魔法的感觉，是个「wow event」（哇哦时刻）。

这是因为，音乐是我们更投入情感、也更愿意花时间消费的领域。

Udio 的目标不仅是拥有一个创作音乐的工具，还要搭建一个围绕它的、所有人都能参与的社区。当工具可以让人更轻松地创作时，人们就会成为创造者和消费者的混合体。

Suno 首页.

跟随 Suno 的脚步，Udio 的页面也向音乐软件看齐了，有编辑精选、流行趋势、热门类别、热门曲目等栏目分类。

Udio 首页.

但从直观的听感来说，文生音乐的 AI 工具们都还不够好。它们无法让人忘记，这是机器制作的音乐，一旦听久了，必须停下来缓缓，要不然便是头昏脑胀。

当然，初出茅庐的 Udio 还只是 v1 模型，Suno 也只是 v3 版本，进步的空间都很大。

未来，Udio 的改进方向是，让 AI 更加可控，服务于音乐人，包括导入外部曲目、添加参考人声和更加精细的创作选项。

体验 Suno 时，我们讨论过「创作的幻觉」，音乐被简化成了提示词的游戏，我们的主动权有限，也不能说自己「创作」了音乐。

Udio 给人的感觉也是如此，我们以普通人的角度体验，乐趣只是暂时的，对音乐人的敬意反而更深。

与此同时，AI 音乐生成工具可能陷入和绘画一样的版权争议，侵害音乐人的权益。就在最近，碧梨、水果姐等数百名音乐人联名呼吁，不要用 AI 取代人类艺术家。

《滚石》杂志发现，Udio 可能生成和已故歌手汤姆·佩蒂很相似的音色。Udio 回应，他们内置了一个过滤器，避免生成的声音和真人音乐家相似，但不是百分百奏效。

然而，他们没有正面回答，为什么会出现这样的情况，更没有说清楚，训练数据是什么，有没有拿受版权保护的音乐训练。

回避了版权问题的 Udio，选择以另一个角度升华工具的意义：AI 的产出本身是「变革性的」。换句话说，模型正在从训练数据中创造出新的东西。

Udio 解释，他们的目标不是复制披头士这样的伟大乐队，与其复制，不如直接听披头士。他们所做的，是让 AI 理解音乐的基础，然后创作新的音乐，既受到已有作品的启发，又完全新颖。

言下之意，不原模原样地反刍，就是创新。更多的人参与创作，就是创新。某种程度上，ChatGPT 已经实现这一点了，它可以为作家、艺术家所用，也融入我们的工作流里。

如果 AI 生成音乐的质量变得越来越好、并且越来越可控，它的「创新」能否被大多数人认同？这一切只能交给时间作答，到时候，AI 音乐的 GPT 时刻或许才真的到来。

薄型通风天窗因其自身的功能优势，受到业主和施工单位的一致好评。薄型通风排烟天窗的功能优势具体如下：一．高效通风换气功能薄型天窗能够很好地利用自然通风原理。室内外温差和自然风力是实现自然通风的两大关键因素。当室内温度高于室外时，热空气会自然上升，因为热空气密度较小。屋顶薄型通风天窗安装在建筑物的屋顶高处，热空气正好可以通过天窗排出室外。冷空气会从建筑的其进入室内，形成自然的空气对流。二．良好的采光性能许多薄型通风排烟天窗采用了透光性良好的材料如FRP采光板作为防雨板。这种材料具有高透明度、良好的抗冲击性和

麦克威排烟天窗 2024-12-26

重庆抵押车购买流程注意哪些？

在重庆购买抵押车是一种经济实惠的购车方式，但为了确保交易的安全性和车况的可靠性，需要注意以下几个重要步骤：首先，购买者需要了解抵押车的基本概念。抵押车是指因贷款未还清或其他抵押原因被质押的车辆。购买抵押车并不是违法行为，但需要特别注意车辆的法律状态。购买前，要确保车辆不存在“盗抢、走私、锁定”状态。 [图片] 在重庆，正规的抵押车交易平台或专业机构是购买抵押车的可靠渠道。这些平台通常提供完整的车辆信息，包括车辆抵押情况、使用年限等。在选择平台时，尽量选择口碑好、透明度高的平台，避免因信息不对称导致的交易

绮绱抵押车交易网 2024-12-26

蔚来ET9公然吊打迈巴赫S级？这么做，真的合适吗？

前不久，一年一度的蔚来NIO Day上，蔚来汽车带来了旗舰车型ET9。其中，蔚来ET9和迈巴赫S级通过减速带的一段视频，成为了不少媒体争议的焦点。蔚来ET9首发限量版已售罄作为蔚来汽车的旗舰车型，蔚来ET9的起售价78.8万元，首发限量版（限量999台）售价为81.8万元。这样的价格，已经达到了传统豪华品牌旗舰D级轿车的水平。截至发稿前，蔚来ET9首发限量版已经宣布售罄，足以见得消费者对其的认可。在豪华感的营造方面，蔚来ET9亮点颇多，尤其独创的天行底盘，让人眼前一亮。在NIO Day上对比迈巴赫S级的视

律驰驾道 2024-12-26

2024-2025英国BMO1第六题解答

奥数在线 2024-12-26

可灵AI进阶功能教程｜模式与运镜控制?

[图片] 如何用可灵AI做出灵动丝滑且高级的视频❓ 在制作视频时标准模式与高品质模式是什么意思呢❓ 如何做好视频的运镜控制❓ 今天这份可灵AI进阶功能教程秘籍?请收好，学会后轻松晋升AI大神?‍?～ [图片] ❤️标准模式视频生成速度快，推理成本更低。擅长生成人像、动物、以及动态幅度较大的场景，生成的动物更亲切，画面调色柔和 ❤️高品质模式视频生成细节更丰富，推理成本更高。擅长生成人像、动物、建筑、风景类等视频，细节更丰富，构图与色调氛围更高级 [图片] ✨比如 ?一只大熊猫在湖边弹吉他 ?标准模式

可灵AI 2024-12-26

音乐界 Sora 上线！AI音乐的 GPT 时刻到来了吗？

推荐体验

相关资讯

音乐界的 ChatGPT 来了

音乐界的ChatGPT来了！AI生成音乐以假乱真！

音乐界的 ChatGPT 来了 | 动察

免费AI音乐生成工具Udio来了：音乐界的Sora，Suno的最强对手！体验如何？

音乐界的 ChatGPT 来了，普通人也能“创作”音乐

近期资讯

吉利ARMORED阿莫得隐形车衣,逍遥驰骋，浩然自在！

这几个python毕设小游戏让你提前逆风翻转

麦克威-一文了解薄型通风排烟天窗的功能优势

重庆抵押车购买流程注意哪些？

蔚来ET9公然吊打迈巴赫S级？这么做，真的合适吗？

2024-2025英国BMO1第六题解答

可灵AI进阶功能教程｜模式与运镜控制?

从源码到应用：在线问诊系统与医疗陪诊APP的开发全过程详解

膜一姐和膜小二哪个隐形车衣好

如何对阴极保护系统进行长期有效的监测维护

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响