当前位置:首页|资讯|Sora

音乐界 Sora 上线!AI音乐的 GPT 时刻到来了吗?

作者:AppSo发布时间:2024-04-17

原标题:音乐界 Sora 上线!AI音乐的 GPT 时刻到来了吗?

Suno 爆火之后,又一个音乐界 ChatGPT 来了:Udio。

它由前 Google DeepMind 工程师开发,被硅谷知名风投 a16z、Instagram 创始人看好。

虽有爆款之相,但产品本身才能决定,Udio 可否在前辈的开荒后,再留下自己的痕迹。

体验下来发现,Udio 的缺点和优点都很明显,和 Suno 各有所长。同时,目前所有的 AI 音乐都是初听还行,听多了便会出现耳朵和大脑不耐受的情况。

🔗试用指路:https://www.udio.com/

人声更清晰的赛博点唱机

先看看 Udio 官方精挑细选的作品,直观感受好不好听。

乍一听,AI 擅长的音乐体裁挺多,很适合给团建和蹦迪热场,但留不下什么深刻印象。

反而是网友们的自发创作更有意思。从目前的热门作品来看,相比 Suno,Udio 有两个特点:一是人声更加清晰,二是曲风的既视感更强,总感觉在哪里听过。

以下这首把竞争对手 Suno 唱进词里的复古歌曲,女声比 Suno 更清晰,机器味也更少。

百老汇音乐剧版沙丘则靠创意取胜,合唱团赞美由甜茶饰演的主角保罗,融合了青少年流行、音乐剧旋律以及摇滚元素。

Udio 甚至还能模仿迪士尼歌舞片的风格,仿佛《美女与野兽》的贝儿、《阿拉丁》的茉莉公主、《冰雪奇缘》的艾莎在耳边歌唱。

‍‍‍来源:X@cryptonymics

Udio 自己也以人声为傲,表示 AI 会很多唱法,把高亢福音、沙哑蓝调、梦幻流行、丝滑说唱一网打尽。

至于体裁和曲风方面,比较出乎意料的是,Udio 擅长古典,以下这首《C 大调快板合奏》和巴赫的勃兰登堡协奏曲非常相似。

按照 Udio 的规定,它和 Suno 一样,不支持用某个艺术家的声音生成歌曲。不过,Udio 可以用艺术家的风格作为提示词,比如「贝多芬」。甚至有网友叫嚣,如今自己也能成为古典作曲家了。

乡村音乐也是 Udio 的舒适区,《Highway Lasts》这首,有些泰勒·斯威夫特早期专辑的味道,甚至音色和唱腔也莫名形似。

官方表示,Udio 擅长的流派和风格有很多,如电子舞曲、钢琴爵士、新灵魂乐、极端金属,也精通多种语言,支持生成日本流行乐、宝莱坞音乐、俄罗斯梦幻流行音乐。

凡事不能光看说了的,也要挖掘被隐藏的。Udio 没有提及中文,可能是有意藏拙。

果然,让 Udio 唱中文歌,有种霸王硬上弓的感觉,咬字不清晰又错误频出,发音有点像塑料粤语,不知道是不是拿港台歌训练的 AI,且素材不是很够。

要不是我亲手输入了苏轼《定风波》的「竹杖芒鞋轻胜马......」,根本听不懂女声在唱什么。

让 AI 自动生成中文歌词更是灾难,时不时夹杂英语,且没有什么韵味。

Udio 生成的歌词.

生成十几遍才有一首咬字基本清晰的中文歌曲之后,我也变得佛系了。难听,不想再听,呕哑嘲哳难为听,但好不好听已经没法苛求。勉强宽慰自己,唱得还挺响亮和精神。

新手友好的开盲盒

Udio目前发布的是免费测试版,注册账号之后,每个人每月最多可以生成 1200 首歌曲,按照理想情况,40 秒内就能生成一首。

看着比 Suno 每天 50 个积分大气多了,然而官网挤爆了,服务器又不稳定,我的第一首歌三个多小时都没生成完毕,再登上去查看居然原地消失,只能重新输入提示词,之后的节奏倒是很快,基本在 2 分钟内就能生成。

而且,Udio 创作的片段,默认为 30 多秒,相比 Suno 的 2 分钟,算是大打折扣。

这些是基础设施和基本设定的问题,Udio 也有做得优秀的地方。

和 Suno 类似,Udio 的创作界面非常直观,输入提示词,点击生成,等待 AI 创作完毕。也与 Suno 一样,Udio 通过 API 调用 ChatGPT 编写歌词。

除了让 AI 自由发挥,Udio 也可以更加定制化,让你输入自己的歌词,添加具体的流派标签,选择生成纯音乐,或者包含歌词和人声的歌曲。

同时 Udio 不闲着,起到一个助手的作用,不断地给你提建议,更加新手友好。

一方面,Udio 提醒你怎么让歌词的效果更好,建议你加一些额外的标签,比如[Verse](主歌)、[chorus](副歌),让 AI 更好地理解歌曲的基本架构。

这点其实也写在 Suno 的社区指南里,但初次尝试的新手不一定明白,Udio 把建议写在了输入框旁边,背后原因令人暖心。

另一方面,按照你的提示词,Udio 会建议添加一些流派的标签,比如当我想要生成中国风的音乐,Udio 建议添加「traditional pop」。

Udio 还有一个手动模式(manual mode),一般来说,Udio 会改写我们的提示词,提高生成的质量。

但在这种模式下,Udio 不会做中间商,而是让你原汁原味地和模型交互,应该更适合那些本身就有音乐底子的创作人。

生成之后,Udio 还支持再加工,让你扩展音轨的长度,添加[Intro](前奏)、[Outro](尾奏) 等部分,让作品更加完整。

这个细节 Udio 也比 Suno 做得细致,之前体验 Suno 时,我不知道可以在最前面写上[Intro](前奏),导致生成的歌曲一开始就是人声,不太符合日常听歌的习惯。

就算 Udio 的界面做得简单,但所谓「创作」的过程,还是个开盲盒的过程,并且出错概率体感比 Suno 要多,很容易让人垂头丧气。

如果你对生成的效果不满意,不如玩玩 Udio 的随机提示词,比如「一首关于抢劫失败的合成流行音乐」「一首关于与时间赛跑的拉丁歌曲」「一首关于期待久别重逢的电子舞曲」。

抱着降低期待的心理,我们就不必将 AI 当作精准的创作工具。

如果我们在聚会、团建等场景需要歌曲调动一下氛围,那基本就够用了。这是普通音乐爱好者的赦免权,我们不必创作伟大的音乐,但可以多玩,看能不能生成自己喜欢的音乐。

允许 AI「创作」新的音乐

虽然 Udio 在 4 月 10 日才对外官宣,但这是一场事先张扬的发布,之前就有音乐泄露在 X,引起外界的关注和猜测。

类比是人类的习惯。「音乐界 ChatGPT」的名号已经被 Suno 用了,因为 Udio 可以根据文本提示,快速生成包含人声的完整音轨,支持多种风格和流派,也领了一个互联网称号:「音乐界 Sora」。

预热完了,Udio 终于露出庐山真面目,创始团队里有 4 位是 Google DeepMind 前员工。

和 Suno 一样,Udio 也是希望音乐创作更大众化,同时服务于音乐家,让创作和分享音乐更简单,让想象力变现的门槛更低。

文字、图片、音频、视频,现在的我们其实已经见过了 AI 的各种文本生成。

在 Udio 团队看来,从文本生成一首完整的歌曲,最有魔法的感觉,是个「wow event」(哇哦时刻)。

这是因为,音乐是我们更投入情感、也更愿意花时间消费的领域。

Udio 的目标不仅是拥有一个创作音乐的工具,还要搭建一个围绕它的、所有人都能参与的社区。当工具可以让人更轻松地创作时,人们就会成为创造者和消费者的混合体。

Suno 首页.

跟随 Suno 的脚步,Udio 的页面也向音乐软件看齐了,有编辑精选、流行趋势、热门类别、热门曲目等栏目分类。

Udio 首页.

但从直观的听感来说,文生音乐的 AI 工具们都还不够好。它们无法让人忘记,这是机器制作的音乐,一旦听久了,必须停下来缓缓,要不然便是头昏脑胀。

当然,初出茅庐的 Udio 还只是 v1 模型,Suno 也只是 v3 版本,进步的空间都很大。

未来,Udio 的改进方向是,让 AI 更加可控,服务于音乐人,包括导入外部曲目、添加参考人声和更加精细的创作选项。

体验 Suno 时,我们讨论过「创作的幻觉」,音乐被简化成了提示词的游戏,我们的主动权有限,也不能说自己「创作」了音乐。

Udio 给人的感觉也是如此,我们以普通人的角度体验,乐趣只是暂时的,对音乐人的敬意反而更深。

与此同时,AI 音乐生成工具可能陷入和绘画一样的版权争议,侵害音乐人的权益。就在最近,碧梨、水果姐等数百名音乐人联名呼吁,不要用 AI 取代人类艺术家。

《滚石》杂志发现,Udio 可能生成和已故歌手汤姆·佩蒂很相似的音色。Udio 回应,他们内置了一个过滤器,避免生成的声音和真人音乐家相似,但不是百分百奏效。

然而,他们没有正面回答,为什么会出现这样的情况,更没有说清楚,训练数据是什么,有没有拿受版权保护的音乐训练。

回避了版权问题的 Udio,选择以另一个角度升华工具的意义:AI 的产出本身是「变革性的」。换句话说,模型正在从训练数据中创造出新的东西。

Udio 解释,他们的目标不是复制披头士这样的伟大乐队,与其复制,不如直接听披头士。他们所做的,是让 AI 理解音乐的基础,然后创作新的音乐,既受到已有作品的启发,又完全新颖。

言下之意,不原模原样地反刍,就是创新。更多的人参与创作,就是创新。某种程度上,ChatGPT 已经实现这一点了,它可以为作家、艺术家所用,也融入我们的工作流里。

如果 AI 生成音乐的质量变得越来越好、并且越来越可控,它的「创新」能否被大多数人认同?这一切只能交给时间作答,到时候,AI 音乐的 GPT 时刻或许才真的到来


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1