作者:haina,Cage
排版:Scout
AI 生成音乐是一个发展了很长时间的研究领域,但之前生成的作品还停留在“人工智障”的阶段,Transformer 架构为音乐生成体验带来了 10x 的提升,2023 年出现的一系列基于 Transformer 的模型,包括 Google 的 MusicLM、Meta 的 MusicGen 以及 Suno 的 Bark,让 AI 生成的歌曲变成了可欣赏内容。类似 Midjourney 让人人都可作画,Suno AI 作为第一款普通人可用、带有人声、歌曲生成效果接近商业化水平的产品,为全球 5.89 亿音乐流媒体付费订阅用户提供了创作工具,开辟了增量市场。
Suno AI 的前身为团队训练的开源语音生成模型 Bark,2023 年 9 月在 discord 推出音乐生成 bot “Chirp”,音乐制作效果被用户称为 “the next level of music generation",在硅谷核心圈得到了广泛的流传,实现了用户的持续增长,根据 Similarweb 的数据,目前已经达到了约 220 万 MAU。
这篇 Memo 主要同步我们看好 suno 的原因、对音乐生成技术的理解、音乐生成市场机会的梳理、Suno 产品及团队的分析以及未来发展的猜想。
以下为本文目录,建议结合要点进行针对性阅读。
01 Thesis
02 音乐生成技术分析
03 音乐 × AI 市场
04 Suno AI 的产品及竞争
05 对 Suno 的猜想
06 附录
01.
Thesis
1. Suno V3 可以类比为音乐生成领域的”midjourney V3",音乐生成第一次到了生产、消费可用的临界点。
音乐生成的技术突破同样得益于 Transformer、Diffusion 架构的结合运用和 scaling up,高质量的数据将成为长期壁垒。
如果优秀人类的作品为 10 分,我们认为 Suno 可以到达 7 分普通歌手、“抖音网红歌”的水平:拥有多风格的作曲能力,可以创作出吸引人的旋律和节奏,但在音质、创新度上达不到专业作曲家的要求。
2. AI 音乐将改变音乐生产方式,带来"camera 时刻”,让音乐创作平民化,音乐人全栈化
传统音乐制作流程极为复杂,AI 让普通人也能生成出还不错的音乐。全球 5.89 亿音乐流媒体付费订阅用户的庞大用户群,比图片生成对应的绘画市场大不少,这个市场一旦解锁是非常可观的。
而对于音乐产业工作者,这能让音乐制作环节融合,让每个创作者成为“全栈音乐人”,让音乐平台的内容供给大大增加。10年代的流媒体平台变革了音乐分发方式变革,20年代的 AI 生成式创作将变革音乐生产方式。
3. Suno 团队背景出色, roadmap 清晰,执行力优秀
Suno 团队从开源 TTS 模型 Bark 开始,转型做音乐模型,从 Discord 服务器到自己的 UX 交互流媒体播放器,都行动非常快在半年内发布了成熟的产品。
产品发布后,社区运营很优秀, Suno 创作的音乐有病毒式传播的机会,且 Discord 社区是 AI native 产品中最为活跃的。目前社区中呼声最高的是可控性更强、更自然的交互方式,比如打节拍、哼唱旋律交给 AI 生成,期待团队下一步的执行力。
4. Suno 将音乐创作者和消费者聚集在同一个平台上,这是别的 AI-native 产品没有做到的
AI 音乐可能带来的市场增量空间很大,一方面可能出现 AI-Native 的流媒体平台,将更多的听众变成了创作者;同时通过更深层次的个性化推荐,实现即时创作和消费一体化。
AI 音乐可能带来的市场增量空间很大,一方面可能出现 AI-Native 的流媒体平台,将更多的听众变成了创作者;同时通过更深层次的个性化推荐,实现即时创作和消费一体化。
Key risk
1. 激烈的市场竞争
这个领域一方面存在着 OpenAI 或大量计算资源的公司 “大力出奇迹”训练出音乐生成领域的 Sora,颠覆 Suno 的可能性。OpenAI 可能在多模态生成模型中将音乐作为一个模态,毕竟他们早在 2019 年就做过音乐模型 Jukebox 是当时的 SOTA。但 Suno 也有明显的用户数据和音乐审美优势,可能是 OpenAI 无法专注做好的。
同时也面临着拥有大量歌曲版权的 label record 公司和大用户基数的 Spotify 等流媒体平台。这两类公司占据了流量入口和顶尖艺术家,Suno 上创作的歌曲已经一部分开始在 Spotify 上传播。不过创新者的窘境可能让他们很难放开手脚和版权限制进行开发。
2. 音乐是个头部效应很强的市场,个性化、长尾市场规模难以验证
音乐市场本身头部效应明显,有成熟的版权公司和流媒体公司;且音乐是一个反复收听次数最多的内容形态,因为这需要大众的情感共鸣,造成用户消费心智对新歌的需求频次低,对老歌的反复收听次数高。长尾、个性化的 AI 创作市场比较难以验证。
头部效应也是明星效应。record label 唱片公司提供的价值不仅在于制作,还包括包装、推广,形成大众影响力、更进一步挖掘商业价值等等。在 AI 音乐时代,头部打榜歌曲会像精心编排的 “fine-dining”,而 AI 生成音乐更像“预制菜”,从商店、视频背景音等慢慢扩散开。
02.
音乐生成技术分析
声音领域在 2015 年左右由于 Seq2Seq 的成熟曾有过识别技术的突破,但在生成方向的成熟比图像和文字更晚一些。其背后的原因主要是声音领域的信息密度更低:一个文字,一句歌词可以对应着很多种声音的表达形式,且生成的声音比文字本身的数据量要大很多。
直到去年,技术路线基本收敛到 Autoregressive Transformer 和 Diffusion model 并存的模型结构。Transformer 架构对音乐生成的质量提升帮助很大,因为音乐是一个有长距离结构(多次主歌+副歌,且有呼应)的内容形态。Diffusion model 的加入,能有效避免避免了自回归模型容易产生的韵律/节奏不稳定、词语重复/遗漏等问题。
2023 年 Google 团队提出了 MusicLM 使用了 Autoregressive 结构,实现了从文本描述生成高保真音乐片段,并支持对音高、速度等的精细控制。同一年 Stability 团队的 Stable Audio 工作中也开始有 Diffusion model 的加入,使音乐生成的效果更加稳定,Stable Audio V2 中使用了和 Sora 一样结合 Transformer 和 Diffusion 的 DiT(Diffusion Transformer 结构)。以下是最近一年中的重要模型整理:
Suno AI 音乐生成对语义有着很好的理解能力,对不同风格的规律、长距离的结构都能比较好地捕捉,我们判断 Suno 一定用了 Transformer 结构,带来了能 scale up 的智能。同时,Suno 生成的稳定性也远好于其他模型,Diffusion 模型架构应该在其中使用。音乐生成的模型结构会与 Sora 的 DiT 结构比较接近,由几个部分组成:
1. Audio encoder: 对原始音频进行压缩,并将其量化到一个更低维度的潜在空间,该空间包含多个离散标记序列,每个序列代表音频的不同方面(例如,粗略和精细的声学细节)。最常见的选择是 Encodec 音频编码器(在 Meta MusicGen 论文中开源,用于 Suno 早期的 Bark 项目),或者 VAE model(在 diffusion model 设置中很受欢迎)
2. Text Encoder: 使用 T5、FLAN-T5 或 CLAP 作为文本编码器来调节音乐生成过程。这些预训练的语言模型将输入的文本提示编码成密集的向量表示,然后在生成过程中用来引导 Transformer 模型。
3. DiffusionTransformer(DiT)model 或 autoregressive language model,基于之前压缩的潜在空间生成音乐。在 Transformer 模型中使用的压缩离散音频标记,有可能作为扩散模型的条件信息,而不是原始音频。这可以允许在利用扩散的去噪能力的同时,生成更长连贯的音频序列。
这个模型结构看起来很简单,和 LLM 和视频生成有很多相似之处,这可以被 Suno 创始人在访谈中的一个分享验证:Suno 团队在训练模型的时候,尽量不让模型中融入关于音乐或音频的先验知识,比如融入声素等元素,而是让模型自主学习。这种方法起初优势并不明显,但随着 scaling up 的推移优势开始显现。
谈到 scale,根据其他 tts 模型参数量和目前的定价预估, Suno AI 的音乐生成模型的预估参数最大不超过 5-10b。音乐生成模型在数十亿参数量级就能做好很不错的效果了,与参数量相比同样重要的还有数据。
音乐生成的评估中有两个评估指标和数据质量息息相关:音质、风格多样性。
音乐的数据收集并不简单,因为音频资源的公共爬取和积累相对较少,且处理起来更为复杂。Suno 效果好可能很大程度上来源于高质量的数据,如高采样率(44kHz 或 48kHz),并在处理音频数据压缩时尽可能做了保真。
Suno 在数据预处理、特征提取等方面做了大量优化工作,让模型尽可能理解 discrete audio tokens,以及如何将大家对高质量、多风格的音乐通过 labeling 注入模型中。同时训练数据中不仅仅是音乐,也包含了很多语音录音,用以学习人类声音的特质。
另外,在音乐风格上,团队不仅关注模型的定量指标(如参数、数据等),还非常重视通过用耳朵“倾听”,对生成音乐的"美学"把控,对数据集的美学风格做了专门优化,目前的风格倾向于最擅长近 10 年内的欧美流行舞曲风格,所以生成出来的歌曲较为符合用户的审美。
但是受限于训练数据多为混音后的音乐(缺少音轨、元数据),模型难以生成达到录音室专业水准的音轨,所以音质目前能达到"网红歌曲"水平。
随着音乐生成模型达到一定的水准之后,最关键的就是如何提升从其他模态(旋律、图片)生成音乐的能力,和更强的音乐生成的可控性和 instruction following。这样才能进一步降低音乐生成的门槛解锁更多 use case,达到手机摄像头发布时 Instagram 那样的效果。
03.
音乐 × AI 市场
为什么说音乐生成模型是摄像头一样的民主化工具,这就要从复杂的音乐制作工作流谈起。
音乐市场规模及产业链
音乐的应用广泛,除了音乐专业制作,广告、影视、游戏、动漫、企业宣传都会用到音乐。音乐专业制作市场(the recording industry)的产业链主要分为以下环节:
• 上游 - 音乐创作与录制:包括进行词曲创作、编曲、录音、混音等制作环节。参与的人有作曲家、编曲家、录音工程师、音频编辑师、混音师、母带制作师等。
• 中游 - 音乐的出版运营、宣传推广:发行人会对音乐作品进行版权运营、数字分销。在宣传推广环节,通常会制作音乐 MV,通过各类媒体进行音乐推广。
• 下游 - C 端用户消费音乐:主要通过流媒体平台等渠道向听众传播音乐,同时开办演唱会、制作文创产品等,实现音乐 IP 的商业化。经纪公司也会对艺人进行宣传,组织演出等。
AI 生成音乐的应用机会不仅在为上游为音乐的制作环节降本增效,而且有机会将多个音乐制作参与角色合一,让每个创作者成为“全栈音乐人”,同时打通上游、下游,再造创作、消费一体化的 AI 音乐平台,也是我们期待的 Suno 的未来形态。下文针对受到 AI 生成音乐影响的上游和下游市场展开分析。
音乐制作市场
音乐制作为音乐产业链的上游环节,涵盖创作、编曲、录音和混音等环节,需要使用的工具包括 DAW、虚拟乐器、录音设备、音频效果器、MIDI 键盘、混音设备等,目前部署一套基础的设备需要约几千美元,更早期需要的投资更多。制作周期取决于音乐类型和规模,从几天~几个月不等,成本从几千~几十万美金不等。根据多家咨询公司的估算,市场空间大致为 $5-10B 左右,主要业务包括销售软件许可证、插件、硬件设备以及提供相关服务。
AI 有望进一步降低成本、缩短制作周期,将多个音乐制作参与角色合一,让每个创作者成为“全栈音乐人”。Suno 已经可以帮助用户生成音轨等组件,加速音乐创作流程。但本身该市场空间并不大,且比较分散,引入 AI 可能会导致 ToB 音乐制作市场的进一步缩水。
根据 A16Z 的判断,还有可能出现基于 AI 技术自动生成音乐的“生成性乐器”。硬件设备有可能与 AI 模型交互。例如,一个 DJ 控制器可能能够根据现场的氛围和节奏,自动生成鼓点或旋律,辅助 DJ 进行即兴创作。
ToC 消费市场趋势
根据国际唱片业协会联合会(IFPI)统计,2022 年全球音乐市场规模达到 262 亿美元,增长 9%,其中流媒体收入占 67%,增长 10.3%。包括两块业务,一块是广告支持流媒体(Ad-supported streams),占 18.7%,通过展示广告来为用户提供免费的音乐流媒体服务,一块是订阅音频流媒体(Subscription audio streams),如 Spotify Premium、Apple Music 订阅,占 48.3%,约 130 亿美元。全球有 5.89 亿流媒体付费订阅用户,占全球总人口 7.5%。根据市场格局可以看出,流媒体音乐平台是音乐市场中最大的组成部分。
流媒体平台将音乐市场从 2000-10 年代之间的下降趋势中解救出来,并且逆势增长。与 AI 生成音乐类似的,在流媒体平台诞生初期,大家会担心流媒体平台威胁到音乐的发展。但随着平台发展和社区的成熟,流媒体平台彻底改变了音乐的分发形式。流媒体音乐平台头部公司包括 Spotify、Youtube Music、QQ 音乐、网易云音乐等。以 Spotify 为例,2022 年总收入达 117 亿欧元(2023 年 Q3 收入达 33.57 亿欧元) 。
近十年音乐市场增长的另一个重要趋势来自于短视频。国际唱片业协会(IFPI)调研发现用户听音乐的时间显著增长,每周聆听音乐的时间从 2021 年的 18.4 小时增加到 20.1 小时,个性化需求也日益明显。国际唱片业协会(IFPI)也统计了用户听音乐的方式,发现人们在听音乐的时候,经常会和视觉相结合,很多情况下带有社交属性。
尽管分发渠道和用户消费形式出现了变化,但生产制作侧的垄断趋势还是比较明显:在 2022 年财报中,向索尼、环球等 record label companies 支付的版权费用占了 Spotify 收入的七成左右,因此流媒体平台当前还很难直接盈利。而当 AI 音乐生成降低了生产的制作与成本,是否能带来生产关系的变化呢?我们能期待 AI 有可能让版权优势不只被大公司垄断,而来自更多长尾、个性化的创作者。
AI Music 产品格局
下表详细的展现了我们对于 AI Music 现有市场格局的 mapping 以及市场机会的判断:
AI 音乐相关产品中,我们认为应该重点关注有能力直接 AI 生成音乐、面向 ToC 用户的产品。下文分析的 Suno 就是该领域的代表性产品。
04.
Suno AI 的产品及竞争
Suno AI 公司位于 Cambridge, Massachusetts。团队以自己训练的开源语音生成模型 Bark 为基础,开发了 state-of-art 的 AI 音乐生成产品。Suno 团队认为目前音乐听众数量远远超过音乐制作者是“失衡”的,期待用 Suno 让每个人都能将自己的想法转化成音乐,打破普通人与想象中音乐之间的障碍。
产品
团队首先训练并在 23 年 4 月推出的开源 TTS 模型 Bark。Bark 使用了 Transformer 架构,可以生成各种类型的音频,包括多语言的语音、音乐、背景噪音和简单音效,以及笑声、叹息和哭泣等非语言交流。当用户输入的文本具有一定的音乐性质时,Bark 会选择将其生成为音乐,但有时候会出现歧义。为了明确指示 Bark 生成音乐,用户需要在输入文本的歌词周围添加音乐符号,比如音符或乐谱。bark 在 Github 中热度很高,截至 2024 年 3 月,bark 被 fork 了 3.6k 次,有 30.9k star。
开源 Bark 后,Suno 团队发现社区用户都想要一个“音乐生成器”,于是在 bark 的基础上训练了针对音乐生成场景的模型,并开发了产品。23 年 7 月,Bark 增加了生成人声的功能,23 年 9 月推出了 Discord 版本产品 Chirp V1。
2023 年 12 月 20 日 Suno 推出网页版产品 V2。产品一经推出,产品效果被用户称赞为“the next level of music generation"。Suno 生成的旋律,音调丝毫不逊色于专业作曲家,虽然仍缺少一些灵性,在歌词上有些模糊,但已经达到了 average 音乐人的水平。用户表示“是一个极好的工具,为创作打下基础” “生成的歌曲太吸引人了,又有趣又让人感到畏惧”“已经沉迷于它了”。
Suno 网页版本的产品形态很简单,远没有到达 Spotify 等产品的复杂度。主要由 Explore、Create、Library 组成。Microsoft copilot 也集成了 suno,用户可以通过 chat 的方式来进行音乐创作。
Explore 界面,会展示歌曲创作的 prompt 指引,以及用户创作的最火、或最新的 AI 歌曲。暂不清楚推荐逻辑,但不同用户登录后看到的歌曲是一样的,可见还没有针对用户偏好进行个性化推荐。
一个用户用 Suno 创作的 CAPYBARA 是很有意思的一首歌,有 13 万播放量和 3000 多个赞,非常的魔性洗脑。
Create 界面,用户通过输入 Song description 直接生成音乐,也可以选择 Custom mode,输入 lyrics 、style of music、title 三部分信息来更细致的创作音乐。用户的使用情况显示,超过一半的用户喜欢使用 custom mode,深入调整和创造音乐。
Suno 在音乐风格的选择上十分灵活。输入想要的音乐风格,suno 就可以生成相应风格的歌曲。所有大众风格,比如摇滚都生成的很好;年代比较新的小众风格例如 K-pop 或 OPM 也都生成的不错。
但是目前还无法做到对于生成音乐的精细化控制。部分用户表示“如果没有其他音乐技能,脑海中的旋律仍然无法被创作出来”,期待“未来几年能够利用技术从各个方面对音乐的生成进行控制”。
Library 界面,展示用户自己创作的歌曲以及用户自己创建的歌单,歌单中也可以包括其他用户用 Suno 创作的歌曲。
Suno产品和模型迭代速度很快,2024年2月23日推出 V3 Alpha 版本,并在3月向全体用户发布。V3 在音质、创作速度、语言和乐器种类均有提显著升,最长可生成两分钟的歌曲片段。尽管如此,V3版在处理特定指令、混音质量、以及处理简短提示时的“幻觉”现象等方面仍有待改进。
关于未来的产品,Suno 希望去专注非专业市场,对齐非专业用户的创作需求来扩展音乐体验。团队在开发一些尚未公开的功能,可能包括自定义模型,使用自己的音乐或声音进行训练,以及让AI可以根据个人的反馈不断学习和改进,从而生成越来越符合个人口味的音乐。
团队正在努力思考如何推出新的与 AI 模型的互动方式,来激发人们的创作欲望,并帮助他们表达出来。除了传统的写歌词方式,可能还会推出通过“敲击节奏”或“唱入旋律”的生成方式,以及如何将用户的生活片段转化为音乐创作的灵感,例如通过模型展示一天中发生的随机事件。Suno 也可能结合游戏元素,如建立聊天室,让用户通过投票决定音乐的下一步动作。
社交媒体平台的出现改变了音乐消费模式。流媒体支付模式使得歌曲被压缩到两分半到三分钟的时间,而 TikTok 等平台的出现使得用户倾向于使用歌曲的片段进行创作和分享,这使得音乐进一步变短。AI 预计将加速这一过程,如果音乐在不久的将来创作和动态个性化,音乐消费模式可能进一步发生变化,比如人们可能不再完整地听完一首歌,而是选择性地听取片段。全新的音乐消费模式也是 Suno 在探索的方向。
通过追踪 Discord 社区,我们发现 Suno 用户大致分为:
• 音乐爱好者,他们本不会写歌,Suno 带给他们创作歌曲的能力。这类用户希望通过 AI 辅助创作出有趣的音乐作品,用于个人娱乐或社交媒体分享。他们的需求常常类似于,为自己的猫写一首 Taylor Swift 风格的歌。
• 专业音乐制作人,他们将 Suno 作为创作的灵感来源,或生成音乐素材,结合自己的专业知识进行后期制作。Suno 帮助专业音乐人更高效的输出作品,他们也开始将 Suno 应用在商业场景。
• AI 创作工具探索者,对音乐生成的技术感兴趣,尝试使用 Suno 进行实验性创作。、
在与用户的交流过程中,我们发现部分用户对于 Suno 非常沉迷,Discord 社区中也保持了持续的高活跃。根据 Smiliarweb,Suno AI 的 MAU 持续增长,2024 年 2 月 MAU 已经达到约 220 万,Suno 的国家分布并不集中,其中美国、波兰的用户最多,各占约 10%。以男性用户居多,占据了约 68%,在年龄以 18-34 岁的年轻人为主。
具体使用场景较为广泛,并不仅仅局限在专业音乐作曲,可以做如下划分:
商业模式上,Suno 采取订阅付费的模式,Suno 目前更像一个创作工具,参考工具类产品的订阅比例,简单假设目前 Suno 约 220 万的 MAU 有 10% 是付费用户,其中 8% 为 Pro Plan、2% 为 Premier Plan,Suno 的月收入大致估算为 250 万美金。创作生态的丰富,Suno 平台也有机会出现广告和内容订阅价值,为 UGC 提供收入渠道;或为音乐创作提供增值服务,比如提供一站式的音乐创作和分发解决方案。
团队
Suno 团队由音乐家和 AI 专家组成,目前仅有约 12 名员工。Suno 官网上写道公司文化以音乐为核心,鼓励声音的实验和创新,在办公环境中音乐无处不在。联合创始人包括 Mikey Shulman、Georg Kucsko、Martin Camacho 和 Keenan Freyberg,四人此前共同在被收购的金融数据 AI 科技创业公司 Kensho 工作。其中 Shulman 和 Camacho 是音乐爱好者,他们在 Kensho 工作时常常一起即兴演奏。
从经历来看,创始人有成功的创业退出经历,并且在物理、科学领域有极强的造诣。创始成员还有在 Tiktok、Meta 等互联网公司的从业经验。AI、物理领域的造诣以及对音乐的热爱,使得团队对开发 AI 音乐生成产品具有很强的适配性。
竞争格局
Suno 最大的竞争来自于两个方面,一是 OpenAI 发布音乐生成领域的“Sora",直接在产品效果上的碾压;一是版权公司和 Youtube、Spotify 等音乐平台公司,利用其数据和流量优势推出竞争产品,但他们面临更高的数据版权风险。同时,Suno 还面临着其他创业公司及开源体验的竞争。
• OpenAI 是否会重现音乐生成的 “Sora”?
音乐生成模型的效果很大程度上是由数据质量决定的,这一方面取决于团队是否能拥有充足的数据源,懂得处理数据的方式,另一方面是否有充足的 GPU 进行训练。OpenAI "大力出奇迹” 的 Sora 一推出,对其他视频生成公司的打击有目共睹。OpenAI 目前已经注册了商标 Voice Engine™,包括"基于自然语言提示、文本、语音、视觉提示、图像和/或视频创建和生成语音和音频输出",很可能包括了音乐生成产品。
如果 OpenAI 在音乐生成领域重现“Sora"将是 Suno 很大的竞争威胁。
• 来自版权公司和音乐音乐平台的竞争
现有音乐公司对 AI 进行了积极的尝试,也采取了很多防御性的策略,包括 Spotify 刚刚推出的 Gen-Playlist,以及 QQ 音乐推出了 Suno 专区,但目前并没有出现类似 Suno 的出圈产品。一方面是 Suno 的产品具有一定技术壁垒,大公司的行动速度远慢于创业公司;另一方面大公司受限更多,会有更多版权、伦理上的限制。以及,我们所认为的平台、版权公司拥有的数据积累优势可能并不成立。生成高质量的 AI 音乐需要歌曲原始的分轨数据,但这是音乐平台也不拥有的,而原始分轨数据分散在各个版权公司和明星演艺公司,获得大量的数据很困难,购买成本也非常高。
长期来看,我们认为 Spotify、Youtube 等现有大公司将对 Suno 产生更大的挑战。如用户在 Youtube 可以实现多模态音乐创作→发布的一体化,这其实与我们对视频生成格局的判断类似。Suno 的取胜关键是持续保持最好的生成效果、以及找到自己独特的产品形态。
• 其他创业公司及开源体验
Udio 是第一家在质量上对 Suno 形成挑战的产品,核心团队也十分豪华,4 位 co-founder 都来自 Deepmind。根据反馈,用户普遍觉得 Udio 的音质更高、可控性更好,但 Suno 更具创造性、表现力更强、生成的歌曲更多样,这应该与模型的架构和使用的数据集不同有关。其他值得关注的 AI 音乐生成创业公司还包括 Sonauto AI、Soundraw 及 Riffusion 等。
至于与音乐生成开源模型的竞争,我们相信成熟的音乐生成产品将超越开源模型。音乐生成的增量主要是让 C 端用户也能够根据自己的喜好创作音乐,这类用户更偏好简单、直观的产品。但也有专业音乐制作人表示,Stable Audio 等经过反复的尝试也可以得到非常好的结果,多功能更丰富。这可能类似于 Midjourney 和 Stable Diffusion 的区别,专业用户或团队可能会根据自己的独特需求微调开源音乐模型。
05.
对 Suno 的猜想
• Upside:Suno 有可能将 AI 生成音乐作为核心 feature,发展成为 UGC 内容+社交平台。
根据 Discord 中的用户调研,我们发现用户喜欢 Work together with AI to write and iterate on lyrics,而不是仅仅自己提供、或全部由 AI 生成,所以平台中增加用户与 AI 的互动体验是不可或缺的。
同时,用户使用 Suno 并不仅仅为了创作自己喜欢的歌曲,也对听其他的 UGC 作品十分感兴趣,这意味着 Suno 有发展成为 UGC 平台、歌曲分享和社交平台的潜力。但音乐相比图片、视频、聊天等媒介并不直接,更适合音乐的交互方式和产品形态是什么?
在竞争中,OpenAI 的数据、训练资源,以及大公司的流量优势和数据积累都会对 Suno 带来挑战。而 Suno 拥有行业领先的技术水平和灵活的团队,受版权的限制小,在快速迭代和适应 AI 发展变化方面可能更具灵活性。最好的情况下,Suno 能够利用先发优势,持续根据用户反馈和积累的用户生成数据保建立自己的护城河,保持最好的用户体验,以及找到自己独特的产品定位。
• Open Questions
1)市场格局 Unclear。OpenAI、获得丰厚资金支持的 startup、其他占据流量入口的大公司,利用更丰富的数据和训练资源推出效果更好的音乐生成模型,或音乐生成技术的发展遭遇瓶颈,导致 Suno 难以持续提供创新和突破性的产品体验,都可能导致 Suno 变成昙花一现的产品。
2)虽然目前用户对于 AI 音乐兴趣高涨,但能否持续吸引用户并保持高活跃度是一个未知数。只有 AI 创作的歌能真正吸引用户,才能保持创作者持续创作和平台的持续活跃。生成音乐再好,是不是最终大部分人还是更喜欢真实的人的作品?听众喜欢一首歌的原因,包括旋律、歌词表达的情感和心情、歌手本人、第一次听这首歌的场景等等。用户欣赏音乐也寄托着对歌手本人的喜欢,有种文化情怀。这和文生图、文生视频不一样,人们在音乐上寄予的情感确实会更多、更 personal。不过生成音乐与人类创作并不一定是完全泾渭分明的。音乐人可以将 AI 作为手段,提升创作效率和创新性。同时,即便是使用 AI 创作的歌曲,也会带有创作者本身的风格特点。随着用户对于 AI 接受度的增强,我们相信 AI 的“无情感”会被弱化。
3)Suno 是否会面临版权问题?环球音乐集团及多个出版商组成的维权团队曾对 Anthropic 提起侵权诉讼,指控其“非法复制和传播大量受版权保护的作品(包括歌词)”,以创建 AI 模型,Midjourney 也曾被多个画家诉讼。相信随着 Suno 的发展,未来也会面临类似的问题,但是文生图、文生视频等等领域的发展证明了,版权问题并不能阻碍 AI 创新的发展和繁荣。
4)生成音乐如何与人类创作共存也是一个值得探讨的话题。我们认为 AI 更可能成为内容生态的一部分,而非替代者。AI 音乐会导致“水平平均”音乐供给量大大增长,艺术家和个人也可以利用 AI 探索新音乐元素,创作出更具创意的作品。
06.
附录
音乐制作概念与管线
音乐基础概念
制作管线
创作录制
• 创意和策划:确定音乐的风格、主题和目标受众,聘请创作人员。
• 创作和编曲:创作音乐的乐谱、编曲,决定乐器和声部的安排。
• 音频录制:录制乐器、人声等音频素材。
后期制作
• 编辑:对录音素材进行修剪、整理和调整,确保音频质量。
• 混音:将各个音轨混合在一起,调整音量、平衡和效果。
• 母带制作:最终处理,确保音乐在不同设备上播放时保持高质量。
音乐制作工具演进如下:
• 模拟录音设备:早期的音乐制作依赖于模拟录音设备,如磁带录音机和混音台,这些设备操作复杂,成本高昂。
• 数字音频工作站(DAW):随着计算机技术的发展,数字音频工作站(DAW)的出现极大地简化了音乐制作流程。DAW 提供了多轨录音、编辑、混音和母带处理等功能,使得音乐制作更加便捷和经济。
• 软件合成器和采样器:软件合成器和采样器的出现使得音乐制作人能够模拟各种乐器声音,创造出前所未有的音色,极大地扩展了音乐创作的边界。
• 音乐制作软件:如 Ableton Live、FL Studio、Logic Pro 等,这些软件提供了丰富的音乐制作工具,使得音乐创作和制作更加民主化,即使是业余爱好者也能创作出专业水平的音乐。
用户评论总结
Suno 提升音乐创作效率,可以用在创作的多个环节:
• 创作初期:“我发现它是一个极好的工具,可以帮助我为写歌想出点子...它仍然足够打下基础。”
• 使用 suno 生成的内容作为元素:“Jimothy 说到他的流程:‘i extract vocals, edit them a bit to make them sound a little better, then rewrite all music from the ground up。’
• “我用在 Chirp 生成的歌曲与免费 AI 音频工具结合,从歌曲中提取某些元素。’”
Suno 产品效果好,具有灵活性:
• ‘人们没有意识到这有多重要,Suno 变得不可思议,能在 2 分钟内生成一首好歌真是太震撼了。’”
• “你可以输入风格,如‘摇滚’或‘流行’,更小众的风格如‘K-pop’或‘OPM’,描述如‘旋律’或‘欢快’,或者混合以上任何风格。” — Suno 在音乐风格选择上的灵活性。
• ‘作为一个作曲家,我觉得这很可怕——而且非常有趣。你创作的这首歌真的很吸引人!’”
• “我用 Suno 进行实验、获取灵感和娱乐。我能听出它们是由 AI 生成的,但说实话...我喜欢它们。”
• ”suno 可以满足我的 create desire”
Suno 使用技巧:
• Jimothy 说:‘ive found it does better with lyrics if you make up a song title。’” — 在生成歌词时使用具体标题的重要性。
Suno 目前的不足和期待:主要集中在控制性上
• “用户期待音乐生成结果的质量和连贯性能得到改进。”
• “sinepuller:‘但无论如何,输出的内容听起来就像垃圾。’”
• ‘想象一下,Suno 创作了一首歌,附带乐谱和 DAW 文件。然后你可以保留旧的部分重新滚动每个部分。’” — 用户建议 Suno 提供更多音乐风格和乐器支持。
• ‘作为一个没有音乐技能的人,我想这意味着我脑海中的旋律仍然无法被创作出来。’”
• ‘我自己会很高兴有这样的工具与 Ableton 一起使用,但目前看来这是一个非常复杂的问题。’”
• ‘让我们希望未来几年的研究能够利用技术从各个方面进行控制。’”
用 Suno 赚钱:
• 用 Suno 生成音乐,再订购 distrokid 音乐分销服务,分发到各大流媒体平台如 Spotify、Apple Music,期待通过这种方式赚取版税
对新版本 V3 的评价:
1)积极评价:
• 音乐创作更加高效,减少了不满意作品的情况。
• 声音更加清晰。
• 在表达上更加丰富,超越了 V2。
• 一些用户表示,V3 是他们愿意为之付费的功能,因为它提供了更好的音乐创作体验。
2)疑问和担忧:
• 一些用户对 V3 的对歌词的处理不满,认为它在处理副歌部分时不如 V2 稳定。
• 用户认为 V3 的某些特定风格(如 synthpop)过于“哀伤”。
Reference
1. https://a16z.com/the-future-of-music-how-generative-ai-is-transforming-the-music-industry/
2. https://arxiv.org/abs/2308.12982 A Survey of AI Music Generation Tools and Models
3. https://www.ifpi.org/our-industry/industry-data/