从Sora到Suno，解锁多模态大模型的可能性

作者：21世纪经济报道发布时间：2024-03-26

Sora

21世纪经济报道记者董静怡上海报道

像年初的Sora一样，这次AI的颠覆性影响传入了音乐圈。

近日，AI音乐生成软件Suno发布V3版本，仅需要简单的描述，就可以生成2min长度、广播质量级别的音乐。正如Suno官网所显示：“无论您是歌手还是排行榜艺术家，我们都会打破您与您梦想创作的歌曲之间的障碍。不需要任何工具，只需要想象力。”

这为普通人打开了音乐制作的大门。在社交媒体上，众多网友参与讨论，并晒出通过Suno制作的曲目，这些可以称得上完整且好听的音乐作品令音乐圈内外人感到颇为震撼，当然，更震撼的还是AI生成能力的迭代速度。

在文生文模型的热度逐渐平息之时，文生图、音频、视频等多模态大模型开始了一轮又一轮的进化。华泰证券的一份研报显示，海外大模型迭代重视多模态能力拓展，相较于早期图像、音频、视频模型，基础模型能力显著提升。

“大语言模型为AI产业带来新的生机，然而语言模型的应用场景有限。要全面打开生成式AI的想象力，还是要依托多模态大模型。”IDC中国研究总监卢言霞向21世纪经济报道记者表示。

她曾预测，未来5年，生成式AI生成的文本类文件、图像类文件、视频类文件、软件代码类文件数量将会越来越平均。而这其中，与图像文件相关的数据量可能是文本文件的100倍，视频文件是图像文件的10倍。

当见识过这些模型的能力后，生成式AI的想象空间已经被全面打开。尽管目前很多应用尚未正式对外开放使用，也无法了解到更多技术细节，但可以确定的是，这一波技术迭代将为AI行业参与者带来可观的机遇。

音乐圈的ChatGPT时刻

曾有业内专家认为，考虑到成品的复杂性，可能需要数年时间才能出现一种通过简单的文本描述制作歌曲的工具。但位于马萨诸塞州剑桥市的一家成立两年的初创公司Suno已经成功实现了这一目标。

近日，Suno V3音乐生成模型发布，面向所有用户开放。Suno通过其先进的AI算法，能够理解和分析用户的输入，然后生成与之相匹配的音乐。这意味着用户只需要提供一些简短的歌词或者描述，Suno就能根据这些信息创作出一首歌曲。

随着新版本的推出，Suno还引入了AI音乐水印系统，每段由平台生成的音乐都添加了人声无法识别的水印，旨在保护用户的创作，防止抄袭和滥用。

“相比起之前的版本，或是此前其他AI生成音乐的工具，V3生成的曲目是令人惊艳的。”有音乐博主在社交媒体上发出赞叹，“它已经不再是一小段不成熟的东西，而是有歌词、前奏、间奏、副歌的完整歌曲。”

在V3版本中，音质、咬字和节奏编排上都有了显著提升，是Suno AI首次能够生产出广播质量的音乐的模型，它能够在几秒钟内创作出完整的两分钟歌曲，就在半年前，这个时长还仅有30秒。

为了激发人们的创作灵感，Suno V3还增加了更多音乐风格和流派的选项，包括古典音乐、爵士乐、Hiphop、电子等新潮曲风。同时，V3版本对于用户输入的提示词，理解和响应更加准确，减少了“幻觉”现象，使得歌曲的结尾更加自然和高质量。

“我认为完成度很高，在乐器编排、风格把控、歌词与旋律的匹配度等等方面都做得不错，甚至还有乐器solo。”某独立乐队成员向21世纪经济报道记者表示，“尤其对没有专业制作班底的独立乐队而言，提供了很好的编曲灵感。”

官方宣称，不少知名的艺术家已经在使用Suno，但其核心用户群依然还是没有任何音乐制作经验的普通人。在互联网上，越来越多的网友晒出了自己通过Suno生成的作品，其中不乏中文歌曲，如基于古诗词的古韵歌曲《水调歌头（明月几时有）》、中文硬摇滚《We Go!》，甚至还有以菜谱作为歌词的《宫保鸡丁》等。

“这与AI绘画给人的感觉是类似的，”有使用者向记者表示，“做不到特别好，但可以达到平均水平，甚至要更高。”

针对于其应用场景，业内普遍认为，作为广告、短视频等背景音乐的“功能性音乐”，Suno生成的音频有着很大的应用前景，再往前发展，个性化定制音乐也会成为一种普遍的现象。

不过，谈AI替代人力还是为时过早。上述独立乐队乐手向记者表示，作品虽然有完成度，但结构呆板，编排还是粗糙的、模块化的，对于主流的音乐产业还构不成威胁，“它确实降低了音乐制作的门槛，但还远没有突破其天花板。”

Suno官方则表示，目前Suno模型仍处于早期阶段，未来还将沿着质量、可控和速度方向进行改进，并透露V4已经在开发中。

多模态仍在发展初期

事实上，去年下半年以来，由各类多模态大模型生成的作品已经一次又一次带来令人惊艳的效果，AI生成语音、图片、视频的进程似乎比预想中走得更快。

去年年底，谷歌上线了文生图模型Imagen 2，在图像的真实性和语言理解的深度上取得了前所未有的成就，能够生成高度逼真且与文本提示一致的高分辨率图像，尤其在处理复杂细节如皮肤质感和头发方面表现出色，被称为DALL•E 3和Midjourney的最强竞品。

年初，OpenAI的Sora模型带来更大的震撼，它能够根据文本描述生成长达60秒的视频，在此之前，同类产品生成的时长只有几秒钟。同时，它还具有精细复杂的场景、生动的角色表情以及复杂的镜头运动，使得Sora生成的视频在视觉效果上更为连贯和逼真，与之前AI视频生成模型产生的抖动和失真的视频效果形成了鲜明对比。

再加上近期Suno的火爆，各个领域都在迎来自己的ChatGPT时刻。业内人士认为，这类多模态大模型将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力，既可以提高生产速度又可以提高生产数量，还可以创造全新的视听感受，能够帮助企业真正实现降本增效、提升用户体验。

从更长远的角度来看，多模态最接近于人对自然界的感知，智谱AI CEO张鹏在此前接受21世纪经济报道记者采访时表示，多模态是走向通用人工智能（AGI）的起点。

“人大脑一定是各种感官融合到一起的，所以人的智力一定是多模态的。”张鹏向记者表示，“多模态不仅是文到图、图到文这么一件事情，它更多的是探究人的认知能力和各种感官之间的相互作用。”

东方证券的一份研报指出，多模态大模型一方面有利于形成图片、视频等更加生动活泼、更具交互性的应用，从而有助于C端爆款的诞生；另一方面，多模态大模型能真正打通物理世界和数字世界的障壁，实现与物理世界最自然的交互，从而对自动驾驶、人形机器人等具身智能领域的突破提供有力支撑。

但从技术角度来看，多模态大模型仍面临着多重挑战。

多模态模型的技术难度主要在于如何有效地整合和处理不同类型的数据，图像、视觉和音频等领域的数据具有更高的维度和更复杂的结构。“与NLP相比，图像、视觉、音频的数据量更大，对算力的要求也更高，计算的速度、性能要求都会更高。”卢言霞向21世纪经济报道记者表示。

她认为，尽管在NLP领域取得了一定的进展，但在图像、视觉和音频等其他模态上，大模型的发展仍然处于起步阶段。

“很多应用表面上看上去惊艳，但是如果我们按需按场景去使用，能满足需求的时候仍是少数。”卢言霞向记者表示，真正的成熟需要至少多个场景都能有效使用，目前很明显达不到这一点。

而人们对于多模态大模型的期望显然不只限于单一的非文本模态。未来的多模态模型可能会朝着更加集成和协同的方向发展，不仅能够处理单一模态的数据，还能够在多个模态之间进行有效的信息融合和转换。

但当前一体化多模态大模型仍存在局限。复旦大学计算机科学技术学院教授邱锡鹏向21世纪经济报道记者表示，目前的多模态大模型通常以语言模型为中心，通过将其他模态的数据映射到语言模型的语义空间中来实现多模态理解，生成时则需要调用外部的插件或系统。这限制了模型的应用场景和灵活性。

他认为，新一代大模型的交互将实现任意模态到任意模态的内生转化，这将与更多实际生活场景相结合，赋能应用场景和生产力变革。

目前来看，多模态整体的研究框架仍是非常开放的，它并没有一个非常清晰的、收敛的路线，这对于开发者而言是巨大的挑战，但与此同时，也意味着很多的可能性。