比 Midjourney 还聪明，这个爆火 AI 神器只要听歌就能画图！｜附体验方式

作者：AppSo发布时间：2023-08-11

Midjourney 生成式AI

生成式 AI 浪潮到来，让我们见识到了每一朵 AI 浪花的无限可能。

在生成式 AI 的产品序列中，音频、文字、图片、视频在技术盲盒中洗牌，经过反复的转换和重组，排列组合出「文生图」、「文生音」、「音生文」等令人眼花缭乱的应用。

而唯独「音生图」的应用落地却迟迟在这紧锣密鼓的节奏中慢了半拍。

直到最近，一个名叫「Music To Image」应用程序在 Hugging Face 社区横空出世后，直接热度飙升，冲上了本周热搜榜，让人们看到了「音生图」的潜在可能性。

简而言之，只要输入一段音乐，它就能根据音乐旋律和歌词，生成一张对应意境的图片。

长安三万里. 图片来自：官方

最近动画《长安三万里》很火，你想象一下，你只要朗诵李白的诗，AI 能将电影里那个盛唐画卷自动给你生成出来，这就是「音生图」潜在的可能性。

由 Adele《Rolling In The Deep》的 30 秒副歌生成

左侧「音频不含歌词」右侧「音频含歌词」

由 Taylor Swift《Love Story》的 30 秒副歌生成

左侧「音频不含歌词」右侧「音频含歌词」

生成的过程非常简便，只需要几个小步骤。

将提前挑选好的30秒音频放进应用程序，给 AI 提示音频中是否含有歌词，再确认生成，只需耐心等待几分钟，就能得到一张与音频基调相契合的图片。

原理也比较好理解。这款应用程序是将音频发送到 LP-Music-Caps 以生成音频字幕，然后使用 Llama2 将其转换为说明性图像描述，最后运行 Stable Diffusion XL 以从音频生成图像。

在生成的音频字幕中，LP-Music-Caps 会将音频「切割」成以 10 秒为基准单位的音频段，并在各个音频段详细描述其韵律、节奏、乐器、单双声道以及AI感受等信息。

没错，相信你看到这里，能联想到这个「音生图」模型的一大乐趣就是输入各类音乐进行测试。

比如，当我们将Michael Jackson《We Are The World》的30秒副歌音频输进去后，勾选「音频不含歌词」，几分钟后，我们就得到了下面这张图。

一名时髦的年轻女生在街道上纵情歌唱舞蹈，全然沉浸在自己的音乐天地，呈现出振奋高昂的情绪姿态，与音频中抑扬顿挫、热情的感情基调遥相呼应。

而当勾选「音频含歌词」后，「Music To Image」所生成的图片又截然不同，生成了下面这张更吻合歌词的图片。

不同年龄，不同性别、不同种族的人都汇聚于这小小的一张照片之中。

一如那30秒歌词中的「We are the world,we are the children 」，众人相聚于此，为充满希望的未来欢声歌唱。

但遗憾的是，应用程序生成的图片质量却参差不齐，「车祸」图片也是常有的事，比如上面图片就存在着脸部缺失的失败情况。

究其原因，可以回顾上文所提到的技术原理。

在转换为说明性图像描述的过程中，如果Prompt的提示词不精准，加之Stable Diffusion XL 技术的尚未成熟，多重因素叠加之下，成品质量也就难以保障。

更重要的是，不能轻易忽视「音频是否含歌词」这一选项。

比如，在测试中，当我们将《see you again》的带有歌词的 30 秒输入，勾选「音频不含歌词」或者「音频含歌词」后所生成的图片截然不同。

年轻男子在优雅地弹着钢琴与右侧表达的家长里短，显然是风马牛不相及。

此外，我们还尝试了各种不同风格的音乐。

比如将前30秒带有歌词的《Baby Shark》（Youtube 上播放量最多的儿歌）放进去，选择「音频不含歌词」，最终生成了一张女生在阳光的沐浴下的海边冥想图。

而勾选「音频含歌词」，生成图片则较之更贴合歌词，生成了海洋和鲨鱼等富有儿童意趣的场景。

那么如果将两种代表中西方乐器的纯音乐放进去，又会形成怎样有趣的对比

结果可能会让你稍稍失望。用琵琶弹奏的《十面埋伏》，本该激昂震撼的30秒前奏却生成了一幅岁月静好的场景：一个女孩悠闲地坐在草地上演奏着乐器。

这个画面当然不贴合原音频的旋律，理由也很简单，就是目前该应用程序「音生图」在识别中文乐器的能力相对薄弱。

而用钢琴弹奏的《卡农》的高潮音频在「音生图」的转换下，将一个正在刻苦练习钢琴的女孩生动地描绘出来。

只不过尽管图片的主旨对了，但不成熟的技术还是将女孩的右手「忽略了」。

可以看出模型雏形尚且有些「小缺陷」，但不管怎么说，这个「音生图」将音频的频谱、节奏等特征映射为图片还是让生成式 AI 的步伐向前迈了一步。

以下是体验链接⬇️

🔗 https://huggingface.co/spaces/fffiloni/Music-To-Image

「音生图」背后的神秘独角兽

而背后给这个突破性的「音生图」模型提供平台支持的正是一家神秘独角兽公司 Hugging Face。

可能很多人对 Hugging Face 十分陌生，但如果将代表他们公司的 Emoji 放在你眼前，你可能会发现原来你们之间早已有了交集。

在所有科技巨头都在内卷生成式 AI 的赛道时，富有远见的 Hugging Face 选择另辟蹊径，开辟了 AI 的另一赛道。

Hugging Face 致力于成为机器学习领域的「GitHub」，通过创建一个开放的机器学习模型仓库，允许全球的开发者可以免费使用，将最前沿的技术通过开放平台进行普及。

就在最近，英伟达宣布与 Hugging Face 达成战略合作关系。

只需要在 Hugging Face 平台中简单勾选几下，开发者即可轻松地将生成式 AI 项目从笔记本电脑到工作站，再转移到数据中心或云端，最终借助英伟达 DGX 云 AI 超级计算资源来训练 AI 模型。

由此也可以看出 Hugging Face 这个模型仓库的火爆程度。也难怪 Hugging Face 在短短几年内就实现了爆发式的增长，频频获得投资人的青睐。

资本市场高度认可的背后其实也离不开 Hugging Face 模式过硬的商业逻辑。

首先，Hugging Face 的开源模型仓库降低了使用机器学习的门槛，开发者只需要引用仓库中的模型，就可以将 AI 能力直接集成到自己的产品中，完全省去了训练环节。

其次，Hugging Face 利用了协作开源的力量，目前该社区上已经汇集了 12 万个模型，3 万个数据集和 5 万个被称为Spaces 的演示应用程序，且数量和质量还在不断提升。

比如上文所说的「音生图」应用程序便是发布在 Hugging Face 的社区。

最后，免费吸引用户，再提供增值服务盈利，当用户产生服务依赖后，Hugging Face 就可以将付费用户转化率最大化。

机器学习是未来最重要的技术之一，整个市场规模将达到数万亿美元，Hugging Face 正处于这波浪潮的风口之中。

现在 Hugging Face 正在进行 2 亿美元规模的 D 轮融资，估值进一步提升至 40 亿美元。

而即使以 GitHub 的市值作为参考，前景不可估量的 Hugging Face 未来也有望达到 507 亿美元的规模。

正如「音生图」技术为艺术创作开拓新可能，Hugging Face 也在引领机器学习技术步入开放共享的新纪元。

他们正顺应着技术浪潮，在创新实践中探索不同方向，其模式和愿景也让人对其未来充满期待。

点击「在看」

是对我们最大的鼓励

近期资讯

QiangNao365 2024-12-26

智慧党建在线考试具体都有什么功能？

随着信息技术的快速发展，智慧党建成为党组织现代化建设的重要工具。在智慧党建平台中，在线考试作为核心功能之一，能够极大地提升党员教育培训的效率和质量。一、个性化学习和考试内容定制智慧党建在线考试具有个性化学习和考试内容定制的功能。党组织可以根据党员的岗位、知识水平和需求，设计不同的学习内容和考试题目。这种个性化定制不仅提高了党员培训的针对性，还能够确保培训内容与党员实际工作相契合。例如，基层党员可重点学习党章党规，而党务工作者则可以接触更多的政策理论和管理知识。这种灵活的学习模式使得党员可以根据自身

森普软件SimPro 2024-12-26

高中数学“高一必须掌握的重点知识清单”，就凭它，数学也能冲上145+！

高中数学是一门既抽象又严谨的学科，对思维能力、逻辑推理能力和计算能力都有很高的要求。高一在数学的学习上需要掌握的知识点较多，高一试题约占高考得分的60%，一学年要学五本书。所以只要对高一的数学掌握牢靠，高二，高三则只是对高一的复习与补充。自己不会总结没有关系，看看这份超全的高一数学知识的清单，无论是知识点详细程度，还是排版都挑不出毛病，因为这就是许多老师一起整理出来用于一线教学的资料，一共100页。 [图片] [图片] [图片] [图片] [图片] [图片]

柒柔学姐 2024-12-26

2024-2025英国BMO1第六题解答

奥数在线 2024-12-26

快消品扫街拓店策略：从计划到执行的全方位指南

在竞争激烈的快消品市场中，扫街拓店不仅是扩大市场份额的关键手段，也是提升销售人员综合能力的重要途径。这一工作品牌方通常通过外包人员或者市场调研公司进行。传统而实用的拜访八步骤，经过精心调整与优化，能够更有效地助力企业实现门店拓展与业绩增长。以下是一个全面升级的快消品扫街拓店策略：一、精心策划，充分准备在踏上扫街之旅前，详尽的计划与周全的准备是成功的第一步。销售人员需明确当日目标，预想可能遇到的场景与挑战，并据此准备必要的工具与资料：如公司介绍手册、产品样品、价格表、陈列工具（如抹布、胶带）、CRC卡（客户

优加调研咨询机构 2024-12-26

梅花易数入门：探索万物背后的奥秘

大家好！今天我们来聊聊中国传统术数中一个非常有趣的分支——梅花易数。它不像其他一些术数那样复杂难懂，反而以其简洁、灵活而著称，被誉为“易学入门之捷径”。什么是梅花易数？梅花易数，又称“观梅数”、“应易数”，相传为北宋理学家邵雍所创。它的核心思想是“万物皆有数”，认为世间的一切事物，包括人、事、物，都蕴含着某种特定的信息，而这些信息可以通过易学的符号体系来解读。梅花易数的独特之处起卦灵活：梅花易数起卦方式多种多样，可以根据时间、数字、方位、声音、甚至看到的某个场景等进行起卦，非常灵活。简单易学

杰靈 2024-12-26

【原创】筱晓小课堂|自相关仪脉宽测试原理

筱晓光子 2024-12-26

比 Midjourney 还聪明，这个爆火 AI 神器只要听歌就能画图！｜附体验方式

推荐体验

相关资讯

Sora 目前唯一体验方式，原来藏在了官网里 | 附体验地址

新龙问世，Kimi爆火比GPT-4 还强？

开通chatgpt plus的有什么好处和体验方式？

电影级视频生成模型深夜炸场！比 Sora 更真实流畅，还人人免费可用 | 附体验链接

比ChatGPT还强大！JetBrains推出AI coding神器

近期资讯

贺德克KHM系列高压球阀KHM-32-F3-11141-06X

膜一姐和膜小二哪个隐形车衣好

水质全参数检测仪对应用环境的要求及重要性

强脑365：智慧学习的全新选择

智慧党建在线考试具体都有什么功能？

高中数学“高一必须掌握的重点知识清单”，就凭它，数学也能冲上145+！

2024-2025英国BMO1第六题解答

快消品扫街拓店策略：从计划到执行的全方位指南

梅花易数入门：探索万物背后的奥秘

【原创】筱晓小课堂|自相关仪脉宽测试原理

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响