本周SOTA！谷歌MusicLM使用文本即可生成高保真音乐

作者：AI试库の小土同学发布时间：2023-01-30

谷歌生成式AI

本周带来的 7 个 SOTA 模型分别用于音频生成、文本到图像生成、3D 场景生成、机器生成文本检测；2 个新思路用于增强Transformer语言模型、大型生成式AI模型综述；1 个工具用于模型可解释性研究。

谷歌发布MusicLM，从文本描述中生成高保真音乐

MusicLM: Generating Music From Text

谷歌发布 MusicLM，从文本描述中生成高保真音乐。MusicLM 将条件音乐生成过程，描述为一个层次化的序列到序列建模任务，其中每个阶段都由单独的解码器 Transformer 自回归建模。MusicLM 能以 24kHz 的频率生成高质量的音乐，在几分钟内保持一致，在音频质量和对文本描述的遵循方面都优于之前的系统。此外，MusicLM 可以文本和旋律为条件，根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究，该研究还发布 MusicCaps，一个由 5.5K 音乐 - 文本对组成的数据集，其中有人工专家提供的丰富的文本描述。

获取资源：

https://sota.jiqizhixin.com/project/musiclm

英伟达等提出StyleGAN-T，在样本质量和速度方面优于先前GAN和蒸馏扩散模型

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

由于大型预训练语言模型、大规模训练数据及可扩展模型族 (如扩散模型和自回归模型) 的引入，文本 - 图像合成取得了重大进展。然而表现最好的模型，需要迭代评估以生成一个样本。相比之下，生成对抗网络 (GAN) 只需一次前向传播，因此速度要快得多，但在大规模文本到图像合成方面仍远落后于最先进的水平。英伟达提出 StyleGAN-T，解决了大规模文本 - 图像合成的具体要求，如大容量、在不同数据集上的稳定训练、强文本对齐和可控的变化与文本对齐的权衡；在样本质量和速度方面明显优于之前的 GAN，且优于快速文本到图像合成的最先进技术 —— 蒸馏扩散模型。

获取资源：

https://sota.jiqizhixin.com/project/stylegan-t

Meta提出MAV3D，从文本描述生成3D动态场景

Text-To-4D Dynamic Scene Generation

Meta 提出 MAV3D (Make-A-Video3D)，一种从文本描述生成 3D 动态场景的方法。该方法使用 4D 动态神经辐射场 (NeRF)，通过查询基于文本到视频 (T2V) 的扩散模型，对场景外观、密度和运动一致性进行优化。从提供的文本中生成的动态视频输出，可从任意相机位置和角度观看，并可以合成到任意 3D 环境中。MAV3D 通过 T2V 模型在文本 - 图像对和未标记视频上训练，无需任何 3D 或 4D 数据。该研究用全面的定量和定性实验证明了该方法的有效性，比先前建立的内部基线有改进。

获取资源：

https://sota.jiqizhixin.com/project/mAV3d

斯坦福提出DetectGPT，使用模型对数概率函数的局部曲率检测机器生成文本

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

该研究证明，从 LLM 中取样的文本往往占据模型的对数概率函数的负曲率区域。在此基础上提出 DetectGPT，基于曲率的标准来判断一个段落是否由一个给定的 LLM 生成。实验表明，DetectGPT 比现有的模型样本检测零试方法更具区分性，使 GPT-NeoX 生成的假新闻的检测从 0.81 AUROC 提高到 0.95 AUROC，而无需单独的分类器或数据集。

获取资源：

https://sota.jiqizhixin.com/project/detectgpt

威斯康星大学提出GLIGEN，以grounding为输入条件来扩展文本到图像扩散模型的功能

GLIGEN: Open-Set Grounded Text-to-Image Generation

大型文本到图像扩散模型取得巨大的突破。然而，仅使用文本作为输入会阻碍可控性。威斯康星大学提出 GLIGEN，建立在现有预训练文本到图像扩散模型基础上，以 grounding 的输入为条件来扩展其功能。所提出模型实现了基于描述和边框条件输入的开放世界 grounded text2img 生成，grounding 能力可很好地推广到新的空间配置和概念。GLIGEN 在 COCO 和 LVIS 上的零试性能显著优于现有的有监督 layout-to-image 基线。

获取资源：

https://sota.jiqizhixin.com/project/gligen

谷歌等用外部存储器来增强大型Transformer语言模型，实现通用计算，且无需修改模型权重

Memory Augmented Large Language Models are Computationally Universal

该研究表明，当使用外部存储器来增强时，基于 Transformer 的大型语言模型在计算上是通用的。任何以有界长度的字符串为条件的确定性语言模型都等同于一个有限自动机，因此在计算上是有限的。然而，用一个读写存储器来增强这种模型，就有可能处理任意大的输入，并有可能模拟任何算法。该研究建立了大型语言模型 Flan-U-PaLM 540B，可与一个关联读写存储器相结合，精确地模拟通用图灵机 U15,2 的执行，并且无需对语言模型的权重进行任何修改。该构造仅仅依赖于设计一种存储指令计算机的形式，随后可用一组特定的提示进行编程。

高保真音乐合成扩散模型Msanii，以高采样率合成立体声音乐，还可扩展到其他音频任务而无需再训练

Msanii: High Fidelity Music Synthesis on a Shoestring Budget

该研究提出 Msanii，一种基于扩散的新模型，用于有效地合成长背景、高保真音乐。Msanii 结合了梅尔频谱（mel spectrograms）的表现力、扩散模型的生成能力和神经声码器的声码能力，可以在高采样率下（44.1 kHz）合成几十秒（190 秒）的立体声音乐，而无需使用串联合成、级联架构或压缩技术。此外，还可用于执行其他音频任务，如插值、样式迁移、补全和扩展，而无需再训练。

获取资源：

https://sota.jiqizhixin.com/project/msanii

Meta AI提出CutLER，用于高效训练无监督的物体检测和分割模型

Cut and Learn for Unsupervised Object Detection and Instance Segmentation

该研究提出 Cut-and-LEaRn（CutLER），用于训练无监督的物体检测和分割模型。该研究利用自监督模型的特性，在没有监督的情况下 "发现" 物体，并放大它来训练最先进的定位模型，而无需任何人类标签。CutLER 首先使用该研究提出的 MaskCut 方法为图像中的多个物体生成粗略的掩码，然后使用稳健损失函数在这些掩码上学习一个检测器，并通过对模型的预测进行自我训练来进一步提高性能。与先前工作相比，CutLER 更简单高效，可与不同的检测架构兼容，并能检测多个物体。CutLER 也是一个零试的无监督检测器，在视频帧、绘画、素描等 11 个领域的基准上，检测性能 AP50 提高了 2.7 倍以上。

获取资源：

https://sota.jiqizhixin.com/project/cutler

DeepMind开源Tracr，将代码程序编译成模型权重用于可解释性研究

Tracr: Compiled Transformers as a Laboratory for Interpretability

可解释性的研究旨在建立理解机器学习（ML）模型的工具。然而，由于模型实际运行方式仍不清晰，所以目前的研究成果大多难以评估。该研究建议手动建立 Transformer 模型作为可解释性研究的测试平台，以此开源 Tracr，一个将人类可读程序编译成 Transformer 模型权重的工具。Tracr 的输入为采用领域特定语言 RASP 编写的代码，输出为标准的、仅包含解码器的、类似 GPT 的 Transformer 结构的权重。

获取资源：

https://sota.jiqizhixin.com/project/tracr

大型生成式AI模型综述，提供最近生成模型的分类、总结了其能力和局限性

ChatGPT is not all you need. A State of the Art Review of large Generative AI models

近两年大型生成模型发展迅猛，如 ChatGPT 或 Stable Diffusion，这些大型生成模型在文本到图像和文本到音频等任务的出色性能将改变一些行业的发展。然而它们在数据集、计算、偏差和对伦理的理解以及必要约束方面具有局限性。这些局限性包括缺少特定任务下的大型数据集，以及需要高昂的计算资源。该研究阐述了受生成性人工智能影响的主要模型，并提供了最近生成模型的分类、总结了其能力和局限性。

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。

本周SOTA！谷歌MusicLM使用文本即可生成高保真音乐

推荐体验

相关资讯

谷歌开发出从文本生成高保真音乐的人工智能MusicLM，但并未发布

Shutterstock与英伟达合作，利用生成式AI云服务将文本转换为高保真3D内容

Suno推出生成式音频AI基础模型输入文本即可生成30秒音乐

宣战Sora！Runway最新视频生成模型上线，可生成10秒高保真、高动态视频

想唱就唱！标贝科技高保真歌唱合成方案上线

近期资讯

如何在微信中设置和使用定位功能，保护隐私与分享位置

五笔输入法学习指南：掌握技巧与提高打字效率的方法

常州翰润智能科技取得一种可调式气动执行器专利，可灵活控制阀门的开启程度

广东省镂工实业控股集团有限公司取得泄气电磁阀专利，优化了电磁阀结构

宁波飞狼自动化取得先导阀专利，加快装置反应速度

如何有效举报不良软件，保护自己与他人安全

如何取消电脑屏保，提高工作效率与使用体验

苏州赛亚杰取得气动机械动能真空阀专利，解决真空阀相关问题

进联国玉取得一种高压开关电磁阀专利，保证各个腔室与进油口压力相同减小压力波动影响

个性化手机字体设置指南：提升使用体验与视觉享受

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响