手机跑Stable Diffusion，12秒出图，谷歌加速扩散模型破记录

作者：新智元发布时间：2023-04-27

Stable Diffusion 谷歌

新智元报道

编辑：桃子拉燕

【新智元导读】手机12秒一键生图？谷歌最新研究做到了。

手机生图只要12秒？

这不是吹的，谷歌就给实现了。

最新研究中，谷歌研究人员对4个GPU分层优化，在三星手机上成功运行Stable Diffusion 1.4。

实现了11.5秒生成图像，重要的是，内存使用量也大幅减少。

正所谓，Speed Is All You Need！

论文地址：https://arxiv.org/abs/2304.11267

谷歌最新提出的方法是通用的，可以对所有扩散模型的改进，并非仅针对特定设备实现的。

通过实验结果发现，三星S23 Ultra和iPhone 14 Pro的整体图像生成时间分别减少了52%和33%。

这意味着，一部手机装下一个生成式AI模型的未来更近了。

从3080到一部手机

当前，将大型扩散模型合并到任何APP中的一个关键考虑因素是，模型将在何处执行选择。

在一个消费级设备上部署模型的好处是，较低的服务成本、改善扩展性、还可以离线，并且能改善用户隐私。

22年，Stable Diffusion刚刚发布的第一个版本，最初只能缓慢运行在RTX 3080上。

Stable Diffusion有超过10亿的参数，DALL-E是120亿，以后随着扩散模型的发展，参数量会逐渐增加。

由于设备计算和内存资源的限制，因此在运行时带来了诸多挑战。

在没有精心设计情况下，在设备上运行这些模型可能会导致，由于迭代去噪过程和过多的内存消耗，输出内容延迟就会增加。

此前，也有研究实现了将Stable Diffusion成功部署到设备上，但仅局限于特定的设备或芯片组。

对此，谷歌研究人员对大型扩散模型提供了一系列实现优化，这些模型在配备 GPU 的移动设备上实现了迄今为止报道的最快推理延迟。

在不使用INT8量化的情况下，对于一张512x512的图片进行20次迭代，Stable Diffusion 1.4的推理延迟低于12秒。

具体是如何实现的呢？

GPU感知优化

在论文中，研究人员侧重的是使用大型扩散模型，然后完成从文本描述生成图像的任务。

虽说论文中，部分讨论是研究者为Stable Diffusion特定结构所提出的优化建议，但这些优化可以很容易推广到其它大型扩散模型上。

研究人员表示，当用文本提示进行推理时，这个过程包含根据所需的文本描述，应用额外条件来指导反向扩散。

具体来说，Stable Diffusion的主要组成部分包括：文本嵌入器（Text Embedder）、噪声生成（Noise Generation）、去噪神经网络（Denoising Neural Network，aka UNet），以及图像解码器（Image Decoder）。

如下图所示：

Stable Diffusion中主要组件及其相互作用的示意图

下面，我们分别介绍一下这几个组成部分，各部分间的关系参照图。

· 文本嵌入器：

利用CLIP模型对文本提示y进行编码，生成一个高维嵌入向量τθ(y)，将文本提示的语义封装进去。该嵌入被当作去噪神经网络的输入，为逆向扩散的过程提供指示。

· 噪声生成：

给潜在空间提供随机噪声z，该噪声作为逆向扩散过程的起始点。

· 去噪神经网络：

该网络被设计为近似p(z|y)形式的条件分布，利用条件去噪自动编码器θ(zt, t, τθ(y))（denoising autoencoder）。每次迭代t采用UNet架构。

同时，交叉注意机制（cross-attention mechanism）被用来操作潜在空间和文本嵌入向量，在迭代过程中预测z的去噪版本。

· 图像解码器：

逆行扩散过程在潜在空间中进行。一旦这个过程完成，图像解码器D被用来从潜在矢量中重建RGB图像。

研究人员在整个UNet架构中实现了群组归一化（Group normalization，GN）。

这种归一化技术的工作原理是将特征图（feature map）的pipeline划分为较小的组，并对每个组进行独立的归一化，使GN对批次大小的依赖性降低，更适合于各种大小的批次和各种网络结构。

应用公式①，每个特征值被归一化为其所属组的组均值和方差。

（公式①）

研究人员并没有依次执行上述提到的重塑、平均值、方差和归一化的所有操作，而是以GPU Shader的形式设计了一个特别的程序，在一个GPU命令中执行所有这些操作，无需中间流程。

这里先介绍一下Gaussian Error Linear Unit（GELU）。

GELU作为模型中普遍存在的激活函数，包含许多数值计算，如乘法、加法和高斯误差函数，如公式②所示。

研究人员弄了一个专门的Shader来整合这些数值计算及其伴随的分割和乘法操作，使其在一次绘图调用中完成执行。

（公式②）

稳定扩散中的文本/图像变换器有助于对条件分布P(z|τθ(y))进行建模，这对文本到图像的生成任务至关重要。

然而，自我/交叉注意力机制在处理长序列时遇到了困难，因为它们的时间和内存复杂性是平过方的。在论文中，研究人员介绍了两种可能的优化，旨在缓解这些计算瓶颈。

一种是Partially Fused Softmax，另一种是FlashAttention。

下面仅以Softmax为例。

上图是在注意力模块中，优化过的softmax实现。

虚线以上的流程图描述的是直接在矩阵中应用softmax的初始实现。

虚线以下的展示的则是修正后的模块（红色部分）。

总而言之，论文中研究人员提出了一整套优化方案，可以在各种设备上执行大型扩散模型时，共同达到了突破性的延迟数字。

这些改进扩大了模型的通用性，并提高了在各种设备上的整体用户体验。

12秒，业界领先

为了评估改进后的模型，研究人员分别在三星S23 Ultra (Adreno 740) 和iPhone 14 Pro Max (A16) 进行了一组基准测试。

作为去噪神经网络，UNet是计算需求最高的组件。

研究人员提供了执行单次迭代的UNet所需的延迟数据，以毫秒为单位测量，图像分辨率为512x512。

此外，他们记录了运行时生成的中间张量在「Tensor」列中的内存使用情况，以及为保存模型权重分配的内存在「Weight」列中的使用情况，均以兆字节为单位。

请注意，内存管理器通过重用中间张量的缓冲区来优化内存占用。

如表中数据显示，第一行显示了在公共Github仓库中使用内部OpenCL内核实现，但没有任何优化的结果。

实现之后的结果，并且研究者在没有任何优化的情况下使用内部OpenCL内核。

第2-5行，分别逐个启用每个优化：

Opt. Softmax：部分融合的softmax和优化的softmax减少步骤

S-GN/GELU：用于组归一化和GELU的专用内核

FlashAttn.：FlashAttention实现

Winograd(All)：采用Winograd卷积

随着每个优化的启用，实验结果发现延迟逐步减少。

与基线相比，在两种设备上都观察到了显著的总体延迟降低：三星S23 Ultra 降低52.2%，iPhone 14 Pro Max降低32.9%。

此外，研究人员还评估了在三星S23 Ultra进行文本到图像输出端到端延迟。

进行了20次去噪迭代，生成一张512x512图像，实现了不到12秒的业界领先结果。

可见，在没有数据连接或云服务器的情况下，在手机上本地运行生成式人工智能模型，将开辟了许多可能性。

谷歌最新研究给出了一种全新方案。

参考资料：

https://arxiv.org/abs/2304.11267

证券之星消息，根据天眼查APP数据显示美农生物（301156）新获得一项实用新型专利授权，专利名为“一种防止变形爆裂的旋转制粒机筛网”，专利申请号为CN202420972742.X，授权日为2024年12月27日。

证券之星 2024-12-28

手机跑Stable Diffusion，12秒出图，谷歌加速扩散模型破记录

推荐体验

相关资讯

速度惊人，手机跑Stable Diffusion，12秒出图，谷歌加速扩散模型破记录

谷歌下场优化扩散模型，三星手机运行Stable Diffusion，12秒内出图

0.6秒出图！手机跑Stable Diffusion创下最快速度，而这仅仅是开始

手机上0.2秒出图、当前速度之最，谷歌打造超快扩散模型MobileDiffusion

12秒内AI在手机上完成作画！谷歌提出扩散模型推理加速新方法

近期资讯

中国电信获得发明专利授权：“数据加密方法、装置、存储介质及处理器”

建设银行获得发明专利授权：“一种路径规划方法、装置及设备”

掌握Photoshop中扣印章的技巧与步骤，轻松提升作品专业度

美亚光电获得发明专利授权：“点云数据的处理方法、配准装置和口内扫描设备”

中国电信获得发明专利授权：“云资源创建方法、装置、存储介质与电子设备”

微信实名制的重要性与隐私挑战：安全与便利的平衡之道

如何通过写日志提升自我反思与成长的乐趣与意义

如何顺利连接WiFi：从设备设置到安全注意事项的全面指南

微波炉烧烤功能详解：使用技巧与美味食谱分享

美农生物获得实用新型专利授权：“一种防止变形爆裂的旋转制粒机筛网”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响