生成式 AI

作者：思腾云计算GPU服务器发布时间：2024-03-06

v> 生成式AI进入应用爆发期，将极大地推动数字化内容生产与创造。摘要生成式 AI（Generative AI 或 AIGC）是利用现有文本、音频文件或图像创建新内容的技术。过去一年，其技术上的进展主要来自于三大领域：图像生成领域，以 DALL·E-2、Stable Diffusion 为代表的扩散模型（Diffusion Model）；自然语言处理（NLP）领域基于 GPT-3.5 的 ChatGPT；代码生成领域基于 Codex 的 Copilot。现阶段的生成式 AI 通常被用来生成产品原型或初稿，应用场景涵盖图文创作、代码生成、游戏、广告、艺术平面设计等。未来，生成式 AI 将成为一项大众化的基础技术，极大的提高数字化内容的丰富度、创造性与生产效率，其应用边界也将随着技术的进步与成本的降低扩展到更多领域。趋势十生成式 AI 使用各种机器学习算法，从数据中学习要素，使机器能够创建全新的数字视频、图像、文本、音频或代码等内容。它创建出的内容与训练数据保持相似，而非复制。它的发展得益于近年来大模型在基础研究尤其是深度学习上的突破，真实数据的积累和计算成本的下降。在过去的这一年，生成式 AI 将人工智能的价值聚焦到“创造”二字，这标志着人工智能开始具备定义和呈现新事物的能力。过去一年，生成式 AI 的进展主要体现在如下领域：图像生成领域的进展来自扩散模型（Diffusion model）的应用，以 DALL· E-2、Stable Diffusion 为代表。扩散模型是一种从噪声中生成图像的深度学习技术。扩散模型技术的背后，是更精准理解人类语义的预训练模型、以及文本与图像统一表示模型（CLIP）的支撑。它的出现，让图像生成变得更具想象力。自然语言处理（NLP）领域的进展来自于基于 GPT3.5 的 ChatGPT（Generative Pre-trained Transformer）。这是一种基于互联网可用数据训练的文本生成深度学习模型，用于问答、文本摘要生成、机器翻译、分类、代码生成和对话 AI。得益于文本和代码相结合的预训练大模型的发展， ChatGPT 引入了人工标注数据和强化学习（RLHF）来进行持续训练和优化。加入强化学习后，大模型能够理解人类的指令以及背后的含义，根据人类反馈来判断答案的质量，给出可解释的答案，并对于不合适的问题给出合理的回复，形成一个可迭代反馈的闭环。代码生成领域的进展来自代码生成系统 AlphaCode 和 Copilot。2022 年 2 月， Deepmind 推出了他们的最新研究成果 AlphaCode。它是一个可以自主编程的系统，在 Codeforces 举办的编程竞赛中，超过了 47% 的人类工程师。这标志着 AI 代码生成系统，首次在编程竞赛中，达到了具有竞争力的水平。基于开源代码训练的 Copilot 开始商业化，作为订阅服务提供给开发者，用户可以通过使用 Copilot 自动补全代码。 Copilot 作为一个基于大型语言模型的系统，尽管在多数情况下仍需要人工二次修正，但在简单、重复性的代码生成上，将帮助开发者提升工作效率，并给 IDE（集成开发环境）行业带来重大影响。随着内容创造的爆发式增长，如何做到内容在质量和语义上的可控，成为可控式生成，将是生成式 AI 面临的主要挑战。在产业化方面，降成本仍是关键挑战。只有像 ChatGPT 这样的大模型训练成本和推理成本足够低，才有可能规模化推广。此外，数据的安全可控、创作版权和信任问题也需要随着产业化加快逐一解决。未来三年，生成式 AI 将步入技术产品化的快车道，在商业模式上会有更多探索，产业生态也会随着应用的普及逐步完善。届时，生成式 AI 的内容创造能力将达到人类水平。拥有数据、计算能力、产品化经验的大型科技公司将成为生成式 AI 落地的主要参与者。基于生成模型的计算基础设施和平台会逐步发展起来，模型变成随手可得的服务，客户不需要部署和运行生成式模型的专业技能就可以使用。生成模型将在交互能力、安全可信、认知智能上取得显著进展，以辅助人类完成各类创造性工作。