AI大模型生态加速突破，2024年应用元年有望到来

作者：AIGC资源社发布时间：2024-03-09

(精选报告来源：幻影视界)

1.海外大语言模型进入新一轮大模型技术突破期，国内也纷纷突破 GPT3.5 水平

国内外大语言模型进入新一轮突破期。在海外，OpenAI 推出 GPT-4V，多模态能力加强，Google 推出新一轮大语言模型 Gemini，其中 Ultra 模型在文本处理的基准测试优于 GPT4，在 2 月 15 日，Google 新发布了 1.5 版本相较于 1.0 的性能继续提升；Meta 近期公布正在架构算力研发 LLaMA3 并坚持开源；Anthropic 旗下的 Claude 模型也进化到 3 版本，整体性能略超 GPT-4，继续保持长文本性能和安全性特点突出，大模型 Mixtral 通过 MOE 结构较好的提质增效。同期在国内包括智谱、文心一言、科大讯飞和通义千问等的新版本都达到了赶超 GPT3.5 甚至部分能力接近 GPT4 的水平。

2.多模态生成大模型层出不穷，SORA 引领新一轮大模型创新浪潮

多模态生成大模型进入技术突破期，OpenAI 发布视频生成模型 SORA,采用 Diffusion Transformer 结构，使用时空 Latent patch 表示视频和图像，或成为模拟现实的基础；近期 Stability.ai 开源 Stable Video Diffusion 模型， Google 发布 VideoPoet，视频生成新技术不断涌现；文生图模型也逐步迭代，Midjourney 推出 V6 版本，图片生成能力更加优异；此外在数字人领域，微软推出 GAIA 大模型，阿里巴巴推出 Animate Anyone，我们认为这为垂类商业场景奠定了技术基础。

3. 多模态生成新技术不断突破，正处于技术突破的关键期

3.1. SORA 模型横空出世，视频生成模型的 GPT3 时刻来临

Sora 采用 Diffusion Transformer 结构，使用时空 Latent patch 表示视频和图像，或成为模拟现实的基础。Sora 建立在 DALL·E 和 GPT 的基础上，它采用扩散模型，以类似静态噪声的视频为起点，通过多个步骤去除噪声来逐渐产生视频。此外，Sora引入了 Transformer 结构，OpenAI 团队用 patch 作为基本单位，把视频和图像表示为 patch 的组合（类似于 GPT 中的 token）。patch 的表示方法扩大了 OpenAI 的数据集，因此 DM+Transformer 的训练可以引入不同持续时间、分辨率和纵横比的数据。OpenAI 认为，Sora 是 AI 理解和模拟真实世界的基础，是 AGI 的重要里程碑。

3.2. pika 推出 1.0，模型效果快速提升

Pika labs 发布 1.0 产品，DreamPropeller 助力视频生成保质提速。2023 年 11 月 29 日，位于美国的初创企业 Pika Labs，对外正式发布了其全新的视频生成与编辑软件——Pika 1.0。该软件具备视频处理能力，可生成并编辑 3D 动画、动漫、卡通以及电影等多种形式的视频内容。值得一提的是，Pika 1.0 的使用门槛极低，用户仅需输入一句话，即可生成多种风格的视频。同时，用户还可以通过简单的描述，对视频中的形象和风格进行个性化调整。 Pika 提出的 DreamPropeller 方法，以并行计算换取速度，将该方法用于 DreamGaussian 和 ProlificDreamer 后，在保证生成质量的同时，实现了超过 4 倍的加速。

3.3. Stability.ai 发布并开源 Stable Video Diffusion 模型

2023 年 11 月份上线的 Stable Video Diffusion 模型可用于视频、图片生成，性能优于部分同期模型。2023年11月21日，Stability.AI基于研究目的发布Stable Video Diffusion（SVD）模型和微调版本 SVD-XT。功能方面，SVD 可用于文本-视频生成、图片-视频生成和多视图合成。性能方面，SVD 的文生视频 FVD 测试得分（类似图像的 FID 指标，越小则越接近真实案例）优于 Make-A-Video 和 MagciVideo 等多个模型；此外，在图生视频方面，SVD 比 Pika 和 GEN-2 更受欢迎。

3.4. Google 发布 VideoPoet，基于 LLM 的技术路径表现出亮眼的视频生成能力

VideoPoet 能力覆盖各种视频任务，效果亮眼。2023 年 12 月 19 日，谷歌发布视频生成大模型 VideoPoet，能够执行各种视频生成任务，包括文本到视频、图像到视频、视频风格化、视频修复和扩展，以及视频转音频。测试结果方面，VideoPoet 在零样本文本到视频基准测试上（MSR-VTT 和 UCF-101）实现了先进的性能。

3.5. Midjourney 推出 V6，大版本迭代带来更优异的图片生成能力

Midjourney v6 优化 Prompt 模式，生成图片相较于前一代版本更加准确自然。2023 年 12 月 21 日，Midjourney v6 发布 BETA 版。与 v5 相比，v6 的主要变化，就是图像质量更好、语义理解更强、能嵌入英文单词、更容纳更多 token 了。从生成效果来看，v6 的效果更自然，已经达到了电影级别的质量。从光影效果来看，v6 更丰富、真实，有光追效果。

本文仅供参考，不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。