当前位置:首页|资讯|AI大模型|大语言模型|OpenAI

AI大模型生态加速突破,2024年应用元年有望到来

作者:AIGC资源社发布时间:2024-03-09

原标题:AI大模型生态加速突破,2024年应用元年有望到来

(精选报告来源:幻影视界)

1.海外大语言模型进入新一轮大模型技术突破期,国内也纷纷突破 GPT3.5 水 平

国内外大语言模型进入新一轮突破期。在海外,OpenAI 推出 GPT-4V,多 模态能力加强,Google 推出新一轮大语言模型 Gemini,其中 Ultra 模型在 文本处理的基准测试优于 GPT4,在 2 月 15 日,Google 新发布了 1.5 版本 相较于 1.0 的性能继续提升;Meta 近期公布正在架构算力研发 LLaMA3 并 坚持开源;Anthropic 旗下的 Claude 模型也进化到 3 版本,整体性能略超 GPT-4,继续保持长文本性能和安全性特点突出,大模型 Mixtral 通过 MOE 结构较好的提质增效。同期在国内包括智谱、文心一言、科大讯飞和通义千 问等的新版本都达到了赶超 GPT3.5 甚至部分能力接近 GPT4 的水平。

2.多模态生成大模型层出不穷,SORA 引领新一轮大模型创新浪潮

多模态生成大模型进入技术突破期,OpenAI 发布视频生成模型 SORA,采用 Diffusion Transformer 结构,使用时空 Latent patch 表示视频和图像,或成 为模拟现实的基础;近期 Stability.ai 开源 Stable Video Diffusion 模型, Google 发布 VideoPoet,视频生成新技术不断涌现;文生图模型也逐步迭 代,Midjourney 推出 V6 版本,图片生成能力更加优异;此外在数字人领域, 微软推出 GAIA 大模型,阿里巴巴推出 Animate Anyone,我们认为这为垂 类商业场景奠定了技术基础。

3. 多模态生成新技术不断突破,正处于技术突破的关键期

3.1. SORA 模型横空出世,视频生成模型的 GPT3 时刻来临

Sora 采用 Diffusion Transformer 结构,使用时空 Latent patch 表示视频和图像,或成为 模拟现实的基础。Sora 建立在 DALL·E 和 GPT 的基础上,它采用扩散模型,以类似静态 噪声的视频为起点,通过多个步骤去除噪声来逐渐产生视频。此外,Sora引入了 Transformer 结构,OpenAI 团队用 patch 作为基本单位,把视频和图像表示为 patch 的组合(类似于 GPT 中的 token)。patch 的表示方法扩大了 OpenAI 的数据集,因此 DM+Transformer 的 训练可以引入不同持续时间、分辨率和纵横比的数据。OpenAI 认为,Sora 是 AI 理解和模 拟真实世界的基础,是 AGI 的重要里程碑。

3.2. pika 推出 1.0,模型效果快速提升

Pika labs 发布 1.0 产品,DreamPropeller 助力视频生成保质提速。2023 年 11 月 29 日, 位于美国的初创企业 Pika Labs,对外正式发布了其全新的视频生成与编辑软件——Pika 1.0。 该软件具备视频处理能力,可生成并编辑 3D 动画、动漫、卡通以及电影等多种形式的视 频内容。值得一提的是,Pika 1.0 的使用门槛极低,用户仅需输入一句话,即可生成多种 风格的视频。同时,用户还可以通过简单的描述,对视频中的形象和风格进行个性化调整。 Pika 提出的 DreamPropeller 方法,以并行计算换取速度,将该方法用于 DreamGaussian 和 ProlificDreamer 后,在保证生成质量的同时,实现了超过 4 倍的加速。

3.3. Stability.ai 发布并开源 Stable Video Diffusion 模型

2023 年 11 月份上线的 Stable Video Diffusion 模型可用于视频、图片生成,性能优于部 分同期模型。2023年11月21日,Stability.AI基于研究目的发布Stable Video Diffusion(SVD) 模型和微调版本 SVD-XT。功能方面,SVD 可用于文本-视频生成、图片-视频生成和多视 图合成。性能方面,SVD 的文生视频 FVD 测试得分(类似图像的 FID 指标,越小则越接近 真实案例)优于 Make-A-Video 和 MagciVideo 等多个模型;此外,在图生视频方面,SVD 比 Pika 和 GEN-2 更受欢迎。

3.4. Google 发布 VideoPoet,基于 LLM 的技术路径表现出亮眼的视频生成 能力

VideoPoet 能力覆盖各种视频任务,效果亮眼。2023 年 12 月 19 日,谷歌发布视频生成 大模型 VideoPoet,能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风 格化、视频修复和扩展,以及视频转音频。测试结果方面,VideoPoet 在零样本文本到视 频基准测试上(MSR-VTT 和 UCF-101)实现了先进的性能。

3.5. Midjourney 推出 V6,大版本迭代带来更优异的图片生成能力

Midjourney v6 优化 Prompt 模式,生成图片相较于前一代版本更加准确自然。2023 年 12 月 21 日,Midjourney v6 发布 BETA 版。与 v5 相比,v6 的主要变化,就是图像质量更好、 语义理解更强、能嵌入英文单词、更容纳更多 token 了。从生成效果来看,v6 的效果更自 然,已经达到了电影级别的质量。从光影效果来看,v6 更丰富、真实,有光追效果。

本文仅供参考,不代表我们的任何投资建议。【幻影视界】整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1