多模态推动人工智能迈向 AGI, 底层技术日臻成熟
相比单模态, 多模态大模型同时处理文本、 图片、 音频以及视频等多类信息, 与现实世界融合度高, 更符合人类接收、 处理和表达信息的方式, 与人类交互方式更加灵活, 表现的更加智能, 能够执行更大范围的任务, 有望成为人类智能助手, 推动 AI 迈向 AGI。 就技术架构而言, 多模态技术可拆解为编码、 对齐、 解码与微调等步骤, 逐步挖掘多模态关联信息, 输出目标结果。 文生图 CLIP 模型为最先成熟的多模态技术, 目前, 多模态已不再局限于图文两层信息。 例如,Meta-Transformer 可同时理解并处理 12 种模态信息。
OpenAI 谷歌开启多模态军备竞赛, Sora 和 Gemini 各领风骚
海外龙头具备先发与技术优势, 引领多模态大模型前进方向: 1)OpenAI 近期密集剧透 GPT-5, 相比 GPT-4 实现全面升级, 重点突破语音输入和输入、 图像输出以及最终的视频输入方向, 或将实现真正多模态;
报告节选: