多模态，AI大模型新一轮革命

作者：侠说发布时间：2024-02-25

多模态推动人工智能迈向AGI，底层技术日臻成熟。相比单模态，多模态大模型同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，更符合人类接收、处理和表达信息的方式，与人类交互方式更加灵活，表现的更加智能，能够执行更大范围的任务，有望成为人类智能助手，推动AI迈向AGI。

就技术架构而言，多模态技术可拆解为编码、对齐、解码与微调等步骤，逐步挖掘多模态关联信息，输出目标结果。文生图CLIP模型为最先成熟的多模态技术，目前，多模态已不再局限于图文两层信息。例如，Meta-Transformer可同时理解并处理12种模态信息。

OpenAI谷歌开启多模态军备竞赛，Sora和Gemini各领风骚。海外龙头具备先发与技术优势，引领多模态大模型前进方向：

1）OpenAI近期密集剧透GPT-5，相比GPT-4实现全面升级，重点突破语音输入和输入、图像输出以及最终的视频输入方向，或将实现真正多模态；此外，2月发布文生视频大模型Sora，能够根据文本指令或静态图像生成1分钟的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧，能够很好地模拟和理解现实世界。

2）Google推出原生多模态大模型Gemini，可泛化并无缝地理解、操作和组合不同类别的信息；此外，2月推出Gemini 1.5 Pro，使用MoE架构首破100万极限上下文纪录，可单次处理包括1小时的视频、11小时的音频、超过3万行代码或超过70万个单词的代码库。

3）Meta坚持大模型开源，建设开源生态巩固优势，已陆续开源ImageBind、AnyMAL等多模态大模型。国内大模型厂商有望沿着复制海外先进技术与发挥生态禀赋优势的两大路径，与海外大厂逐步缩小差距。

多模态提升大模型泛化能力，垂直领域应用场景广阔。强调技术与业务的融合以推动业务的数字化转型和智能化升级，才能够最大化的发挥大模型价值同时激励大模型创新升级，实现业务效率提升与技术创新的良性循环。多模态大模型的应用场景和价值正在不断扩展和提升。

从语音识别、图像生成、自然语言理解、视频分析，到机器翻译、知识图谱等，多模态大模型都能够提供更丰富、更智能、更人性化的服务和体验。在强大泛化能力基础上，大模型可以在不同模态和场景之间实现知识的迁移和共享，将大模型的应用扩展到不同的领域和场景。

来源：华福证券

本报告内容节选如下：

资料下载：公众号《侠说》

多模态，AI大模型新一轮革命

推荐体验

相关资讯

AI大模型专题：多模态，AI大模型新一轮革命（附下载）

2024计算机行业报告：多模态，AI大模型新一轮革命——附下载

ChatGPT掀起新一轮AI革命

生数科技完成新一轮融资，国内多模态大模型厂商着力追赶Sora

SORA引领新一轮大模型创新浪潮多模态生成大模型层出不穷

近期资讯

苏州科瓴申请自移动设备的控制方法和自移动设备专利，有效防止漏割的草被识别为障碍物

泸州亿欣取得可旋转翻转式机械臂专利，能够牢固对物料进行夹持

上海和璧自动化设备取得一种环状体取出工装专利，提高取出效率

南京山景科技取得自动化药房机械手结构专利，提高了自动化药房的入药效率

四川嘉拓智能设备取得非定心坩埚夹持机构专利，可提高夹持坩埚的成功率

睿魔创新取得重力补偿机构及具有该重力补偿机构的机械臂专利，实现机械臂重力补偿

深圳市龙方自动化科技取得双限位式单轴机器人专利，有效防止过载和超程

赛悟德半导体科技申请一种基于气体供应设备的自动化切换专利，实现 ISO 槽车自动化切换

永越智能取得用于实验室服务机器人的柔性夹爪专利，结构简单、夹持方便

安徽云乐新能源取得抓取机器人减震底盘专利，使装置移动更稳定

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响