中科院自动化所「全模态」大模型亮相，图文音视频3D传感器信号都能理解

作者：量子位发布时间：2023-06-17

AI大模型

梦晨发自凹非寺

量子位 | 公众号 QbitAI

大模型搞多模态，做文字、图像、音视频这几样就够了？

中科院自动化所说不：

我们还加入了3D点云和更多传感器信号。

国产大模型新成员，千亿参数全模态大模型「紫东太初2.0」正式亮相。

不光能认知和理解多模态数据，还能在多轮对话中进一步与用户交互。

AI离理解现实世界中复杂多样的信息，又近了一步。

而且不仅如此，多个数据，甚至不同模态数据一起出现也难不倒它。

对于车内视角和车外视角的两个视频，可以找出共同特点。

图书馆照片和汽车鸣笛音频一起出现，也能分析出奇怪之处并给出解释。

认知、推理之外，紫东太初2.0也可以完成多模态生成任务。

图像、音频、视频一起出现，就能结合起来讲一个完整的故事。

又或者提取多模态数据中的特征并进行模仿。

AI如何理解全模态？

为什么要做多模态甚至全模态？

团队介绍到，现实世界中本来就充满了复杂多样的异构信息，人类自己也是综合多模态信息去理解这个世界的。

从模态的种类来说，文本只是其中非常小的一部分。

但从数据收集的角度来说，文本却又是数据最丰富的。

AI最擅长的就是从海量数据中提取出隐藏的规律，所以语言大模型进展最快也就不奇怪了。

其他模态数据本来就少，尤其是做多模态需要的配对数据就更稀缺。

拿大家已经很熟悉的文生图AI绘画来说，训练阶段需要大量的图-文配对数据，生产成本已经很高。

要想得到充足的文字、图像、音频、视频、3D、信号等模态之间的配对数据，那就想都别想了。

学术界为这个问题也想出一种解决办法：

以其中一种模态为核心，作为桥梁连接其他模态。

在科研探索中又分化出两条路线。

国外Meta的ImageBind选择了以图像为核心，

国内的紫东太初2.0团队则是“以语言为核心”路线的代表。

团队对此的考量是，图像能表达的语义还是不够丰富，比如像抽象的概念最后还是得靠语言。

以语言为核心连接起全模态数据，也为AI大模型打开很多新的应用空间，在发布会现场也做了展示。 ‍‍

全模态大模型用在哪？

外科手术中除了需要用到视觉，触觉传感器数据也同样重要。

两种数据跨模态融合，就解决了机器人辅助手术中的国际性难题。

同样是医学领域，医学影像、患者照片、病例等结合起来，还可以辅助罕见病的鉴别诊断。

交通领域，多模态协同推理也能更精准研判违规行为。

企业和组织想要借助这些全模态能力开发应用，也可以直接到紫东太初大模型开放服务平台。

简单来说，就是AI应用开发全生命周期的每一个环节所对应的服务都安排好了。

开放服务平台内置MindSpore、Pytorch等主流开源深度学习框架，提供大模型下游微调、自动学习、可视化拖拽建模、交互式代码开发等不同建模方式。主打全方位国产可控、快速切入客户场景，以及简单易用的人工智能建模和应用。

全模态大模型怎么炼成的？

说起来，全模态大模型并不是凭空出现。

2020年1月，中科院自动化所就发起集团式攻关，聚焦多模态大模型路线

2021年9月，发布首个千亿参数三模态大模型紫东太初1.0，做到多模态统一表示，相互生成、推理。

在应用实践过程中又发现数字时代万物互联的新需求，融入3D、视频、传感信号等更多模态数据，进一步突破感知、认知和决策的交互屏障。

但全模态也不是终点。

在发布会现场，中科院自动化研究所所长徐波表示，站在更宏观的视角，全模态大模型属于信息智能的突破。

未来要通向AGI，势必还要与另两大路线“类脑智能”和“博弈智能”再次融合。

— 完—

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「电商零售」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里 👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

中科院AI大模型紫东太初2.0问世，支持视频、3D等模态数据

DoNews6月16日消息，中国科学院自动化研究所 16 日上午在上海发布了该所研制的新一代人工智能大模型 —— 紫东太初 2.0。据介绍，全新大模型相比第一代着力提升了决策与判断能力，实现了从感知

AI大模型人工智能

金融界 2023-06-16

自动驾驶-多传感器融合跟踪全栈教程

空间域融合技术直接对输入图像的像素值进行处理,以达到所需的融合结果。空间域融合技术包括基于灰度加权的图像融合、基于PCA的图像融合和基于IHS的图像融合。变换域融合技术包括基于多尺度变换图像融合和基于稀疏表示的图像融合方法。除空间域和变换域两种融合方式以外，还有许多基于深度学习的融合方法[3]。在过去的几年里，出现了许多基于深度学习的图像融合方法。深度学习可以帮助解决图像融合中的几个重要问题。例如，与手工制作的方法相比，深度学习可以提供更好的功能。此外，深度学习可以在图像融合中学习自适应权重，这在许多融合

自动驾驶深度学习

学课拼课 2023-07-21

赛多利斯传感器PR6241/23 D1

【广州洋奕电子】赛多利斯传感器PR6241/23 D1如果你想了解更多传感器的信息，产品类型，可以搜索【广州洋奕电子】其他传感器型号：赛多利斯传感器PR6241/23 D1C2B1B-250K原装传感器C2B1B-500K原装传感器C2B1B-1T原装传感器C2B1B-2T原装传感器AST-100kg原装传感器AST-250kg原装传感器而身在ChatGPT核心地带的小孩们，则成为首批通过ChatGPT获益的人。Study的一项调查显示，有超过89%的学生通过ChatGPT做作业，这引发了教育界的普遍担忧

ChatGPT 教育

最爱尼玛 2023-08-10

赛多利斯PR6241/32 D1传感器

【广州洋奕电子】赛多利斯PR6241/32 D1传感器如果你想了解更多传感器的信息，产品类型，可以搜索【广州洋奕电子】其他传感器型号：CB14-100K-21工业传感器CB14-150K-21工业传感器CB14-250K-21工业传感器CB14-300K-21工业传感器CB14-500K-21工业传感器CC010-500K工业传感器赛多利斯PR6241/32 D1传感器如果OpenAI有最想划掉的经历，那么大概率就是推出AI Classifier了。作为轰动全球的ChatGPT的研发者，OpenAI在AI

OpenAI ChatGPT

最爱尼玛 2023-08-10

中科院物理所等发布AI大模型MatChat，用于预测无机材料合成路径

中科院物理所等发布AI大模型MatChat，用于预测无机材料合成路径 11月3日，据中科院物理所官网，近期，中国科学院物理研究所/北京凝聚态物理国家研究中心SF10组和中国科学院计算机网络信息中

AI大模型

界面新闻 2023-11-03

近期资讯

3999 元无风扇，酷冷至尊 X Silent Edge Platinum 850W 电源发售

IT之家11月11日消息，酷冷至尊今日发布了一款无风扇电源新品——XSilentEdgePlatinum850W白金电源，新品现已在京东开售，定价3999元。该电源尺寸为180x150x86mm，拥有80Plus白金牌认证；由于采用无风扇散热设计，因此整体噪音会比较小，适合想要打造低噪音主机的用户。

IT之家 2024-11-11

玄派 X68 磁轴机械键盘今晚 8 点开售，到手价 199 元

IT之家11月11日消息，玄派新款X68键磁轴机械键盘玄熊猫X68将于今晚8点开售，支持8000Hz回报率，0.02mm精度，双11到手价199元。玄派X68为68键小配列键盘，带有完整方向键，但精简了F1-12按键区，需借助组合按键实现F区功能。

IT之家 2024-11-11

IT之家 2024-11-11

苏州中储普华电力科技取得电网多方位监控装置专利，可实现全方位无死角监控

金融界2024年11月11日消息，国家知识产权局信息显示，苏州中储普华电力科技有限公司取得一项名为“种电网多方位监控装置”的专利，授权公告号CN221974764U，申请日期为2024年2月。专利摘要显示，本实用新型涉及一种电网多方位监控装置。

金融界 2024-11-11

BenQ RD | 浸入“方寸间心流涌动”的编码体验

发布会现场，明基RD系列特别为到场嘉宾专门设立了三大场景体验区，从桌面环境的搭建到正式进入开发工作，精心还原了程序员日常开发的各种场景，更模拟了白天和深夜两种不同的工作环境，让大家切身感受到明基RD系列是如何帮助开发者摆脱频繁打断的困扰，专注代码本身，打造心流时刻的。

中关村在线 2024-11-11

惠州市诚易盛电子取得便于拆装多角度可调节的多屏连接机构专利，能够根据需要自由调整显示屏的水平位置

金融界2024年11月11日消息，国家知识产权局信息显示，惠州市诚易盛电子有限公司取得一项名为“便于拆装多角度可调节的多屏连接机构”的专利，授权公告号CN221974771U，申请日期为2024年3月。专利摘要显示，本实用新型提出了一种便于拆装多角度可调节的多屏连接机构，包括底座，所述底座上固定连接有立柱，所述立柱的顶部设置有阻尼转轴。

金融界 2024-11-11

杭州数跑科技申请基于商业智能 BI 工具的报表生成专利，节省客户方资源

金融界2024年11月11日消息，国家知识产权局信息显示，杭州数跑科技有限公司申请一项名为“基于商业智能BI工具的报表生成方法及装置”的专利，公开号CN118917285A，申请日期为2024年7月。

金融界 2024-11-11

中科院自动化所「全模态」大模型亮相，图文音视频3D传感器信号都能理解

推荐体验

相关资讯

中科院AI大模型紫东太初2.0问世，支持视频、3D等模态数据

自动驾驶-多传感器融合跟踪全栈教程

赛多利斯传感器PR6241/23 D1

赛多利斯PR6241/32 D1传感器

中科院物理所等发布AI大模型MatChat，用于预测无机材料合成路径

近期资讯

3999 元无风扇，酷冷至尊 X Silent Edge Platinum 850W 电源发售

玄派 X68 磁轴机械键盘今晚 8 点开售，到手价 199 元

消息称微软将为 Win11 任务栏加入“推荐”内容，展示热门网站 / 应用

AMD Zen6锐龙还是AM5接口！

支付宝就崩溃问题致歉：不会影响资金安全

消息称荣耀数字“大杯”搭载骁龙 8 Gen 3 处理器、1.5K 四曲屏，

苏州中储普华电力科技取得电网多方位监控装置专利，可实现全方位无死角监控

BenQ RD | 浸入“方寸间心流涌动”的编码体验

惠州市诚易盛电子取得便于拆装多角度可调节的多屏连接机构专利，能够根据需要自由调整显示屏的水平位置

杭州数跑科技申请基于商业智能 BI 工具的报表生成专利，节省客户方资源

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响