元乘象Chatimg3.0来了，赶超GPT-4V，还给出产业升级新打法

作者：机器之心Pro发布时间：2023-10-30

机器之心发布

机器之心编辑部

最近，AI 领域都在思考一件事：多模态大模型落地产业，好的打法应该是什么？

通用人工智能时代正在到来，AI 大模型技术已成为数字经济下基础设施建设的重要支撑，也成为产业智能化转型的核心「引擎」，AI 大模型 + 产业应用迎来了前所未有的发展机遇。

在 10 月 28 日举办的 CNCC 2023「超智融合 AI 大模型应用落地发展论坛」上，智子引擎发布了「元乘象 Chatimg3.0」，展示了多模态通用生成模型「元乘象 Chatimg3.0」的最新进展与落地探索。

Chatimg3.0 核心技术的升级迭代

元乘象 Chatimg3.0 是一个超精细识别、少幻觉的多模态大模型，同时支持多图理解、物体定位、OCR 等功能。Chatimg3.0 给硬件设备装上了大脑，可实现更自然更流畅的人机交流，为 AI 多模态大模型赋能产业应用打下了坚实的基础。

与 Chatimg2.0 相比，Chatimg3.0 主要进行了两方面的升级，包括第一阶段的预训练（描述、检测、OCR 等多任务训练）以及第二阶段的指令微调（高质量的人工精筛指令集）。

为更好的评估多模态大模型的能力，智子引擎构建了一个全新的多模态对话测试集，从描述、推理、检测、问答、业务五个方面对模型能力进行评测，而且在问答和业务两个方面的能力上赶超 GPT-4V，展现出了国产大模型优秀的发展潜力。

以下是 Chatimg3.0 对比 GPT-4V 在测试中的具体表现：

描述：

左：Chatimg3.0，右：GPT-4V。

推理：

左：Chatimg3.0，右：GPT-4V。

检测：

左：Chatimg3.0，右：GPT-4V。

问答：

左：Chatimg3.0，右：GPT-4V。

重点领域探索应用

目前，智子引擎已经将「元乘象 Chatimg3.0」应用于全域防控和无人机巡检等领域，通过与无人机、电子探头等前端感知设备的融合，升级传统巡检和安防，实现了 AI 缺陷识别、异常检测、行为分析、重点监控、自主巡查、风险预测等功能，推动了 AI 工程化革新进程。

作为国内首个多模态大模型研发团队，智子引擎不仅在人才和技术上拥有先天的优势，多个知名投资机构和 IT 行业龙头的天使投资，也让这家公司「如虎添翼」。

在软通动力、华软科技等知名企业的协同助力下，融合「元乘象 Chatimg3.0」研发的「智子・天穹」和「智子・天巡」系统一经面世便得到了行业的关注，产品被快速应用于城市治理、智慧电力、管道巡检、园区管理、农业、金融等多行业应用场景，并逐步开始试点部署。

未来，为了加速大模型产业应用落地，促进数字经济可持续发展，智子引擎将继续加强模型训练和能力升级，汇聚行业顶尖人才和优势资源，为大模型助力产业升级不遗余力。核心模型「元乘象 Chatimg」未来还会在 AI agents、具身智能等方向持续发力，并将收获更多行业关注。

相关资讯

元乘象Chatimg3.0发布，多模态大模型助力产业应用再升级

通用人工智能时代，AI大模型技术成为数字经济下基础设施建设的重要支撑，也成为产业智能化转型的核心“引擎”，AI大模型+产业应用迎来了前所未有的发展机遇。

人工智能 AI大模型

镁客网 2023-12-04

元乘象Chatimg：会看图聊天的国产多模态通用大模型来了

元乘象Chatimg：会看图聊天的国产多模态通用大模型来了能用图片聊天的ChatGPT你用过吗？由于 OpenAI 目前给出的对话框只支持文字输入，所以在 ChatGPT 上，我们是无法体验到这种乐趣的。但是，一个名为“元乘象 Chatimg”的国产 AI 模型弥补了这一遗憾。它不仅支持文字聊天，还能看懂图片上的内容并根据图片内容回答问题。据了解，“元乘象 Chatimg”上线后十分火爆，关注微信公众号“元乘象”就可以体验该应用。元乘象Chatimg初体验如果给你一幅名画图片，可以想象一下，如果不知道这幅

ChatGPT OpenAI

MBA环球 2023-04-07

限时免费！国产多模态大模型重磅升级：性能赶超GPT-4V

快科技1月26日消息，今日，阿里云公布多模态大模型研究进展。据悉，通义千问视觉理解模型Qwen-VL再次升级，继Plus版本之后，再次推出Max版本，升级版模型拥有更强的视觉推理能力和中文理解能力

通义千问

朝晖 2024-01-26

🔥🔥🔥 计算机视觉 GPT-4V 它来了！

GPT-4V（GPT-4Vision）（GPT-4V）是由OpenAI开发的一种多模型。GPT-4V允许用户上传一张图片作为输入，并提出关于该图片的问题，这种任务类型被称为视觉问题回答（VQA）。

OpenAI

青Cheng序员石头 2023-09-28

限时免费！通义千问多模态大模型重磅升级：性能赶超GPT-4V和谷歌Gemini

据悉，通义千问视觉理解模型Qwen-VL再次升级，继Plus版本之后，再次推出Max版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测评中获得佳绩，整体…

通义千问谷歌编程

快科技 2024-01-27

元乘象Chatimg3.0来了，赶超GPT-4V，还给出产业升级新打法

推荐体验

相关资讯

元乘象Chatimg3.0发布，多模态大模型助力产业应用再升级

元乘象Chatimg：会看图聊天的国产多模态通用大模型来了

限时免费！国产多模态大模型重磅升级：性能赶超GPT-4V

🔥🔥🔥 计算机视觉 GPT-4V 它来了！

限时免费！通义千问多模态大模型重磅升级：性能赶超GPT-4V和谷歌Gemini

近期资讯

海象新材获得实用新型专利授权：“一种地板倒角成型装置”

顿号在汉字书写中的重要性与正确使用方法探讨

中国石化获得实用新型专利授权：“一种带式真空过滤机滤布清洗装置”

昊志机电获得实用新型专利授权：“一种主轴结构、电主轴和机床”

高效使用手机APP的实用指南与隐私保护建议

中铁工业获得实用新型专利授权：“一种开口肋组装可调角度定位装置”

莱斯信息获得发明专利授权：“适用于指挥态势图的箭头定位方法及系统”

风扇拆卸与清洗指南：轻松维护电器延长使用寿命

高效利用电脑：掌握显示桌面的小技巧与操作方法分享

高效信息搜索技巧：成为网络查找的小达人

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响