智子引擎发布大模型

作者：甲子光年发布时间：2023-05-31

2023年是AI大模型全面爆发的元年，国内外AI大模型技术在加速更新迭代，产业需求不断增加。其中，多模态大模型作为最前沿的AI技术，有着广泛的应用前景。如何将多模态大模型与产业相结合、与具体应用场景相结合，成为多方关注的重要课题。智子引擎团队在多模态大模型领域深耕多年，他们的技术始终站在世界前列。今天，智子引擎发布元乘象ChatImg2.0，同时联合软通动力、软通智慧、福建AI计算中心等多家企业共同迈出多模态AI大模型产业落地的第一步。

一、回顾ChatImg1.0

2023年3月8日，智子引擎团队发布世界首个多模态对话应用ChatImg，如果说ChatGPT靠对文字输入这单一信号的理解就完成了对部分人类的智力超越，那么「元乘象 Chatimg」则实现了对多态输入信号的统筹理解，它能听能看，既能察言又能观色，它能说会道，既能感知多路信号，又能统筹理解该说什么不该说什么。它把GPT的五官和大脑的协同能力，又往前推进了一步。

给「元乘象 Chatimg」一张「搭载火箭升空的大脑」的图像，它不仅能解读出图片的内容，还能判断该场景在现实中是否合理。

甚至，它还能根据图片编个故事，而且编的故事往往比较积极、阳光：

随着AI智能涌现的到来，「元乘象 Chatimg」会加速自身能力迭代，如从多模态信息的识别推理能力，进一步向多模态的生成能力进化，并从更广的应用范围与其他事物进一步融合，如在机器人、玩具、可穿戴设备、家居家电、交通设备等等，万物互联、万物有灵的时代终将到来。

二、ChatImg2.0

在ChatImg基础上，智子引擎团队继续在多方面优化模型：1、支持语音输入；2、支持视频输入；3、增加多个一键体验功能；4、用户自定义新功能。

图文对话实际效果方面，ChatImg2.0可以看懂非常丰富的图像内容：

视频对话实际效果方面，ChatImg2.0可以看懂视频并对内容作出推理：

纯文本对话效果方面，ChatImg2.0可以读懂多种多样的指令（扮演诗人、rapper、演说家等）：

在公开的多模态对话数据集（LLaVa）上的评测结果，表明ChatImg2.0显著超过了众多的开源模型。具体地，我们采用如下打分方式：给定90个问题，将问题、图像描述、待测模型回答结果和GPT4回答结果一起输入GPT3.5，让GPT3.5对比两个回答，分别给出分数（0-10分），最终为90个问题上的总分。详细的多模态对话评测结果见下表：

上表中的GPT4回答结果，是使用GPT4的纯文本版本基于给定的图像描述和目标检测信息作答的，没有真正看到图像。特别地，* 代表待测模型针对测试集中的中文问题，绝大部分是用英文回答的，需要提前用GPT3.5翻译成中文。可以看出，ChatImg2.0的中文和英文多模态对话能力均超过了目前最好的开源模型。