文 | 周鑫雨
编辑 | 邓咏仪
想要更接近通用人工智能,提高AI对图像、语音、视频等多模态内容的理解不可或缺。相较于注重文本交互的单模态语言模型,多模态模型能将AI领域拓展至识别、检测等更广泛的领域。
成立于2021年, AI创企“智子引擎”是国内较早对多模态大模型展开研究的团队。人大高瓴人工智能学院教授卢志武担任公司的首席技术顾问,并对大模型相关研究成果进行商业转化。
基于今年3月8日发布的“图生文”模型“元乘象 ChatImg1.0”,智子引擎推出了支持语音、文本、图像交互的ChatImg2.0。
元乘象 ChatImg 2.0能够对图像和视频内容进行理解。
相较于主打“看图”的1.0版本,ChatImg2.0新增语音交互功能,并支持视频输入,并在页面新增“发现”功能导航入口。
元乘象 ChatImg支持视频和语音输入,与此同时增加了“发现”功能导航界面。
ChatImg的基座为智子引擎自研的150亿参数多模态大模型。2023年3月,团队在关于多模态大模型“无人区”的探索有了初步的成果:会看图的“元乘象 ChatImg1.0”发布,后续更迭至2.0版本。
智子引擎CEO高一钊介绍,ChatImg 2.0的中文和英文多模态对话能力已经超过了目前主流的开源模型。在多模态对话数据集(LLaVa)的公开评测过程中,ChatImg 2.0对90个问题的回答结果,拿到了GPT-3.5打出的最高分,并与GPT-4的表现最为接近。
LLaVa对元乘象 ChatImg 2.0以及主要开源模型的评测结果。
在应用落地上,基于对复杂场景的识别能力,智子引擎与软通智慧合作发布了城市多模态大模型和城市治理云GPT-Creator2.0。基于软通智慧提供的城市场景、城市数据以及私有化部署及专训,智子引擎联合训练出应用于城市治理事件管理的多模态大模型。
评测结果显示,ChatImg在复杂场景的识别上准确率达到了90%以上。与此同时,城市治理改变了传统“一场景一模型”的部署模式,用特定数据对ChatImg进行微调的解决方案将系统部署复杂度降低了50%以上。
与此同时,智子引擎团队正在对“ChatImg2.0+实体机器人”进行尝试。目前,该团队联合北京理工大学张伟民教授团队共同打造了智能机器人“小象”。与目前市面上大多厂商将AI能力接入辅助硬件功能不同,“小象”的设计则从ChatImg的多模态交互功能出发,为AI打造更贴合的实体智能生命形象。“小象”目前具备语音交互、图像识别等功能。
接入ChatImg 2.0的实体机器人“小象”目前具备语音交互、图像识别等功能。
高一钊告诉36氪,目前智子引擎共有8名全职员工, “做成大模型的人数不在多,而是考验团队每个人的研究能力和工程能力。”此外,首席技术顾问卢志武曾为智源研究院“悟道·文澜”大模型研究团队的核心成员,也是“文澜 BriVL”的主要设计者。
近日,智子引擎完成千万元天使轮融资,主要用于多模态大模型的研发和落地。
“通用化和商业化,是未来5年最重要的两件事。”高一钊对36氪表示,“通用化是学术上对模型能力的优化,但此外能重要的是模型能力能够对现有行业进行颠覆。目前,我们还有很多场景等待落地,在技术上也将会持续发力,这都是对自己竞争优势的一种保护。”
36kr制图
欢迎关注