昨日,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了OpenAI的GPT-4V和谷歌的Gemini Pro,而且,其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍,而这个全球最强端侧多模态模型不是国外大厂的出品,而是国内大模型研发实力最头部的公司面壁智能,最新打造出来的面壁小钢炮MiniCPM-Llama3-V 2.5。
据了解,面壁小钢炮MiniCPM-Llama3-V 2.5仅凭8B量级的端侧模型,在评测平台OpenCompass得分65.1,与闭源模型Qwen-VL-Max或可一战,综合性能直接力压重量级选手GPT-4V和Gemini Pro。在OCR综合基准测试中,又取得了725分的成绩,大幅远超GPT-4V,并在大模型的“顽疾”幻觉能力上也获得了重大改进,还有各种基准测试,数据都远超GPT-4V和Gemini Pro。
简单来说,MiniCPM-Llama3-V 2.5能看、能读、速度快、更会思考,而且,还用最小的参数撬动了最强性能!那么,抛开这些基准测试,这个小钢炮到底能给我们普通人带来啥?首先,它能支持30+种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言;其次,它支持难图、长图、长文本的精准识别,比如你在看一个吃瓜长文,总因为“太长不看”而烦恼,丢给它,它就能快速汇总出关键内容;如果是一张英文版的图文信息,它也能根据你的需求,给出非常精准的汇总;而且,它能够在一张拥有多种要素信息的图片中,“一眼”看懂图片的主题内容,并推理出图片的来源信息,再把“思考”后的信息整理汇总给我们。当它搭载到手机上,将能直接在设备端快速、实时运行,减少数据泄露风险,而且,即使没有网络连接,也能正常工作,还适用于多种设备,或成为真正的AI“贴身助理”。