#0 前言
随着OpenAI带着GPT系列大步迈向多模态,Google也宣布Gemini原生支持多模态,国内头部厂家目前基本都支持了最基本的多模态:识图。
但目前网上关于这方面的评测还比较少,笔者运用之前评测长文本写作和复杂逻辑处理的思路,开始尝试进行识图评测。
#1 题库&规则
由于缺少参考,实验版也是在摸索中进行。因此不能保证和纯文字题目评测那样具有较高的可信度。每道题目用到的图片一部分来自互联网,一部分来自笔者自己制作。每张图都裁剪到1024*1024,JPG 90%质量压缩。
实验版构造了3个分类:
文字识别:包含电脑字体,手写,书法,花体字等
主体识别:包含行为识别,计数,图像细节观察
高级任务:包含草图转代码,几何题,基于图像推理等
打分沿用之前的负分规则:
答案错误:每道题都有唯一答案,不符合答案即扣分。
部分识别:为了回答题目而必须识别的内容中,只识别了一部分。一般是识字类题目扣此项。
指令误解:不能完全按照指令输出回答。
拒答:因触发关键词或人类价值观对齐(基于错误理解)导致不回答。同时因为输出不符合预期,答案错误和指令误解也各扣1分。
#2 参赛选手
ChatGPT(GPT-4 Vision)
阿里通义 2.1.0
百度文心一言 3.5 (会员过期了,暂时测不了4.0)
字节豆包(12月末版本)
讯飞星火 3.0
#3 实验版比分
#4 解析
1)从整体排名来看,和文字类题目的排名基本一致,这里阿里通义排到了第二是源于2.1能力有巨大提升,这一点在月末的12月评测中展开解析。
2)GPT4实测下来,并没有传说中那样强,尤其草图转代码,没有表现出当初宣传的那样震撼,代码是不可用的。同样在中文识别中,准确率也不如国内模型,尤其到了书法作品,GPT4就全错。但就算如此,GPT4在大部分题目中表现也足够令人赞叹。
3)阿里通义经过2.1的巨大更新,在识图测试中同样表现出色,识字题全对,甚至在几道废题,识别小篆和金文的题目中都能认对几个字,非常惊人。通义同样做不对草图转代码,甚至连框架代码都写不对。简单几何题解答正确,但在废题中更复杂的初高中几何题就无法正确读题了。考虑到做数学题目前并不是大模型强项,这个问题可以先忽略,等后面这方面有突破,再回来上强度。
4)讯飞星火表现中规中矩,正如他的文字题表现一样。完全正确的题目也不多,基本不能拿来日常使用。
4)文心一言的识图表现很诡异,他的识图能力似乎是多个计算机视觉能力拼起来,比如识字题,文心会忽略问题,直接调OCR把图中所有文字全部解析出来,并且正确率很低。识别图片内容的题目也表现的在梦游,似乎根本没有看图,而是根据问题在猜。
2)豆包的识图模型是完全独立的,并不是原生多模态,因为豆包的文字题回答还可以,但识图就一塌糊涂,几乎每道题都错了一点,只有一个数人数的题正确。
#5 后续计划
1)通过这一轮实验,基本证明了评测识图是可行的,可以打分,排名和日常使用体验也比较符合。接下来就是扩大范围到所有支持识图的模型,将在12月末的总和评测里体现。