大模型识图能力评测 - 实验版

作者：伤心的流星发布时间：2023-12-17

OpenAI 谷歌

#0 前言

随着OpenAI带着GPT系列大步迈向多模态，Google也宣布Gemini原生支持多模态，国内头部厂家目前基本都支持了最基本的多模态：识图。

但目前网上关于这方面的评测还比较少，笔者运用之前评测长文本写作和复杂逻辑处理的思路，开始尝试进行识图评测。

#1 题库&规则

由于缺少参考，实验版也是在摸索中进行。因此不能保证和纯文字题目评测那样具有较高的可信度。每道题目用到的图片一部分来自互联网，一部分来自笔者自己制作。每张图都裁剪到1024*1024，JPG 90%质量压缩。

实验版构造了3个分类：

文字识别：包含电脑字体，手写，书法，花体字等
主体识别：包含行为识别，计数，图像细节观察
高级任务：包含草图转代码，几何题，基于图像推理等

打分沿用之前的负分规则：

答案错误：每道题都有唯一答案，不符合答案即扣分。
部分识别：为了回答题目而必须识别的内容中，只识别了一部分。一般是识字类题目扣此项。
指令误解：不能完全按照指令输出回答。
拒答：因触发关键词或人类价值观对齐（基于错误理解）导致不回答。同时因为输出不符合预期，答案错误和指令误解也各扣1分。

#2 参赛选手

ChatGPT（GPT-4 Vision）

阿里通义 2.1.0

百度文心一言 3.5 （会员过期了，暂时测不了4.0）

字节豆包（12月末版本）

讯飞星火 3.0

#3 实验版比分

#4 解析

1）从整体排名来看，和文字类题目的排名基本一致，这里阿里通义排到了第二是源于2.1能力有巨大提升，这一点在月末的12月评测中展开解析。

2）GPT4实测下来，并没有传说中那样强，尤其草图转代码，没有表现出当初宣传的那样震撼，代码是不可用的。同样在中文识别中，准确率也不如国内模型，尤其到了书法作品，GPT4就全错。但就算如此，GPT4在大部分题目中表现也足够令人赞叹。

3）阿里通义经过2.1的巨大更新，在识图测试中同样表现出色，识字题全对，甚至在几道废题，识别小篆和金文的题目中都能认对几个字，非常惊人。通义同样做不对草图转代码，甚至连框架代码都写不对。简单几何题解答正确，但在废题中更复杂的初高中几何题就无法正确读题了。考虑到做数学题目前并不是大模型强项，这个问题可以先忽略，等后面这方面有突破，再回来上强度。

4）讯飞星火表现中规中矩，正如他的文字题表现一样。完全正确的题目也不多，基本不能拿来日常使用。

4）文心一言的识图表现很诡异，他的识图能力似乎是多个计算机视觉能力拼起来，比如识字题，文心会忽略问题，直接调OCR把图中所有文字全部解析出来，并且正确率很低。识别图片内容的题目也表现的在梦游，似乎根本没有看图，而是根据问题在猜。

2）豆包的识图模型是完全独立的，并不是原生多模态，因为豆包的文字题回答还可以，但识图就一塌糊涂，几乎每道题都错了一点，只有一个数人数的题正确。

#5 后续计划

1）通过这一轮实验，基本证明了评测识图是可行的，可以打分，排名和日常使用体验也比较符合。接下来就是扩大范围到所有支持识图的模型，将在12月末的总和评测里体现。