当前位置:首页|资讯|OpenAI|谷歌

大模型识图能力评测 - 实验版

作者:伤心的流星发布时间:2023-12-17

#0 前言

随着OpenAI带着GPT系列大步迈向多模态,Google也宣布Gemini原生支持多模态,国内头部厂家目前基本都支持了最基本的多模态:识图。

但目前网上关于这方面的评测还比较少,笔者运用之前评测长文本写作和复杂逻辑处理的思路,开始尝试进行识图评测。

#1  题库&规则

由于缺少参考,实验版也是在摸索中进行。因此不能保证和纯文字题目评测那样具有较高的可信度。每道题目用到的图片一部分来自互联网,一部分来自笔者自己制作。每张图都裁剪到1024*1024,JPG 90%质量压缩。

实验版构造了3个分类:

  • 文字识别:包含电脑字体,手写,书法,花体字等

  • 主体识别:包含行为识别,计数,图像细节观察

  • 高级任务:包含草图转代码,几何题,基于图像推理等

打分沿用之前的负分规则:

  1. 答案错误:每道题都有唯一答案,不符合答案即扣分。

  2. 部分识别:为了回答题目而必须识别的内容中,只识别了一部分。一般是识字类题目扣此项。

  3. 指令误解:不能完全按照指令输出回答。

  4. 拒答:因触发关键词或人类价值观对齐(基于错误理解)导致不回答。同时因为输出不符合预期,答案错误和指令误解也各扣1分。

#2 参赛选手

ChatGPT(GPT-4 Vision)

阿里通义 2.1.0

百度文心一言 3.5 (会员过期了,暂时测不了4.0)

字节豆包(12月末版本)

讯飞星火 3.0

#3 实验版比分

#4 解析

1)从整体排名来看,和文字类题目的排名基本一致,这里阿里通义排到了第二是源于2.1能力有巨大提升,这一点在月末的12月评测中展开解析。

2)GPT4实测下来,并没有传说中那样强,尤其草图转代码,没有表现出当初宣传的那样震撼,代码是不可用的。同样在中文识别中,准确率也不如国内模型,尤其到了书法作品,GPT4就全错。但就算如此,GPT4在大部分题目中表现也足够令人赞叹。

3)阿里通义经过2.1的巨大更新,在识图测试中同样表现出色,识字题全对,甚至在几道废题,识别小篆和金文的题目中都能认对几个字,非常惊人。通义同样做不对草图转代码,甚至连框架代码都写不对。简单几何题解答正确,但在废题中更复杂的初高中几何题就无法正确读题了。考虑到做数学题目前并不是大模型强项,这个问题可以先忽略,等后面这方面有突破,再回来上强度。

4)讯飞星火表现中规中矩,正如他的文字题表现一样。完全正确的题目也不多,基本不能拿来日常使用。

4)文心一言的识图表现很诡异,他的识图能力似乎是多个计算机视觉能力拼起来,比如识字题,文心会忽略问题,直接调OCR把图中所有文字全部解析出来,并且正确率很低。识别图片内容的题目也表现的在梦游,似乎根本没有看图,而是根据问题在猜。

2)豆包的识图模型是完全独立的,并不是原生多模态,因为豆包的文字题回答还可以,但识图就一塌糊涂,几乎每道题都错了一点,只有一个数人数的题正确。

#5 后续计划

1)通过这一轮实验,基本证明了评测识图是可行的,可以打分,排名和日常使用体验也比较符合。接下来就是扩大范围到所有支持识图的模型,将在12月末的总和评测里体现。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1