当前位置:首页|资讯|AI大模型|商汤|百度|ChatGPT

国产AI大模型横评(8月末)(含商汤,豆包,文心正式版)

作者:伤心的流星发布时间:2023-09-01

#0. 前言

从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大航海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。

7月的评测见:

国产AI大模型横评(7月末)(含Claude2对比) - 哔哩哔哩 (bilibili.com)

#1. 评测原则

本期原则和7月的相同,v2题库冻结没有变更,因此不再赘述规则。参考7月文档。

v2版题库所有问题全部重新设计,对问题分类进行抽象和并归,去掉无法准确量化打分的文本生成问题,增加完全无需任何背景知识的纯模型能力考察,新题库包含以下分类:指令理解,阅读理解,翻译(中英,文言文),数学计算(初中数学,物理,化学,天文),逻辑推理(多步推理,符号重定义),机器幻觉(文本挑错,误导问题)。

为了抹平模型对问题理解差异,每个问题都明确添加必要约束条件,如字数,格式,知识范围等。在不考察知识储备的问题,直接出给全部必要信息,如光年取值,重力加速度等。考察知识储备也仅限于互联网易得的知识,不涉及生僻问题。

#2. 打分规则

打分采用负向打分,即出现相应负向情况,扣1分。最后按扣分从少到多排序。扣分维度包括:

  • 答案错误:计算类,知识类答案不正确,翻译类理解错误。

  • 混乱输出:输出内容人类不可读,重复,错误解释,翻译用词不够准确等。

  • 指令误解:不能完全按照指令输出回答。

  • 拒答:因触发关键词或人类价值观对齐(基于错误理解)导致不回答。同时因为输出不符合预期,答案错误和指令误解也各记-1。

* 样例问题:输出5行文本,每行文本使用字符&填充,每行的字符个数的分别是5,6,7,8,5。不要输出&以外的内容 

* 回答: 对不起,我是一个语言模型AI,无法直接输出特殊符号。但是,您可以使用以下代码来实现您的需求: text = "Hello World!" for i in range(5):    text = text.replace("&", str(i+1)) print(text) 输出结果为: Hello 1! Hello 2! Hello 3! Hello 4! Hello 5! 

* 判分:未按指令,仅输出&,指令误解记-1;输出内容不正确,答案错误记-1

#3. 参赛选手

头部厂商在8月均有大版本更新,包含:

百度文心一言 2.3.0 版本(8月31日更新)

阿里通义 1.0.5 版本(8月11日更新)

讯飞星火 1.5 (8月15日版本)

字节豆包(8月末版本)

商汤商量(8月末版本)

其余模型由于没有更新,继续沿用7月的成绩,本次没有重测:

360智脑 (7月末版本)

昆仑天工(v3.5.20230705.a)

ChatGPT(Lagacy)

ChatGPT(GPT-4)

Claude2(7月末版本)

ChatGLM2(官网版本,非开源6b)

LLaMA2 (7月末版本)

由于LLaMA2缺少中文语料训练,此处只是加入参考作为基准。


#4. 总分榜单

#5. 成绩解析

1)作为最高水准的GPT-4的地位依然无法被撼动。但可以看到已经有不少模型接近ChatGPT了。成绩表里文心2.3在总成绩上依然落后ChatGPT,字节豆包异军突起,各方面表现更好,但此处要说明,所有测试都是连续回答3次取最好,ChatGPT几乎都在第一次回答即给出正确答案,但豆包表现不稳定,有少数题目重试到第三次才正确。因此在实际使用中,用户体感上应该认为豆包能力在ChatGPT之下。

2)字节豆包在指令遵循,中文(尤其古文),机器幻觉方面有较明显优势。但科学计算题全错,常规数学计算也错一半多。这方面显得尤其劣势,甚至不如7月以前阿里通义水平。此外豆包的多轮对话记忆能力比较堪忧。

3)文心2.3作为面向全体用户公开的第一个版本,在中文理解,翻译方面有进步,但在机器幻觉方面反而退化,7月能果断否定题目的虚假部分,到2.3反而回答模棱两可。在逻辑能力上比7月毫无变化。而逻辑能力是大语言模型最容易被用户感知的“灵魂”,可以预计普通用户对这个文心版本的评价不会太好,可能会觉得“很笨”。

4)商汤商量偏科也比较明显,阅读理解,文言文翻译几乎拿了满分,但数学和科学计算接近全军覆没,甚至连数字排序也做不对,不如4月的讯飞。简单逻辑能力尚可,在国产模型里属于第一梯队,但多步推理能力不行,因此代码也写的不好。

5)讯飞星火的升级还是稳扎稳打,在大部分问题上基本都有改善,只有极少量劣化。指令理解能力大幅提升,几乎没有误解,阅读能力大幅提升,机器幻觉问题显著改善。多步逻辑能力有少量提升,关联的代码能力也有小量提升。但在回答生成质量上比7月有退化,没有明显集中类型,应该是普遍问题。

6)阿里通义1.0.5相比1.0.3,大部分类目都没有改进,仅在翻译题上正确率更高,因此得分有进步。整体还处于“不可用”状态,阿里道阻且长。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1