当前位置:首页|资讯|AI大模型|ChatGPT|百度|商汤

国产AI大模型横评(9月末)

作者:伤心的流星发布时间:2023-09-28

#0. 前言

从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大航海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。

8月的评测见:国产AI大模型横评(8月末)(含商汤,豆包,文心正式版) - 哔哩哔哩 (bilibili.com)

#1. 评测原则

本期原则和7月的相同,v2题库冻结没有变更,因此不再赘述规则。参考7月文档。

v2版题库所有问题全部重新设计,对问题分类进行抽象和并归,去掉无法准确量化打分的文本生成问题,增加完全无需任何背景知识的纯模型能力考察,新题库包含以下分类:指令理解,阅读理解,翻译(中英,文言文),数学计算(初中数学,物理,化学,天文),逻辑推理(多步推理,符号重定义),机器幻觉(文本挑错,误导问题)。

为了抹平模型对问题理解差异,每个问题都明确添加必要约束条件,如字数,格式,知识范围等。在不考察知识储备的问题,直接出给全部必要信息,如光年取值,重力加速度等。考察知识储备也仅限于互联网易得的知识,不涉及生僻问题。


#2. 打分规则

打分采用负向打分,即出现相应负向情况,扣1分。最后按扣分从少到多排序。扣分维度包括:

  • 答案错误:计算类,知识类答案不正确,翻译类理解错误。

  • 混乱输出:输出内容人类不可读,重复,错误解释,翻译用词不够准确等。

  • 指令误解:不能完全按照指令输出回答。

  • 拒答:因触发关键词或人类价值观对齐(基于错误理解)导致不回答。同时因为输出不符合预期,答案错误和指令误解也各记-1。

* 样例问题:输出5行文本,每行文本使用字符&填充,每行的字符个数的分别是5,6,7,8,5。不要输出&以外的内容 

* 回答: 对不起,我是一个语言模型AI,无法直接输出特殊符号。但是,您可以使用以下代码来实现您的需求: text = "Hello World!" for i in range(5):    text = text.replace("&", str(i+1)) print(text) 输出结果为: Hello 1! Hello 2! Hello 3! Hello 4! Hello 5! 

* 判分:未按指令,仅输出&,指令误解记-1;输出内容不正确,答案错误记-1

#3. 参赛选手

本月各大厂相对比较沉默,推出大更新的较少。腾讯混元虽然有内测,但我没拿到内测资格,所以最早加入到10月的评测里。手机厂商小艺,小爱也加入了战局,但测了一半样本发现成绩过低,考虑到对外宣称还是限号内测,所以暂时不放进来对比。本期更新的有:

阿里通义 1.0.8 版本(9月24日更新)

360智脑 (9月末版本)

昆仑天工(v3.5.20230830.a)

其余模型由于没有更新,继续沿用7月的成绩,本次没有重测:

百度文心一言 2.3.0 版本(8月31日更新)

讯飞星火 1.5 (8月15日版本)

字节豆包(8月末版本)

商汤商量(8月末版本)

ChatGPT(Lagacy)

ChatGPT(GPT-4)

Claude2(7月末版本)

ChatGLM2(官网版本,非开源6b)

LLaMA2 (7月末版本)

由于LLaMA2缺少中文语料训练,此处只是加入参考作为基准。

#4. 总分榜单

*按答案错误数量正序

#5. 成绩解析

1)360的提升幅度巨大, 由前次总52负分,到本次34负分。基本来到了及格的边缘。在拒答问题上改善明显,之前由于敏感词逻辑生硬,导致大量问题被粗暴的拒答,而本次360会尝试回答,然后禁止继续提问,算是一种“软拒答”。并且如果连续触发软拒答,也会被风控,360提示提问过于频繁。

此外,360在翻译,机器幻觉问题上有小幅改善。其他方面和前次区别不大,各有各的错法。

2)阿里比上次仅有微小改进,并且总负分没有变化。这已经是阿里连续3个月没有大提升了。本次甚至被360反超,再这样下去要输ChatGLM了,输完再输昆仑,接下来没得输了。

3)昆仑天工距离上次更新也是足足2个月,回答错误和指令误解有小幅下降,但逻辑混乱和语言组织问题大幅提升,所以总负分也没有变化。

#6. 10月看点预告

1)讯飞早就预告了10月24要升级2.0,整体超过chatgpt。讯飞一直稳扎稳打,有可能是第一个真的全面超越chatgpt的,之前豆包和文心都是局部超越。

2)v2题库由于打分困难,所以排除了文本生成类问题。但最近看一些文章,发现一个比较可靠的文本生成打分方法,预计10月会给题库增加5道文本生成问题,这5道题的打分会单列表格,不和基础问题混淆。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1