国产AI大模型横评（9月末）

作者：伤心的流星发布时间：2023-09-28

#0. 前言

从去年底ChatGPT发布开始，国内的百度文心，阿里通义等依次登场。在这个AI大模型的大航海时代元年，搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。

8月的评测见：国产AI大模型横评（8月末）（含商汤，豆包，文心正式版） - 哔哩哔哩 (bilibili.com)

#1. 评测原则

本期原则和7月的相同，v2题库冻结没有变更，因此不再赘述规则。参考7月文档。

v2版题库所有问题全部重新设计，对问题分类进行抽象和并归，去掉无法准确量化打分的文本生成问题，增加完全无需任何背景知识的纯模型能力考察，新题库包含以下分类：指令理解，阅读理解，翻译（中英，文言文），数学计算（初中数学，物理，化学，天文），逻辑推理（多步推理，符号重定义），机器幻觉（文本挑错，误导问题）。

为了抹平模型对问题理解差异，每个问题都明确添加必要约束条件，如字数，格式，知识范围等。在不考察知识储备的问题，直接出给全部必要信息，如光年取值，重力加速度等。考察知识储备也仅限于互联网易得的知识，不涉及生僻问题。

#2. 打分规则

打分采用负向打分，即出现相应负向情况，扣1分。最后按扣分从少到多排序。扣分维度包括：

答案错误：计算类，知识类答案不正确，翻译类理解错误。
混乱输出：输出内容人类不可读，重复，错误解释，翻译用词不够准确等。
指令误解：不能完全按照指令输出回答。
拒答：因触发关键词或人类价值观对齐（基于错误理解）导致不回答。同时因为输出不符合预期，答案错误和指令误解也各记-1。

* 样例问题：输出5行文本，每行文本使用字符&填充，每行的字符个数的分别是5,6,7,8,5。不要输出&以外的内容

* 回答：对不起，我是一个语言模型AI，无法直接输出特殊符号。但是，您可以使用以下代码来实现您的需求： text = "Hello World!" for i in range(5): text = text.replace("&", str(i+1)) print(text) 输出结果为： Hello 1! Hello 2! Hello 3! Hello 4! Hello 5!

* 判分：未按指令，仅输出&，指令误解记-1；输出内容不正确，答案错误记-1

#3. 参赛选手

本月各大厂相对比较沉默，推出大更新的较少。腾讯混元虽然有内测，但我没拿到内测资格，所以最早加入到10月的评测里。手机厂商小艺，小爱也加入了战局，但测了一半样本发现成绩过低，考虑到对外宣称还是限号内测，所以暂时不放进来对比。本期更新的有：

阿里通义 1.0.8 版本（9月24日更新）

360智脑（9月末版本）

昆仑天工（v3.5.20230830.a）

其余模型由于没有更新，继续沿用7月的成绩，本次没有重测：

百度文心一言 2.3.0 版本（8月31日更新）

讯飞星火 1.5 (8月15日版本)

字节豆包（8月末版本）

商汤商量（8月末版本）

ChatGPT（Lagacy）

ChatGPT（GPT-4）

Claude2（7月末版本）

ChatGLM2（官网版本，非开源6b）

LLaMA2 （7月末版本）

由于LLaMA2缺少中文语料训练，此处只是加入参考作为基准。

#4. 总分榜单

*按答案错误数量正序

#5. 成绩解析

1）360的提升幅度巨大，由前次总52负分，到本次34负分。基本来到了及格的边缘。在拒答问题上改善明显，之前由于敏感词逻辑生硬，导致大量问题被粗暴的拒答，而本次360会尝试回答，然后禁止继续提问，算是一种“软拒答”。并且如果连续触发软拒答，也会被风控，360提示提问过于频繁。

此外，360在翻译，机器幻觉问题上有小幅改善。其他方面和前次区别不大，各有各的错法。

2）阿里比上次仅有微小改进，并且总负分没有变化。这已经是阿里连续3个月没有大提升了。本次甚至被360反超，再这样下去要输ChatGLM了，输完再输昆仑，接下来没得输了。

3）昆仑天工距离上次更新也是足足2个月，回答错误和指令误解有小幅下降，但逻辑混乱和语言组织问题大幅提升，所以总负分也没有变化。

#6. 10月看点预告

1）讯飞早就预告了10月24要升级2.0，整体超过chatgpt。讯飞一直稳扎稳打，有可能是第一个真的全面超越chatgpt的，之前豆包和文心都是局部超越。

2）v2题库由于打分困难，所以排除了文本生成类问题。但最近看一些文章，发现一个比较可靠的文本生成打分方法，预计10月会给题库增加5道文本生成问题，这5道题的打分会单列表格，不和基础问题混淆。

相关资讯

国产AI大模型横评（9月末）

#0. 前言

#1. 评测原则

#2. 打分规则

#3. 参赛选手

#4. 总分榜单

#5. 成绩解析

#6. 10月看点预告

推荐体验

相关资讯

国产AI大模型横评（6月末）（含GPT-4对比）

国产AI大模型横评（7月末）（含Claude2对比）

国产AI大模型横评（8月末）（含商汤，豆包，文心正式版）

国产AI大模型横评（6月）

10月国产AI大模型横评（新写作榜单，讯飞3.0，腾讯混元）

近期资讯

张家港市光学仪器取得镜片磨边用夹持装置专利，保证加工精度

南阳裕翔电子取得光学镜片自动上料装置专利，增大使用范围

如何选择适合自己的手机：需求、预算与性能的全面考虑指南

成都铭森取得塑料制品修边装置专利，提高了对塑料制品的修边效率

如何选择合适的音响设备提升你的音乐与电影体验

武汉亿海腾取得手机模型加工表面处理装置专利，起到调节处理装置高度的作用

如何通过缩小图标和整理文件提升电脑桌面整洁度

如何通过系统还原让电脑焕发新生，恢复流畅使用体验的步骤解析

宁国市朝阳耐磨材料有限公司取得耐磨球磨光装置专利，使球体表面均能受到打磨

如何选择与处理视频背景提升观赏体验与创意表达

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响