国产AI大模型横评（6月末）（含GPT-4对比）

作者：伤心的流星发布时间：2023-06-30

#0. 前言

从去年底ChatGPT发布开始，国内的百度文心，阿里通义等依次登场。在这个AI大模型的大航海时代元年，搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。

5月的评测见：国产AI大模型横评（5月） - 哔哩哔哩 (bilibili.com)

#1. 评测原则

完整评测原则同样参见5月评测，这里再简单摘录：

目前一共10个分类，35个问题。涵盖常识，学科知识，文言文翻译，英文翻译，数学计算，文学创作，角色扮演，逻辑推理，归纳理解，情商和认知。每类问题数量不超过5个，避免模型偏科，单科分数过高。

每个问题重复3次取最好。打分分3个维度：

正确性：比如计算正确，推理正确，知识正确，识别到错误等
表达：比如解释详细，步骤清晰，没有废话
异常：比如违背一般人常识，不遵循指令，文不对题

6月评测依然不涉及编程和非中文问答，预计7月会加入编程考察。评测期间题目不公布，各家模型在回答后，不对回答进行反馈（赞和踩都不点），尽量避免问题被收集用于训练。

#2. 参赛选手

百度文心一言 2.1.0 版本（6月21日更新）

阿里通义 1.0.2 版本（6月10日更新）

讯飞星火 1.5.0 版本（6月9日更新）

360智脑（6月末版本）

昆仑天工（v3.5.20230626.a）

ChatGPT（Lagacy）

ChatGPT（GPT-4）

Claude+（6月末版本）

ChatGLM2（官网版本，非开源6b）

本次扩容到9个模型。其中360智脑在6月13有一场发布会正式官宣了360智脑，同一天把模型版本号从网站上隐藏了，导致我无法追踪模型更新，只能在6月末进行了一轮错题重测。下文还有点评。

#3. 总分榜单

#4. 成绩解析

GPT-4在表达方面一骑绝尘。实际现象大家都错的问题，他可以对，或者接近对。大家都答对的问题，GPT-4可以解释的更精确，能识别题目中的逻辑错误，指令匹配程度更高等等。例如要求遵守的创作要素都100%满足。同时GPT-4是目前唯一0异常的，意味着他虽然可能答不对，但不会乱答，不会拒绝指令。
百度在6月中迭代了2个版本，整体变化不大。2.1.0版本已经接入了百度搜索，理论上可以获取最新信息，但实测下来和之前差异不大，会错的常识题还是会错。也许之前已经具备了相关能力，只是最近才在UI上展示。另外2.1.0也支持了上传pdf文件，进行解析和归纳，实测下来，可能受限于token size太小，长pdf解析效果都不好。也不能在阅读pdf之后，根据内容进行创作。也可能还是token爆掉的原因。
ChatGLM2异军突起，直接跑到了国产第二梯队，表现很亮眼，尤其数学题正确率很高。诗词创作是目前唯一平仄正确，拿到了表达分（GPT-4没拿到）。但瓶颈也很明显，逻辑题全错，常识题全错。略偏科。这个模型-7的异常分其实是比较冤的，有2分是由于屏蔽词导致的拒绝回答扣掉的。
阿里通义6月有一次小优化，属于局部finetune，错题几乎无改进。这个表现只相当于4月的文心1.0.4。也许在憋大招，阿里不应该就这水平。
360在4月开的内测，当时叫beta2.0.0，我在5月已经完整测过一轮了，分数相当糟糕，异常率奇高。6月360召开发布会，对外宣传是正式版。但月末实测，几乎毫无改进，甚至个别回答还有小幅劣化。360主要拿分的题是多轮问答，记忆上下文和指令遵循尚可。但由于这2道题几乎所有模型都答对了，预计会在7月评测里剔除。如果到时360还没有更新模型，分数可能会更低。
昆仑天工是应网友要求加入评测的，内测资格很好拿。整体表现也同样糟糕，但和360的“风格”不一样，属于在梦游，不知道自己在说什么，表现的毫无常识，看不懂指令。月内有一次finetune升级，但区别不大。
最后，关于ChatGPT，在中文限定范围，ChatGPT目前是真的打不过国产第一梯队的，尝试，逻辑方面都不占优。但要注意即便是这样一个半年前的模型，他的指令遵循能力也比目前国产都要好，异常仅扣2分。