从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大航海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。
但在B站看了很多评测视频,一方面觉得up主整活和看乐子的倾向很重,个人不太认同。一方面认为这种需要长期+定期更新的横评榜单还是以文字形式发布最好。
于是有了今天的第一篇。
首先明确一点,我们希望AI大模型帮助我们更好的工作和生活,而不是为了看AI乐子。
其次,AI不等于搜索引擎,他并不是全知全能,我们也不应该把AI当百科全书来用,更应该看中AI的语言应用,逻辑分析,归纳,演绎能力。把AI当做一个具备基本生活常识+必要学科知识的“人”来提问。
在此基础上,我准备了9个分类共30个问题(数量持续添加),这些分类涵盖:常识,学科知识,文言文翻译,英文翻译,数学计算,文学创作,角色扮演,逻辑推理,归纳理解。每类问题数量不超过5个,避免有偏科的模型在一类问题上拿太多分。
这里出于照顾现阶段国产模型的目的,不考察代码和英文问答。等到各家都具备相关能力,也会加入相关问题。
为了防止目前还未公布的大模型(比如腾讯系,字节系)使用我的问题集做提前训练,相当于作弊,这些问题将不会公开。
每个问题重复3次取最好。打分分3个维度:
正确性:比如计算正确,推理正确,知识正确,识别到错误等
表达:比如解释详细,步骤清晰,没有废话
异常:比如违背一般人常识,不遵循指令,文不对题
百度文心一言 2.0.3 版本(6月7日更新)
阿里通义 1.0.1 版本(5月22更新)
讯飞星火 1.5.0 版本(6月9日更新)
360智脑 beta-2.0.0
本次评测暂不加入GPT-4和Claude+,因为截止到发文,我还没测完,预计在7月榜单里参战。
另外还别的大模型我都会在第一时间申请内测,然后第一时间更新评测数据。
文心一言:正确18,表达9,异常2
阿里通义:正确4,表达3,异常5
讯飞星火:正确12,表达5,异常2
360智脑:正确3,表达2,异常8
文心在5月23发布2.0.1之后,正确的分数从5跳涨到14,直接晋升第一梯队。
讯飞在6月9发布1.5.0之后,相比1.0.0版本,正确也从4跳涨到12,单文学创作一项就从0分涨了3分,学科知识的表达分数也从0到3,基本和讯飞在发布会上宣称的能力项目对的上。
由于第一次写,还有很多细节可能没讲到,大家有质疑请提出。或者要求把某个模型加入横评也请提出。