当前位置:首页|资讯|AI大模型|ChatGPT|百度|搜索引擎

国产AI大模型横评(6月)

作者:伤心的流星发布时间:2023-06-09

#0. 前言

从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大航海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。

但在B站看了很多评测视频,一方面觉得up主整活和看乐子的倾向很重,个人不太认同。一方面认为这种需要长期+定期更新的横评榜单还是以文字形式发布最好。

于是有了今天的第一篇。


#1. 评测原则

首先明确一点,我们希望AI大模型帮助我们更好的工作和生活,而不是为了看AI乐子。

其次,AI不等于搜索引擎,他并不是全知全能,我们也不应该把AI当百科全书来用,更应该看中AI的语言应用,逻辑分析,归纳,演绎能力。把AI当做一个具备基本生活常识+必要学科知识的“人”来提问。


在此基础上,我准备了9个分类共30个问题(数量持续添加),这些分类涵盖:常识,学科知识,文言文翻译,英文翻译,数学计算,文学创作,角色扮演,逻辑推理,归纳理解。每类问题数量不超过5个,避免有偏科的模型在一类问题上拿太多分。

这里出于照顾现阶段国产模型的目的,不考察代码和英文问答。等到各家都具备相关能力,也会加入相关问题。

为了防止目前还未公布的大模型(比如腾讯系,字节系)使用我的问题集做提前训练,相当于作弊,这些问题将不会公开。


每个问题重复3次取最好。打分分3个维度:

  1. 正确性:比如计算正确,推理正确,知识正确,识别到错误等

  2. 表达:比如解释详细,步骤清晰,没有废话

  3. 异常:比如违背一般人常识,不遵循指令,文不对题

#2. 参赛选手

百度文心一言 2.0.3 版本(6月7日更新)

阿里通义 1.0.1 版本(5月22更新)

讯飞星火 1.5.0 版本(6月9日更新)

360智脑  beta-2.0.0

本次评测暂不加入GPT-4和Claude+,因为截止到发文,我还没测完,预计在7月榜单里参战。

另外还别的大模型我都会在第一时间申请内测,然后第一时间更新评测数据。


#3. 6月榜单

  • 文心一言:正确18,表达9,异常2

  • 阿里通义:正确4,表达3,异常5

  • 讯飞星火:正确12,表达5,异常2

  • 360智脑:正确3,表达2,异常8

#4. 备注

  1. 文心在5月23发布2.0.1之后,正确的分数从5跳涨到14,直接晋升第一梯队。

  2. 讯飞在6月9发布1.5.0之后,相比1.0.0版本,正确也从4跳涨到12,单文学创作一项就从0分涨了3分,学科知识的表达分数也从0到3,基本和讯飞在发布会上宣称的能力项目对的上。

由于第一次写,还有很多细节可能没讲到,大家有质疑请提出。或者要求把某个模型加入横评也请提出。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1