国产AI大模型横评（6月）

作者：伤心的流星发布时间：2023-06-09

AI大模型 ChatGPT 百度搜索引擎

#0. 前言

从去年底ChatGPT发布开始，国内的百度文心，阿里通义等依次登场。在这个AI大模型的大航海时代元年，搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。

但在B站看了很多评测视频，一方面觉得up主整活和看乐子的倾向很重，个人不太认同。一方面认为这种需要长期+定期更新的横评榜单还是以文字形式发布最好。

于是有了今天的第一篇。

#1. 评测原则

首先明确一点，我们希望AI大模型帮助我们更好的工作和生活，而不是为了看AI乐子。

其次，AI不等于搜索引擎，他并不是全知全能，我们也不应该把AI当百科全书来用，更应该看中AI的语言应用，逻辑分析，归纳，演绎能力。把AI当做一个具备基本生活常识+必要学科知识的“人”来提问。

在此基础上，我准备了9个分类共30个问题（数量持续添加），这些分类涵盖：常识，学科知识，文言文翻译，英文翻译，数学计算，文学创作，角色扮演，逻辑推理，归纳理解。每类问题数量不超过5个，避免有偏科的模型在一类问题上拿太多分。

这里出于照顾现阶段国产模型的目的，不考察代码和英文问答。等到各家都具备相关能力，也会加入相关问题。

为了防止目前还未公布的大模型（比如腾讯系，字节系）使用我的问题集做提前训练，相当于作弊，这些问题将不会公开。

每个问题重复3次取最好。打分分3个维度：

正确性：比如计算正确，推理正确，知识正确，识别到错误等
表达：比如解释详细，步骤清晰，没有废话
异常：比如违背一般人常识，不遵循指令，文不对题

#2. 参赛选手

百度文心一言 2.0.3 版本（6月7日更新）

阿里通义 1.0.1 版本（5月22更新）

讯飞星火 1.5.0 版本（6月9日更新）

360智脑 beta-2.0.0

本次评测暂不加入GPT-4和Claude+，因为截止到发文，我还没测完，预计在7月榜单里参战。

另外还别的大模型我都会在第一时间申请内测，然后第一时间更新评测数据。

#3. 6月榜单

文心一言：正确18，表达9，异常2
阿里通义：正确4，表达3，异常5
讯飞星火：正确12，表达5，异常2
360智脑：正确3，表达2，异常8

#4. 备注

文心在5月23发布2.0.1之后，正确的分数从5跳涨到14，直接晋升第一梯队。
讯飞在6月9发布1.5.0之后，相比1.0.0版本，正确也从4跳涨到12，单文学创作一项就从0分涨了3分，学科知识的表达分数也从0到3，基本和讯飞在发布会上宣称的能力项目对的上。

由于第一次写，还有很多细节可能没讲到，大家有质疑请提出。或者要求把某个模型加入横评也请提出。

相关资讯

近期资讯

苏州科瓴申请自移动设备的控制方法和自移动设备专利，有效防止漏割的草被识别为障碍物

金融界2024年12月26日消息，国家知识产权局信息显示，苏州科瓴精密机械科技有限公司申请一项名为“自移动设备的控制方法和自移动设备”的专利，公开号CN119179323A，申请日期为2023年6月。专利摘要显示，本发明公开了一种自移动设备的控制方法和自移动设备。

金融界 2024-12-26

深圳市多维精密机电有限公司取得具有温度检测功能的防水机器人关节控制连接装置专利，具备高温提示和快速散热处理能力

金融界2024年12月26日消息，国家知识产权局信息显示，深圳市多维精密机电有限公司取得一项名为“一种具有温度检测功能的防水机器人关节控制连接装置”的专利，授权公告号CN222200619U，申请日期为2024年5月。专利摘要显示，本实用新型涉及机器人连接技术领域，尤其涉及一种具有温度检测功能的防水机器人关节控制连接装置。

金融界 2024-12-26

苏州盖博特申请探索点生成方法等专利，提高探索点生成的有效性

金融界2024年12月26日消息，国家知识产权局信息显示，苏州盖博特科技有限公司申请一项名为“探索点生成方法、装置、机器人及存储介质”的专利，公开号CN119179326A，申请日期为2024年8月。

金融界 2024-12-26

国联智慧申请无人牵引车短倒运输专利，提高自动驾驶安全性

金融界2024年12月26日消息，国家知识产权局信息显示，国联智慧能源交通技术创新中心（苏州）有限公司申请一项名为“无人牵引车短倒运输的控制方法、装置和存储介质”的专利，公开号CN119179324A，申请日期为2023年6月。

金融界 2024-12-26

贵州新征程暖通工程有限公司取得一种便于快速更换电池的机器人电池仓结构专利，方便对电池本体进行更换

金融界2024年12月26日消息，国家知识产权局信息显示，贵州新征程暖通工程有限公司取得一项名为“一种便于快速更换电池的机器人电池仓结构”的专利，授权公告号CN222200616U，申请日期为2024年5月。

金融界 2024-12-26

睿魔创新取得重力补偿机构及具有该重力补偿机构的机械臂专利，实现机械臂重力补偿

金融界2024年12月26日消息，国家知识产权局信息显示，睿魔创新科技（成都）有限公司取得一项名为“重力补偿机构及具有该重力补偿机构的机械臂”的专利，授权公告号CN222200615U，申请日期为2024年4月。

金融界 2024-12-26

铭派科技申请海上无人艇实时智能感知与实时避障系统与操作方法专利，能在复杂海洋环境中实现实时避障

金融界2024年12月26日消息，国家知识产权局信息显示，铭派科技集团有限公司申请一项名为“海上无人艇实时智能感知与实时避障系统与操作方法”的专利，公开号CN119179328A，申请日期为2024年11月。

金融界 2024-12-26

智信能源和稀云申请分体式光伏板清扫机器人轨迹纠偏控制算法专利，使挂车和主体车保持同步

金融界2024年12月26日消息，国家知识产权局信息显示，智信能源科技有限公司和武汉稀云科技有限公司申请一项名为“一种分体式光伏板清扫机器人的轨迹纠偏控制算法”的专利，公开号CN119179325A，申请日期为2024年6月。

金融界 2024-12-26

安徽万嘉智能取得立柱式旋转机械手升降结构专利，实现机械手转向功能

金融界2024年12月26日消息，国家知识产权局信息显示，安徽万嘉智能设备制造有限公司取得一项名为“一种立柱式旋转机械手升降结构”的专利，授权公告号CN222200617U，申请日期为2024年5月。专利摘要显示，本实用新型提供了一种立柱式旋转机械手升降结构，属于旋转机械手技术领域。

金融界 2024-12-26

无锡法思特取得工业机器人用输送碰撞防护装置专利，可减少产品落地时的冲击力

金融界2024年12月26日消息，国家知识产权局信息显示，无锡法思特机器人自动化有限公司取得一项名为“一种工业机器人用输送碰撞防护装置”的专利，授权公告号CN222200620U，申请日期为2024年5月。

金融界 2024-12-26

国产AI大模型横评（6月）

#0. 前言

#1. 评测原则

#2. 参赛选手

#3. 6月榜单

#4. 备注

推荐体验

相关资讯

国产AI大模型横评（9月末）