在“C-Eval”最新公布的中文大模型能力排行榜上,360智脑大模型平均分超过GPT-4,尤其在社会科学及人文科学两项上表现优异。
C-Eval是由上海交通大学联合清华大学、爱丁堡大学构建的中文基础模型评估套件,覆盖人文、社科、理工、其他专业四个大方向,52个学科(含微积分、线代等),题目范畴涵盖中学到大学研究生以及职业考试,共计13948 道题目的中文知识和推理型测试集。
官方表示,C-Eval核心考量大模型的知识和推理能力。根据官方公布的结果显示,360智脑大模型“360GPT-S2”版本平均分得分为69分,不仅超过GPT-4的平均分,并在社会科学类题目中得分82分,超过GPT-4近5分,人文学科类题目中得分70.6分,比GPT-4该项得分高6分。
此前,360智脑大模型在工信部信通院、新华社研究院、SuperCLUE、JioNLP、PaperWeekly等一众测评也有亮眼表现,名列“大模型第一梯队”。
这些成绩背后离不开360长期以来的科研投入和人才储备。360大语言模型研究团队及成员拥有多年人工智能研发经验,多次荣获竞赛冠军和奖项提名,在多模态算法等方面处于行业领先地位。与此同时,360在数字安全、人工智能等领域始终保持高研发投入占比,仅2023年上半年,公司研发投入15.6亿元。
为招聘更多优秀人才加入360大语言模型的核心研发,目前大语言模型算法、数据加工与清洗、模型安全等岗位正在热招。正如360集团创始人周鸿祎所说,无论你是“领兵打仗的将军”,还是“想当元帅的士兵”,我们都欢迎你来。
https://mp.weixin.qq.com/s/q7RFGhQD58CGQ3dv4AyXqA