当前位置：首页|资讯|ChatGPT|人工智能|商汤|复旦|大语言模型

上海AI实验室发布书生・浦语大模型：中文考试超ChatGPT

作者：DoNews发布时间：2023-06-07

ChatGPT 人工智能商汤复旦大语言模型

DoNews6月7日消息，7 日，上海人工智能实验室（上海 AI 实验室）、商汤科技联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生・浦语”（InternLM）。“书生・浦语”具有 1040 亿参数，是在包含 1.6 万亿 token 的多语种高质量数据集上训练而成。

全面评测结果显示，“书生・浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀，而且具备很强的综合能力，因而在综合性考试中表现突出，在多项中文考试中取得超越 ChatGPT 的成绩，其中就包括中国高考各科目的数据集（GaoKao）。

据介绍，“书生・浦语”联合团队选取了 20 余项评测对其进行检验，其中包含全球最具影响力的四个综合性考试评测集：由伯克利加州大学等高校构建的多任务考试评测集 MMLU；由微软研究院推出的学科考试评测集 AGIEval（含中国高考、司法考试及美国 SAT、LSAT、GRE 和 GMAT 等）；由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集 C-Eval；由复旦大学研究团队构建的高考题目评测集 Gaokao。

实验室联合团队对“书生・浦语”、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 进行了全面测试，针对上述四个评测集的成绩对比如下（满分 100 分）。

可以看到，“书生・浦语”不仅显著超越了 GLM-130B 和 LLaMA-65B 等学术开源模型，还在 AGIEval、C-Eval 以及 Gaokao 等多个综合性考试中领先于 ChatGPT；在以美国考试为主的 MMLU 上实现和 ChatGPT 持平。这些综合性考试的成绩反映出“书生・浦语”扎实的知识掌握程度和优秀的综合能力。

虽然 “书生・浦语”在考试评测上取得优秀成绩，但在测评中也可以看到，大语言模型仍然存在不少能力局限性。“书生・浦语” 受限于 2K 的语境窗口长度（GPT-4 的语境窗口长度为 32K），在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。

另外，在实际对话中，大语言模型还普遍存在幻觉、概念混淆等问题；这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

推荐体验

相关资讯

上海人工智能实验室“书生・浦语灵笔”大模型开源

同时上线 GitHub、Hugging Face 及魔搭社区。

人工智能 GitHub Hugging Face

杨亮 2023-10-10

上海人工智能实验室等联合发布“书生·浦语”大语言模型在多项中文考试中成绩超过ChatGPT

图说：实验室联合团队对多个模型开展全面测试采访对象供图（下同）随着AI大语言模型越来越多地表现出接近人类的智能，面向人类设计的高难度、综合性考试被越来越多地引入对语言模型的智能水平进行评测。202

人工智能大语言模型 ChatGPT

新民晚报 2023-06-07

AI考生今日抵达，商汤与上海AI实验室等发布“书生·浦语”大模型

随着AI大语言模型越来越多地表现出接近人类智能，面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。2023年高考今日开考，中文大语言模型是否能够在高考中赶超ChatGPT呢？近日，商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”（InternLM）。

商汤大语言模型 ChatGPT 复旦

经济观察报 2023-06-07

商汤科技发布“书生·浦语”大模型中文考试超越ChatGPT

【CNMO新闻】大模型的热潮正席卷各行各业，据CNMO了解，近日，行业领先的人工智能软件公司商汤科技与上海AI实验室等发布了“书生·浦语”大模型。据媒体报道，商汤科技、上海AI实验室联合香港中文大学、复旦大学…

商汤 ChatGPT 人工智能复旦

手机中国 2023-06-07

中文大语言模型赶考：商汤与上海AI Lab等新发布「书生·浦语」

全面评测结果显示，“书生・浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀，而且具备很强的综合能力，因而在综合性考试中表现突出，在多项中文考试中取得超越ChatGPT的成绩，其中就包…

大语言模型商汤 ChatGPT

机器之心Pro 2023-06-07

近期资讯

Win11 上 PC Game Pass 广告推送增多，微软回应称可关闭

IT之家注意到，此前Windows11曾推送过MicrosoftDefender应用（与Microsoft365捆绑）以及《使命召唤：黑色行动6》的广告。而近期，微软加大了针对PCGamePass（即XboxGamePassforPC）的推广力度，通过频繁的弹窗或通知来吸引用户订阅。

IT之家 2024-12-30

应增加新的算法规则补漏洞

《互联网信息服务算法推荐管理规定》中列举详细合规要求，指导、帮助平台企业做好算法合规工作。在清华大学人工智能国际治理研究院特任研究员、北京科技大学文法学院教师曾雄看来，算法治理已经不是政府部门单一的垂直监管，而是多元主体共同参与，需要更重视技术治理措施，并对传统的行业规范进行优化升级，增加新的算法规则，弥补治理漏洞。

南方都市报 2024-12-30

嫦娥五号月球样品展激发小学生太空梦

“我们社团有100多名同学，这次参加月球样品展开幕式有32个名额，一发通知立刻就抢没了。”

中国青年网 2024-12-30

小米汽车SU7评测成绩出炉雷军感慨每一项努力都意味着收获

雷军近日公布了一张小米SU7的评测成绩单，表明其在安全性、续航力以及智能驾驶等方面处于领先地位。他感慨地说：“每一项努力都意味着收获。”

中关村在线 2024-12-30

精益求精导航天下（2024年终系列报道·科技篇⑥）

在建的世界第一高桥贵州花江峡谷大桥是精准施工的典范。据了解，新入轨的两颗北斗卫星搭载了新型星间链路终端，可以更好地实现与其他卫星之间的组网及信息传输，不仅可以更好支撑北斗系统稳定运行和北斗规模应用，而且将为下一代北斗导航卫星技术升级进行相关试验。

金台资讯 2024-12-30

“探索三号”入列

我国首艘设计拥有完全自主知识产权的深远海多功能科学考察及文物考古船“探索三号”，昨日抵达三亚崖州湾科技城的南山港公共科考码头并正式入列。“探索三号”是一条可保障深远海科学考察、载人深潜、工程作业、水下考古、快速响应等多用途的新型破冰船。船长约104米，满载排水量约10000吨，最大航速16节，定员80人，续航力15000海里。

北青网 2024-12-30

AI，请回答2025

然而，随着大模型的出现，AI技术真正实现了“破圈”广泛落地，正以前所未有的速度改变着我们的生活。2025年，我们将见证AI技术如何进一步渗透到社会的每一个角落，从医疗健康到教育娱乐，从智慧城市到可持续能源，AI的身影无处不在。

羊城晚报 2024-12-30

在信息化时代，掌握有效搜人技巧的实用指南与注意事项

不过，别担心，今天我就来聊聊这个话题，教你一些实用的方法和技巧，让你在搜人这件事情上游刃有余。像微信、微博、QQ、Facebook等，这些平台上聚集了大量的人。

新报观察 2024-12-30

iQOOZ9，不仅是千元机卷王，还是千元续航机王！

vivoiQOOZ9内置6000mAh超大电池，在满电状态，待机时间长达30.17天，而对于日常使用来说，足以满足用户一整天的用机需求，无需频繁充电。

大话百科天地 2024-12-30

CR450动车组样车发布

央视网消息（新闻联播）：12月29日，CR450动车组样车在北京发布，这标志着“CR450科技创新工程”取得重大突破，将进一步巩固扩大我国高铁技术世界领跑优势。记者从国铁集团了解到，CR450动车组样车运营速度、运行能耗、车内噪声、制动距离等主要指标国际领先。

光明网 2024-12-30

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1