全面对标GPT-4，智谱AI距离中国Open AI越来越近了

作者：读懂财经研究所发布时间：2024-02-24

GPT-4 OpenAI

自ChatGPT发布以来，中国大模型产品距离ChatGPT有多远，始终是AI行业内最为关心的一个话题。如今，这个问题可能有了答案。

1月16日，在2024智谱AI技术开放日Zhipu DevDay上，CEO张鹏发布了新一代基座大模型GLM-4，性能接近GPT-4的90%。

过去一年里，智谱AI几乎每3-4个月就完成一次基座大模型的升级。GLM-4的发布，是智谱AI在去年10月发布ChatGLM3三个月后，又一次完成基座大模型的升级。

作为国内最早入局大模型技术的公司，也是大模型迭代最快的公司之一，智谱AI曾在2023年初设立了一个雄心勃勃的目标：用一年的时间追平OpenAI最先进的模型。

从目前看，智谱AI距离这个目标越来越近了。

/ 01 / GLM4等于90%的“GPT-4”

去年10月，智谱AI发布了ChatGLM3，并让人印象深刻。最直观的表现就是ChatGLM3 “疯狂屠榜”，所有50个大模型公开性能测评数据集中，拿下44个全国第一。

相比上一代ChatGLM3，GLM-4性能也有了明显提升。先说基础能力，在MMLU、GSM8K、BBH、MATH、HellaSwag、HumanEval数据集指标上都接近了GPT-4 90%以上。

那么，这些数据集分别代表什么能力呢？

MMLU全称是测量大模型多任务下的语言理解能力，里面包含了基础数学，历史，法律等共57个方面的题目，难度从高中到大学不等。目前，GLM4是81.5分，GPT4是86.4分，目前能达到GPT4的94%。

GSM8k 和 MATH 则是评估大型语言模型数学能力的标准基准，两者在难度上有所差异。前者GLM4能到GPT4的95%，后者GLM4只能达到GPT4的91%。

BBH是一个典型的推理型数据集，涵盖翻译、语言理解、逻辑推理等任务，这方面GLM4几乎能够与GPT4打平。

HellaSwag则是一个测试常识推理的测试，对人类来说很容易（~95%），但对最先进的模型来说却具有挑战性。在这点上，GLM4只能到GPT4的90%。

HumanEval 则是由 OpenAI 编写发布的代码生成评测数据集，主要是评测大模型在算法、代码、编程层面的效果。这是GLM4的强项，和GPT4在一个水平。可以说，以上的指标涵盖了大模型在语言理解、数学能力等多种能力。从基础能力角度上说，GLM4的能力差不多与90%的“GPT-4”相当。

第二项能力是指令跟随能力（中英），顾名思义这是考验模型对用户Prompt和Instruction的理解能力。在这一点上，GLM4的能力在GPT4的85%-90%之间。考虑到GPT4现有的语义理解和吃Prompt的能力，这样的表现也算不上差。

而在中文的能力上，GLM4的表现基本全面超过GPT4。当然，这背后很重要的一个原因是，GPT4训练的中文语料有限，而GLM4在这方面具备天然的优势。

第三个能力是LongBench，这是考验大模型的长文理解能力。此前，ChatGLM曾被人诟病处理长对话时上下文理解得不好、记忆力差。但后来，GLM 技术团队开发了专门针对模型长文本理解能力的评测数据集 LongBench。从目前看，GLM4在这个能力上已经超过了GPT4。

至于”大海捞针”测试，更像是对大模型在长文理解上的一次压力测试，128K相当于300页左右的PDF材料。

测试的目的是评估大模型从大量文本中检索信息的能力，特别是当信息被放置在文档的不同位置时的准确率。横轴表示上下文长度，纵轴表示文档深度的百分比，也就是要表达的信息（事实）被放置在整个文档中的位置，如果信息在文档的正中间，那么它的文档深度接近50%。

GLM4的”大海捞针”全绿，说明即使你扔给它一部300页的小说，它也能够精准找到想要信息。此前，有人给Claude2.1做过类似测试，在130K的文章长度上测试在35 个不同的文档深度，结果Claude2.1能取回结果的不到一半。这也一定程度上说明了GLM4在长文理解上的模型能力。

通过以上种种不难说明，GLM4在文本理解、指令跟随、长文理解等多项能力上都表现出了接近GPT4的能力。

/ 02 / 紧跟OpenAI脚步，ALL Tools和GLMs相继上线

除了基础能力的测评，智谱AI还上线了All Tools模式和GLMs。

什么是All Tools？这是OpenAI最早推出的模式，是在GPT4的基础上，把其他各种功能模块统一接入了，只需选择一个模型就能支持GPT4对话、高级数据分析（代码解释器）、多模态（图片分析）、DALLE3绘画、联网等功能，支持直接上传Excel、PDF、图片等文件来关联对话，会根据需要自动调用不同模式的功能。

在这个模式前，GPT4各个主要功能分散在不同的渠道、泾渭分明。比如，你想把一张照片，用 DALL-E 重新绘图，你需要首先把你的照片传给“多模态模式“，让它描述照片的内容，然后你到 DALL-E 输入提示词。

但随着All Tools的推出，整合工具后的 GPT-4 不再需要切换即可使用所有的功能。也就是说，GPT4 将根据你给的指令理解你的意图，自动选择并串联多个工具完成任务。

更重要的是，All Tools也被认为形成一个小型Agent的前提。而如今，智谱是国内第一个真正推出ALL Tools模式的公司。

不仅如此，智谱也正式上线了他们的GLMs。不久前，OpenAI上线了GPTs，用户甚至不需要会编程，仅通过对话聊天方式，就打造一个专属个性化的GPT，用户可以将它设计为私人使用，也可以专门给公司内部使用，或者通过「GPT商店」赚钱。

在很多人看来，GPTs可以理解为大模型领域的苹果“App Store”，其价值在于给了大家更多创造基于GPT技术应用和服务的机会，让其后续构建基于AI新的经济生态变成了可能，并有望打破AI商业化的难题。

这可能也是智谱上线了GLMs的考虑。与GPTs类似，用户同样可以在GPTs创建智能体，甚至分享给其他用户。智谱表示，公司即将公布GLMs创作者分成计划。

不过与GPTs不同，GLMs的页面上没有搜索，只有官方推荐。当然，这个可能功能与处于早期，智能体数量较少有很大关系。

从底层技术测评到ALL Tools和GLMs等功能的相继上线，种种迹象显示，智谱AI正在离中国Open AI越来越近了。

/ 03 / 摸着OpenAI过河

在中国AI产业里，智谱AI是一个不可不提的名字。因为这可能国内“百模大战”中估值最高的明星大模型公司，没有之一。

2023年10月，智谱AI宣布完成超25亿人民币融资，投资方汇聚了国内一线明星机构，包括社保基金中关村自主创新基金（君联资本为基金管理人）、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等。这样的股东阵容不可谓不豪华。

投资人纷纷押注智谱AI的逻辑很简单，智谱AI是最早研发大模型的企业之一。

智谱AI的前身，是在2006年诞生于清华大学计算机系知识工程实验室（KEG）的明星产品AMiner——学术搜索与情报挖掘平台。清华大学教授、KEG主任唐杰，是AMiner的核心创立者之一。

2019年，清华大学教授李涓子、唐杰等人依托AMine为基础，共同成立智谱AI，公司CEO由张鹏担任，他是国内首个中英文平衡的跨语言知识图谱系统XLORE的设计和研发者。2020年，OpenAI发布GPT-3，让张鹏认识到大模型将成为未来的方向。于是，刚成立一年的智谱AI开始全力投入大模型的研发。

回过头来看，提前3年的“抢跑”，让智谱AI有更多的技术底气。时至今日，智谱AI在Hugging Face上的下载量超过1100万次，位居全球最受欢迎开源机构第五名，也是国内唯一上榜的公司；其对话模型ChatGLM在GitHub上获得了5万+颗星，超过Llama。

正如很多投资人所说，历史上没有哪个赛道能够像这波 AI 一样，迅速建立极大的共识。相比于应用端的不确定性，投资人更愿意抱团底层大模型玩家。而拥有技术储备的智谱AI就成为所有人的最优选择。

从目前看，智谱AI的发展策略也很清晰——摸着OpenAI过河。在国内，智谱AI可以说是唯一一家全系对标OpenAI的公司。这也在此次发布会中体现得淋漓尽致。

对于智谱AI来说，这不失为一种好的策略。在大模型商业化前景尚不清晰的当下，坐拥着国内一线明星机构的资源和背书，在中国AI产业的追赶进程中，扮演好最接近OpenAI的角色，能够让智谱AI在相当长的时间里成为站在舞台中央的那个“明星”。

近期资讯

守护平安，降低矿车火灾风险—矿山车辆自动灭火系统

#矿山车辆自动灭火系统# 支架搬运车、单轨吊、凿岩台车、采煤机、无轨胶轮车、压裂车、液压挖掘机、空压机、框架运输车等矿山车辆及重型设备作为矿山的常用机械设备，普遍具有劳动强度大、载重量大、运行时间长等特点，加之矿山高温、极寒、高腐蚀、颠簸等复杂恶劣环境，使其内部电源及油路线路受损情况普遍，这些受损引起的故障也成为矿山车辆起火的主要原因。严重威胁矿山车辆以及矿山的安全运行，因此，能够高度适配矿山车辆与重型设备机体结构且可以有效防护矿山车辆与重型设备火灾的消防灭火装置/设备对稳定其安全运行以及保障矿山安全生产

普泰法尔车辆自动灭火 2024-12-25

比亚迪天神之眼开通全国！全国都能开，有路都好开！

在智能汽车领域，谁能真正做到“无处不行”？2024年12月24日，比亚迪用行动给出了答案。旗下高阶智能驾驶辅助系统“天神之眼”，正式在全国范围内开通无图城市领航（CNOA）功能。这一技术的核心是“有路就能开”，不论是繁忙的城区街道，还是安静的乡间小路，都能轻松应对。 [图片] 此次全国范围开通的无图城市领航功能，基于比亚迪先进的无图NOA技术，采用了端到端大模型架构，并结合多传感器融合感知技术。这意味着，比亚迪的智能驾驶系统能够实时捕捉和处理道路上的环境信息，轻松应对复杂的驾驶场景。不管是红绿灯通行、自

不凡说财 2024-12-25

科拓股份 2024-12-25

帮你选好了！年底买车回家过年一点也不难！

计划在年底买车回家过年的老板，帮你选好了！现在入手这3款高质价比豪车，体面又高性价比，买车前记得先来澳康达看看，买豪车一点也不难！2020款保时捷Panamera 2.9T男人无论多富有，车库里总会有一辆保时捷。帕纳美拉作为保时捷首款行政级的轿跑车型，就算放眼市场也是非常特别的款式，首先它主打百万级的行政商务形象，可以剑指宝马7系、奔驰S级，其次还有同级独一无二的驾驶乐趣，有四门911的美誉，既能豪华体面又能满足男人操控刚需。目前澳康达在售这台2020款保时捷Panamera，行驶了7.9万公里，内饰选

澳康达二手车 2024-12-25

国务院关注“罚没异常”！电动车执法走向规范，避免过度罚款扣车

阅读前请您先点击上面的“关注”二字，后续为您提供更多有价值的内容，感谢支持！ 2024年电动车夜查现象在全国多个地区实施，很多人感觉现在的电动车管控怎么越来越严了？同时多地也存在对电动车处罚过度行为。近期国务院关注罚没收入异常的现象，大量异地执行，要求审查核实，2025年的电动车执法将走向更加规范管理，避免出现过度罚款和扣车。 [图片] 这项规定实在是大快人心！作为普通打工人，骑个电动车上班，还面临着各种罚款和扣车行为，一不留神就被帽子叔叔逮住被罚了，感觉真的好冤，但这项小额处罚就算了，还有大额处罚，比如

全球电动车 2024-12-25

朗逸小扳手和档位闪烁还能开吗

朗逸小扳手和档位闪烁还能开吗？当你的朗逸1.4T7档干式双离合变速箱遇到仪表右上角档位和小扳手交替闪烁的时候，说明变速箱已经出问题了； [图片] 这个时候大部分都是机电单元引起的，如果接上电脑检测，有一个P17BF液压泵间隙保护相关的故障代码，说明这个机电单元已经严重泄压漏气了； [图片] [图片] 机电单元正常的工作压力是42-60公斤，出现泄压之后压力就比正常的低了，如果低于25公斤，这个车随时会抛锚； [图片] 还有一个更关键的原因，如果不及时维修，这个油泵会长转，一直驱动油压泵在工作， [图片]

郑州广发变速箱专修 2024-12-25

全面对标GPT-4，智谱AI距离中国Open AI越来越近了

推荐体验

相关资讯

AI大模型的风过去了？不，是离我们越来越近了

Chatgpt -AI离我们越来越近

宇宙人(1523期）月背“土特产”离家越来越近了；Astroscale实现空间目标伴飞监视；GPT-4通过图灵测试

AI发展越来越迅速，GPT-4 却变笨了？

越来越聪明，越来越年轻！AI大模型鸿蒙4正式发布

近期资讯

守护平安，降低矿车火灾风险—矿山车辆自动灭火系统

比亚迪天神之眼开通全国！全国都能开，有路都好开！

立体车库租赁市场深度解析子母立体停车设备行情与趋势

特斯拉上线“选购现车尾款立减”优惠，Model Y现车享历史最低价

立体车库租赁市场透析循环机械停车场价格全解析

都市潮流小钢炮领克Z20正式上市

河南济源车位引导解决方案、停车诱导系统、空闲泊位导航

帮你选好了！年底买车回家过年一点也不难！

国务院关注“罚没异常”！电动车执法走向规范，避免过度罚款扣车

朗逸小扳手和档位闪烁还能开吗

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响