百度这波赢麻了！文心大模型3.5扒掉了所有国产AI大模型的“底裤”

作者：快科技发布时间：2023-07-21

百度文心大模型 AI大模型

最近，“百模大战”迎来了第一次专业会考，可以看作是各个大模型实力检验的“期中考试”。

权威IT市场研究和咨询公司IDC日前发布了首个大模型评估报告——《AI大模型技术能力评估报告，2023》，对国内主流AI大模型进行了一次专业且系统地评估。

虽然结果公布之前心里多少有个大概，但真正看到统一维度和评定标准下，各个大模型的差距直观展示到面前的时候，多多少少还是有些震撼。

IDC《AI大模型技术能力评估报告，2023》：百度7项满分、综合评分第一

这份报告显示，百度文心大模型3.5拿下12项指标的7个满分，综合评分第一，算法模型第一，行业覆盖第一！

这三个绝对第一，把百度文心大模型的基础技术深度和产业应用覆盖广度，展现的淋漓尽致。

要知道，在全球大厂当中，百度首个发布了对标ChatGPT的大模型产品文心一言。算是起步最早，也是第一个敢于对国外大模型发起挑战的国产大模型。

所以，那句话怎么说来着，你大爷终究还是你大爷。

“百模大战”第一次会考：文心大模型3.5拿下7个满分、3个绝对第一

IDC在业界的“江湖地位”相信不用跟大家过多介绍了，从1964年至今，IDC在全球110多个国家跟踪技术趋势，也是也是最早进入中国市场的科技市场研究机构之一。

过去10年，IDC的研究报告被超100个IPO申请引用。其研究服务覆盖三大领域四大类别，在金融、能源、医疗、制造、零售、政府和通信服务等行业的研究引领全球。

在此之前，尽管各种第三方测试报告众多，但市面上一直缺少统一的大模型评估标准。大多数企业依旧在拼参数量级，通过更大的参数量来提升模型的准确度。

但“无脑”堆参数量级，到了一定程度之后，就会出现数据多少和模型的性能收益出现边际效应递减的现象，投入和产出不成正比了。随着大模型的越来越多，业界迫切需要一套科学的大模型评估标准。

IDC选择在这个时候发布第一个大模型评估报告，自然意义重大，而且极具参考价值，给大模型发展指明了道路，也为用户选择厂商提供帮助和建议。

我们来看看IDC是怎么评估大模型的。

首先，IDC将大模型分为三层，即服务生态、产品技术以及行业应用。

同时，对每一层的能力进行测评，主要考察指标为：算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等10余个指标（具体包括36项细颗粒度的评估标准），每个指标有1分-5分五个层级，得分越高代表厂商大模型技术能力越强，最终评估结果通过雷达图展示。

其次，在大模型的选择上，IDC选取了中国市场9家大模型技术厂商进行重点研究，分别为阿里巴巴、百度、第四范式、科大讯飞、澜舟科技、云从科技、智谱AI、中国电信智科以及中科闻歌。

除此之外，IDC还观察到了360、MiniMax、华为、商汤科技、腾讯等大模型。IDC也表示，会持续更新测评，涵盖更多技术厂商。

IDC《AI大模型技术能力评估报告，2023》：百度获算法模型、行业覆盖唯一满分

根据评估报告，百度文心大模型获得了7项核心指标满分（5分）：算法模型、通用能力、创新能力、平台能力、生态合作、行业覆盖、能源行业；

3项国内唯一满分（5分）：算法模型、行业覆盖、能源行业；

5项指标4分：安全可解释、服务能力、金融行业、工业行业、医疗行业。

在大模型的评定标准中，“算法模型”和“行业覆盖”是衡量大模型能力极其重要的两个指标。其中，“算法模型”是大模型能力最为核心的要素，“行业覆盖”体现了大模型在产业落地上的实力。这两个指标，百度文心大模型在众多厂商中均获得唯一满分，核心技术上明显领先其它竞品。

文心大模型取得这一成绩，有惊喜，但也在预料之中。早在4年前，大模型还没被广泛关注的时候，百度就推出了文心大模型1.0。然后持续演进到2.0、3.0版本。如今，文心大模型已经迭代到3.5版本，实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，新版本在效果、功能、性能全面提升。与3月份的3.0版本相比，训练速度提升了2倍，推理速度提升了17倍，模型效果累计提升超过50%。

多个公开测评显示，文心大模型3.5版支持下的文心一言中文能力突出，甚至有超出GPT-4 的表现；综合能力在评测中超过ChatGPT，遥遥领先于其他大模型。

在评估报告中，IDC对百度文心大模型也不乏溢美之词。

IDC在报告中指出，百度AI大模型整体竞争力位于领先水平，在模型能力、工具平台、生态布局以及行业覆盖上优势明显，并已提前进入商业化落地探索阶段。

IDC认为，百度文心大模型源于产业实践，服务于产业实践。在近年的大模型技术探索与产业实践中，百度文心形成了支撑大模型产业落地的关键路径，构建文心大模型层、工具平台层，以及以基于文心大模型构建的系列产品与社区。

另外，IDC很看重百度的一点——百度文心大模型不只是一个模型或者一个产品。文心大模型包含数 30 多个大模型，涵盖基础大模型、任务大模型、行业大模型的三级体系，可以全面满足产业应用需求。

不仅如此，作为推进大模型在行业深度应用的关键举措，百度文心联合国网、浦发、泰康、吉利、哈尔滨市、深圳燃气、TCL、上海辞书出版社等企业单位，合作发布了涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等11个行业大模型，加速推动行业的智能化转型升级。

文心大模型为什么这么强？三大核心优势别人学不来

“当别人刚刚开始思考如何进行训练的时候，我们已经在推理上冲出了很远。”李彦宏曾经说过，算力可以买来，创新能力是买不来的。

在笔者看来，文心大模型今天“遥遥领先”的背后，除了长期技术积累、行业先发带来的领先之外，核心还在于百度“芯片-框架-模型-应用”四层技术栈优势、知识增强的核心特色以及繁荣的大模型生态三大优势。

大家都知道，过去，无论是PC还是移动时代， IT技术栈都是三层，芯片层、操作系统层、应用层。但到了人工智能时代，IT技术栈变成了四层，即：芯片层、框架层（深度学习框架）、模型层（比如文心大模型、信息分发大模型、交通大模型、能源大模型等）、应用层。

百度投入人工智能已经超过10年，在芯片、框架、模型、应用四层有全栈布局，在关键核心技术攻坚上，是全球为数不多的全栈布局的人工智能公司，在四层架构都有自主研发的领先产品和技术，因此可以进行端到端的优化，迅速提升大模型训练和推理的效率。同时，文心大模型是完全自主可控的，做到了数据可控、框架可控、模型可控。

比如，在框架层，百度拥有自研的深度学习平台飞桨，有力支撑了大模型的高效训练和推理。

飞桨与文心的协同优化，让文心大模型3.5最新版本的模型效果提升50%，训练速度提升2倍，推理速度提升30倍。

而在芯片层，百度自研的昆仑芯，已实现两代通用AI芯片产品的量产及落地应用。昆仑芯 1 代 AI 芯片于 2020 年量产，在百度搜索引擎、小度等业务中部署数万片，是国内唯一一款经历过互联网大规模核心算法考验的云端 AI 芯片，同时也被广泛部署在互联网、工业制造、智慧金融、智慧交通等领域。

搭载新一代架构 XPU-R 的昆仑芯 2 代 AI 芯片于 2021 年 6 月回片并当天点亮，8 月量产发布。昆仑芯 2 代 AI 芯片是国内首款采用 GDDR6 显存的通用 AI 芯片，相比昆仑芯 1 代 AI 芯片性能提升 2-3 倍，且在通用性、易用性方面也有显著增强。昆仑芯 2 代 AI 芯片已经开启互联网及各行业客户交付，当前商业化进展顺利。据悉，百度昆仑芯前两代的产品已有数万片的部署，第三代会在明年的年初上市。

百度文心大模型全景图

另外，知识增强作为文心大模型的核心特色之一，实现了更高的效率、更好的效果、更强的可解释性。在大模型生态方面，百度文心已形成企业、教育、社区三位一体的生态体系。最新数据显示，百度有超过750万开发者基础，20万企业生态基础，多层次开展大模型人才培训、企业赋能、开发者运营。百度还设立了10亿创投基金鼓励大模型创意、繁荣大模型生态。

“百模大战”终局提前预演：百度已提前胜出下一个是谁？

今年，AI大模型成为行业关键词。一波由ChatGPT带动的“百模大战”正愈演愈烈。如今出门开发布会不提AI大模型，都不好意思跟人打招呼。

据媒体不完全统计，在OpenAI发布ChatGPT后，全球已发布数百个大模型，仅今年上半年在中国就发布了80多个大模型产品。到今年下半年，预计国内市面上的大模型将超过百款。

与此同时，我们也能清晰的看到，有的大模型各项能力已经愈发成熟，提前进入商业化落地探索阶段。而绝大多数大模型，还在给观众看PPT。

激烈厮杀过后，当热情消退，“百模大战”的终局将如何发展？

百度集团副总裁吴甜判断，国内“百模大战”将会走向在少量大模型上衍生出广泛应用生态的终局。大模型产业生态可类比芯片代工厂，把大数据、大算力、大算法都封装，建设自动化、数字化、标准化的生产模式。未来依托几个少量大模型，将会衍生出非常广泛的应用生态。

“像文心一言这样的大模型并不是想要做就能做起来的，需要有多年的积累、综合的能力和坚定的信心，一直投入下去，才能够做好。从这一点上可以看到，将来只能有少数的大模型。”

当下AI大模型还在“野蛮生长”阶段，此次IDC的评估报告的发布，不仅是主流AI大模型的真实水平的一次集中检验，更是“百模大战”终局的一次提前预演。相信随着炒作大潮褪去，谁在“裸泳”，即将一目了然了。

国产AI大模型的上半场比拼，百度已经提前胜出，下半场会是谁？

百度这波赢麻了！文心大模型3.5扒掉了所有国产AI大模型的“底裤”

推荐体验

相关资讯

百度扒掉了所有国产AI大模型的“底裤”！

百度：文心大模型 3.5 能力已超 ChatGPT 3.5

荣耀官宣支持自研70亿端侧AI大模型这波实力赢麻了

ChatGPT大火的背后：英伟达这波赢麻了

百度抄了OpenAI后路！文心大模型3.5权威评测拿下7个满分

近期资讯

新茶饮11月开店1111家，寒风吹向酸奶、柠檬茶

“暗流涌动”，显示行业正在经历变局

SpaceX的商业版图和太空经济的崛起

女性向游戏过“男”关

普通人看见普通人：当探店博主走上台前

大动作，宁德时代深夜官宣

台湾年轻人，疯抢泡泡玛特

15大机构十年研究证明：无约束AI必然超越人类，创造能力也更强

餐饮难做，都怪社区小店太多？

不只是恋爱，女性向游戏开始洗牌

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响