国产最强大模型易主！Baichuan 4霸榜SuperCLUE，击败GPT-4-Turbo，首款AI助手来了

作者：智东西发布时间：2024-05-30

智东西

作者 | 程茜

编辑 | 心缘

智东西5月22日报道，今天，百川智能发布新一代大模型Baichuan 4，以及首款AI助手“百小应”。Baichuan 4相较Baichuan 3，通用能力提升超过10%，数学和代码能力分别提升14%和9%。

同日，SuperCLUE发布的通用大模型综合性中文测评基准上，Baichuan 4得分80.64位列第一，在中文综合能力测试中超过GPT-4-Turbo-0125。戏剧性的是，昨日，商汤科技日日新SenseNova 5.0大模型刚以总分80.03分的优异成绩刷新国内最好成绩，在中文综合成绩上超过GPT-4-Turbo-0125，今日评测表现中位列第二。

除大模型升级外，百川发布了首款AI助手百小应，基于Baichuan 4的能力，该助手具有定向搜索、多轮搜索能力，可以通过嵌入搜索结果、表格可视化搜索结果等为用户提供更加针对性的答案。王小川将百小应的能力定义为懂搜索、会提问，懂搜索就是让模型掌握专业的搜索技能，会提问就是让模型引导用户清晰表达自身的需求。

百小应现在已经在Web端（ying.ai）及移动端各大应用商店同步上线。

同时，百川智能宣布开放Baichuan 4、aichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API四款API。

开发者体验中心：https://platform.baichuan-ai.com/playground

自去年4月成立以来，百川智能已经发布12款模型，王小川提到，百川智能之后会放慢模型的发布节奏，频率为按照季度发布，目前整体的思路为超级应用+超级模型双轮驱动，今年年内会有大的升级。

提及最近火爆的大模型价格战话题，王小川谈道，他现在抱着“吃瓜”心态，百川智能的思路就是超级应用+超级模型双轮驱动，因此他们认为百川智能的策略与面向B端的商业化价格降低问题无关，更多还是看模型够不够强、是否有超级应用产生。

他认为降价热潮可能是由于首先大家看好这个时代的发展前景，所以不惜免费也要入场；第二点为To B厂商最后卖的不是模型而是整套云服务，这类似于此前AI四小龙做To B的策略。百川智能不会将这样的（降价）商业模式当作重点。

针对超级应用，王小川认为，现在的应用基本都不是超级应用，超级应用主要体现在使用人数有数量级提升，同时能满足用户刚需，充分理解用户意图，具有更高的可靠性。对于使用人数的数量级提升，他提到，总体达到3000万-3亿用户量之间可以称作超级应用。

一、全方位领先国产大模型，多模态能力接近GPT-4V

在理科能力方面，Baichuan 4得分76.90分，国内模型中排名第一，略高于SenseChat V5，较GPT-4-Turbo-0125低4.23分。其中，逻辑推理（74.4）、工具使用（80.8）均刷新国内最好成绩；在代码能力上还有一定优化空间。

文科方面，Baichuan 4在文科任务上表现出色，取得83.12的高分，国内外模型中排名第一，较GPT-4-Turbo-0125高5.33分。其中，知识百科（89.8）、长文本（80.8）、生成创作（83.4）、传统安全（90.2）均刷新国内最好成绩；

与国内外主流模型相比，下图左侧图片中Baichuan 4是图中橙色线条，国内大模型的平均水平是蓝色线条，百川智能已经全方位处于领先。

与国外模型相比，Baichuan 4在知识百科、长文本、生成创作等文科类中文任务上优于国外大模型。

在多模态能力方面，Baichuan 4评测结果接近GPT-4V。在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等评测基准领先Gemini Pro、Claude3-Sonnet等多模态模型。

王小川介绍了Baichuan 4背后的技术创新点。

在数据方面，百川智能采用合成数据扩充训练的数据量与提升质量，模型方面，从经验科学走向数学化，他提到，此前与OpenAI技术人员交流时提到，GPT-4和GPT-3.5的主要区别在于，通过大量实验将玄学问题变为科学问题，通过实验找到背后的规律，使得其调参时随机性减少。因此在长窗口中，百川智能对各个尺寸进行尝试，从而找出更合适的参数设置。

在对齐方面，百川智能优化了推理、规划、多模态指令跟随（Instruct Following）能力，通过Loss驱动的数据选取与训练，多阶段爬坡、多模型参数融合等方式提升模型的关键指标和稳定性。这种方式与MoE模型相似，都是将一个模型分成多个模型进行训练再合成一个模型，使得整个模型能力稳定性得到提升。

强化学习使得机器在训练之外能够获得外部反馈实现内部改进。因此，在这一阶段，百川智能有两个阶段性目标。

第一个是针对于大模型安全的真实、无害、有用3H阶段，制定三阶段强化方法，使得三个目标分阶段强化训练。第二个是实现RLHF和RLAIF的融合，将人类反馈和机器反馈模型相结合，提升模型的指令遵循等能力。

在成本方面，Baichuan 4采用了新的投机采样方案Clover，通过将序列知识与并行解码结合，使得投机采样的命中率提升至60%，成本降低30%以上。

二、支持多轮、定向搜索，分析长篇论文、一分钟读完公司财报

王小川提到，不同于信息时代工具属性的产品，百川智能要让AI从工具变为伙伴，AI助手就是从工具到伙伴的过渡阶段。

百小应融合了Baichuan 4与百川智能的搜索技术，拥有多步搜索、智能定向搜索等能力，具备懂搜索、会提问两大独特优势。

演示案例中，在回答“引擎盖打不开怎么办”这一问题，国内主流模型会笼统回答一些可能的处理方法。

百小应会先询问车的型号，然后通过联网搜索给出基本的打开方案，如果没有解决会再次询问用户的所在地点推荐维修服务，并给出一些紧急情况的处理办法。

百小应通过多轮搜索，可以在复杂的问题场景下有效获取到更有价值的答案。其通过精准定位问题领域，然后访问权威站点进行补充搜索，呈现结果中也会附加相应的网页链接。

同时，其输出内容会进行结构化呈现，通过表格对信息进行梳理，便于用户在行业分析、调研时加快对数据的理解。为了确保输出信息的准确度，百小应的输出结果有来源参考，用户可以点击引用角标快速校验搜索结果。

会提问，就是引导用户明确表述自身的需求。如一些用户在提问时，问题过于笼统、抽象，百小应就会先与用户进行互动，一步步明确具体的需求。

如向其提问婚礼策划方案时，它不会直接给出答案，而是先询问宾客的数量以及用户的预算情况；在帮助用户撰写小红书种草文案时，百小应会给出不同场景、风格的文案参考选项，用户快速点选就能获得答案。

除此以外，百小应还支持上传PDF、word文档，或者直接输入网页链接（URL），阅读并分析书籍、报告、学术论文等长篇内容，仅用一分钟便能读完上市公司财报。

在Baichuan 4多模态能力的支持下，用户在提问的同时还可以同步上传图片，对图片内容进行解读，或者将图片作为补充材料，获取更精准的回答；并且支持语音交互。

三、MaaS新用户可获得1000万免费token，AaaS服务可免费试用

百川智能推出了全新的MaaS+AaaS服务，MaaS版块由基座模型组成，分为旗舰版和专业版。

旗舰版将全量开放Baichuan 4的各项能力；专业版包含Baichuan3-Turbo和Baichuan3-Turbo-128K两款模型，在价格方面相比旗舰版Baichuan 4更实惠，且均针对企业用的高频场景进行了针对性优化，综合测试相比GPT3.5整体效果提升8.9%。即日起，MaaS新用户可以获得1000万免费token。

Assitants API是百川智能在Baichuan 4基础上针对Agent构建推出的API接口，不仅支持Code interpreter、RAG内建工具，还支持自定义工具调用，方便企业接入各种丰富复杂的API。评测结果显示其工具调用能力接近Open AI Assistants API，本次发布的Assitants API现已开启公测。

未来，百川智能将推出零代码Agent创建平台产品，让业务人员通过自然语言的方式，也能创建Agent，更好地赋能企业智能化发展。

结语：“超级模型+超级应用”双轮驱动，百川智能走出一条大模型应用独特之路

作为国内大模型产业中备受关注的明星创企，百川智能自王小川搭建团队、筹备研发起，已经发布12个大模型并推出首款AI助手，可以看出不论在模型的发布速度、模型的能力表现以及AI应用的开发方面，百川智能已经走出了一条独属于自己的大模型产品落地、商业化应用之路。

目前来看，距离百川智能想要做“超级模型+超级应用”的愿景仍然有一定距离，但从其刚发布的模型与应用来看，百川智能的模型表现霸榜国产大模型，综合表现更强，在AI助手方面，百川智能没有遵循其他搜索应用的思路，而是通过多轮搜索等将大模型与搜索技术相结合，真正朝着满足用户刚需的方向演进。

在众多科技巨头和创企纷纷推出各种大型AI模型应用的今天，百川智能基于其在大模型以及搜索技术方面的完整技术栈，同时拥有原先的搜狗搜索技术团队做支撑，以AI搜索助手为切入口，朝着打造拥有数亿用户、能满足用户刚需的超级应用冲刺。

国产最强大模型易主！Baichuan 4霸榜SuperCLUE，击败GPT-4-Turbo，首款AI助手来了

推荐体验

相关资讯

国产最强大模型易主！Baichuan 4霸榜SuperCLUE，击败GPT-4-Turbo，首款AI助手来了

国产最强，拳打GPT-4 Turbo的大模型来了！

全球最强大模型易主GPT-4被超越

国产最强大模型来了，讯飞星火V4.0整体超越GPT-4 Turbo

GPT-4 时代结束！全球最强大模型一夜易主

近期资讯

浙江凯迪制冷取得一种热媒除霜型的空气冷却器专利，提高设备运行效率和性能

青岛海尔智能技术研发有限公司取得气液分离器及热泵系统专利，避免油流入排液管阻塞系统影响换热效率

广东智科取得基于比例混水阀的热泵系统专利，降低布线难度和布线成本以及提高温度调控精度

沈阳群贺新能源取得一种自复叠二氧化碳空气源热泵热水机的油气分离装置专利，及时排出分离气体避免再次进入油液

江苏同力空调设备取得空调储液器的滤网结构专利，可便捷拆装空调储液器滤网，提高工作效率

采能制冷取得冷凝机组散热器专利，可快速拆装进液管和出液管便于维护

盾安汽车热管理科技取得电子膨胀阀专利，延长第一密封件的使用寿命

卡宾滑雪取得造雪机用简易牵引装置专利，降低造雪机移动难度

浙江佳明取得双阀针电子膨胀阀专利，有效保证产品内漏问题

广东美的制冷设备有限公司取得制冷系统和空调器专利，能够实现对压缩机容积的变换，提升能力能效

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响