三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

作者：量子位发布时间：2024-09-20

克雷西发自凹非寺

量子位 | 公众号 QbitAI

OpenAI o1的横空出世，开启了大模型演化的新范式——Inference law（推理定律）。

正如英伟达AI科学家Jim Fan所说，o1的出现标志着大模型研发者开始把集中在训练阶段的投入，开始转移到了推理过程。

Jim还引用了机器学习先驱Rich Sutton的经典文章《苦涩的教训》中的话说，只有两种技术可以让（AI）计算的潜能无限扩展——学习和搜索。

而现在，是时候把目光聚焦在后者了。

在推理侧投入更多资源，模型也就有了更完备的思考过程，投入的增加换来的是质的提升。

在国内，360创始人周鸿祎的理念与之不谋而合，而且360更早就提出了“慢思考”的理念，并在技术架构和产品中都付诸了应用。

同时，360还在其AI产品中强调多模合作，让来自不同厂商的大模型“抱团取暖”，为国内模型追赶OpenAI，找到了一条可行的道路。

从o1看大模型“慢思考”

虽然o1的具体思考过程始终是OpenAI的至高机密，但可以肯定的是，思维链（Chain of Thought, CoT）在其中扮演了重要角色。

OpenAI在关于o1的报告中表示，思维链能让模型学会认识并纠正错误，学会将棘手的步骤分解为更简单的步骤，甚至学会尝试不同方法，极大地提高了模型的推理能力。

今年的AI顶会ICLR上，谷歌大脑推理团队创建者Denny Zhou，清华姚班校友、斯坦福助理教授、斯隆奖得主马腾宇等人的一篇论文，更是揭开了思维链的无限潜能。

透过现象看本质，从某种程度上看，思维链的本质就是2002年诺贝尔经济学奖得主卡尼曼在《思考快与慢》中提出的“系统2”，也就是“慢思考”系统。

所谓“系统2”或“慢思考”，是指复杂、有意识的推理，与之相对的是“系统1”或“快思考”，即简单无意识的直觉。

而o1的表现证明，这种适用于人类的“慢思考”理念，对大模型来说同样适用。

但应当注意的是，这两种系统在人脑中是同时存在、相互配合的，在大模型当中也不应被割裂开来。

周鸿祎认为，o1遵循的可能就是“双系统理论（Dual Process Theory）”，其核心在于快慢两种系统的协同运作。

作为“百模大战”的选手，周鸿祎和360，也是“慢思考”以及“多系统协同”的思考者和先行者。

7月底的ISC.AI大会上，周鸿祎就宣布，要“打造慢思考系统，从而增强大模型的慢思考能力”。

基于“多系统协同”机制，360利用多个模型组成的智能体框架，实现了大模型从“快思考”到“慢思考”的转变，并打造出了两款明星AI产品——360AI搜索和360AI浏览器。

让不同大模型“抱团取暖”

360AI搜索一共有简洁回答、标准回答和深入回答三种模式，其中一次深入回答会可能就要涉及7-15次的大模型调用。

比如可能会涉及1次意图识别模型调用，1次搜索词改写模型调用，5次搜索调用，1次网页排序调用，1次生成主回答调用，1次生成追问调用……

在多个模型的协同配合下，360AI搜索形成了这样的工作链路：

首先利用意图分类模型，对用户的问题进行意图识别；
接着用任务路由模型对问题进行拆解，不同的问题可以划分成“简单任务”、“多步任务”和“复杂任务”，对多个模型进行调度；
最后构建AI工作流，使多个大模型协同运作。

比如面对一道古诗词中译英题目，路由模块就会调用起翻译、反思等多个模型，让这些模型分工配合、共同完成任务。

而且最新版本还在生成答案过程中进一步加强了多模型协作，将其作为了一种独立的回答模式。

三个不同模型分别扮演生成初步答案的专家、检查回答的反思者和最终给出答案的总结者。

例如在这个案例中，作为专家的Kimi提到了问题的关键，但表述不够鲜明，在反思模型360智脑的建议下，豆包进行了重新总结，形成了直击问题的解答。

这样的工作模式不仅将快慢思考协同和反思机制引入了AI应用，更通过不同模型的交叉验证，进一步提高了整体表现。

在另一款AI产品——360AI浏览器当中，16家厂商的54款大模型也已齐聚一堂，可以实现多种传统浏览器所不具备的能力。

AI浏览器可以10秒钟总结上万字英文学术论文，针对其中的细节也可以尽情发问。

可以沉浸式翻译pdf文档，原文和译文同步滚动、随时对照。

还能化身“AI省流侠”，分分钟帮忙总结在线视频内容并划出重点，还能根据视频架构绘制脑图，甚至分析创作风格……

不仅在线文档和视频可以解析，这一系列分析功能，对于本地文件也同样适用。

更为方便的是，360AI浏览器还有移动端版本，在手机上也能随时利用AI辅助上网冲浪。

已经入驻360AI浏览器、同样基于CoE架构的AI助手（bot.360.com），则可根据任务类型和模型特长自动调度最合适的大模型。

无需切换平台，就能直接对话54款大模型，或者对话更加强大混合大模型，想选哪个就选哪个。

AI助手同样支持「多模型协作」，用户可以从54款模型中任选3款，分别做专家、反思者和总结者。

未来，360还会推出由五个甚至更多模型协作完成任务的版本。

还是在360AI浏览器中，AI助手还上线了“模型竞技场”（bot.360.com），支持54款大模型产品的“同台竞技”，最新版本中还上线了“组队较量”、“匿名比拼”、“随机对战”等功能。

总的来说，360AI搜索还是360AI浏览器虽然侧重点有所不同，但背后体现的还是那个核心理念——

在进行“慢思考”的同时，不卷单一模型的能力，而是让模型“抱团取暖”，博采众长，形成“众人拾柴火焰高”的局面。

当然，这样做的意义，也不仅仅是为用户带来了更好的AI体验，对各大模型的开发者而言同样是一种激励。

我们知道，大模型研发投入巨大，唯有足够多的用户才能够收回成本。

而依托360AI搜索、浏览器、安全卫士等入口，360将能够触达10亿用户的入口开放给了大模型开发者。

这也是阿里、腾讯、百度等大厂，以及大模型六小虎纷纷加入360AI架构的重要原因。

所以，360与这十多家厂商双向奔赴，实现了模型与AI应用相互促进、彼此发展的良性循环。

模型竞技场更是给国产大模型提供了一个在竞争中学习的平台，以及获得用户评价的绝佳机会，塑造了更加积极进取的氛围。

“消灭”Prompt工程

从技术层面上看，在理念与产品之间架起桥梁的，是360独创的CoE（Collaboration-of-Experts，专家协同）架构。

CoE架构集合了数量更多的大模型和专家模型，通过思维链和“多系统协同”的方式实现了“快思考”和“慢思考”的有机结合。

在思路上，CoE与o1选择了相近的路线，但是在深度上走得更远——

o1无论再怎么融合，也无外乎是OpenAI的自家模型，CoE却是海纳百川，集合了数量更多的大模型和专家模型。

△CoE架构原理图

而且，CoE架构中还接入了很多十亿甚至更小参数的专家模型，使得整个系统更加智能，在获得高质量回答的同时，节约推理资源、提升响应速度。

早在CoE架构刚发布的时候，基于CoE集各家所长的混合大模型能力就超过了（当时最强的）GPT-4o。

该混合大模型在翻译、写作等12项指标的测试中取得了80.49分的综合成绩，超越了GPT-4o的69.22分；而且除了代码以外，其余11项指标均优于GPT-4o。

而且CoE架构对所有模型都敞开怀抱，比OpenAI在开放协作的道路上走的更远……

另外，无论是OpenAI的o1，还是360的CoE，都将让大模型的发展走向一个新的趋势——

复杂的人工环节将实现自动化，具体到大模型当中，就是“消灭”Prompt工程。

乍一看有些反直觉，因为在我们使用大模型时，提示词的好坏对生成内容有着决定性的影响，其重要性不言而喻。

但仔细想想又并不矛盾——大模型等AI应用，归根结底是要为了人类而服务；

而提示工程却是让人类去适应模型的工作方式，简直“倒反天罡”。

所以，提示工程固然重要，但不该成为普通用户使用大模型的“绊脚石”。

解决的思路就是将提示词的设计工作，像其他任务一样，作为思维链中的一环，交给大模型来做。

这样的模式下，提示工程的灵魂依然被保留，但在用户的视野当中逐渐淡化，形成一种“消亡”的感观。

这种模式背后所反映的，也是360对AI未来发展的一点期许——

实现AI向着更多人的普惠，让大模型不再“高居庙堂”，而是成为万家灯火。

—完—

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

托福备考指南：题型及考试时间如何科学分配？戳文了解详情！

前言：这是一篇来自公众号达恩留学的文章，能够有效帮助备考同学了解更多信息，不容错过！托福考试，作为评估非英语母语者英语能力的权威标准，成为了众多国际学生申请海外高等教育，尤其是美国顶尖大学的必经之路。那么，托福考试题型及考试时间究竟该如何分配？一起看看吧！一、托福题型概述托福考试的题型及考试时间分配自2023年7月26日起进行了调整，考试主要包括四个部分：阅读、听力、口语和写作。阅读：题型：包含学术文章，每篇文章后有若干问题。数量：改革后，阅读部分通常包含2篇文章及20道题。听力：题型：包括lecture

达恩留学 2024-09-18

达梦留学 2024-09-18

双层玻璃反应釜配套高低温一体机操作指导

一、操作前准备 1.将设备放置通风良好的环境中，并确保设备放置平稳，地脚轮在刹车状态。 1. 检查玻璃反应釜外观是否有损坏，与高低温一体机的连接部位是否紧固。 2. 确认设备的电源供应正常，双层玻璃反应釜夹层内介质和高低温一体机循环介质液位正常。 3. 熟悉设备的控制面板，了解各个按钮和显示屏的功能。二、操作步骤 1. 打开设备电源开关，设备进入自检状态。等待自检完成后，显示屏显示当前温度等参数。 2. 根据实验需求，设置所需的温度范围。通过控制面板上的温度调节按钮进行设置。 3. 启动循环泵，使导

郑州探索者实验室设备 2024-09-18

绥芬河口岸拍俄罗斯卡车番外篇，俄罗斯真是个全球卡车的博物馆

[图片] 欧卡领衔大方向，有概率遇到隐藏款车型： [图片] 在物流园闲逛的时候发现一辆非常非常干净的斯堪尼亚R系列，还是个560马力的V8发动机，驾驶室也是斯堪尼亚PGR系列当中最大号的TOPLINE驾驶室，车辆总高度超过4米，保险杠是低位低风阻杠，这套搭配下来就让车子显得很饱满。 [图片] 斯堪尼亚在俄罗斯的能见度不算太高，这个G系列就是和国内的配置基本上差不多，4X2底盘搭配HIGHLINE驾驶室，用的还是低配版的H4大灯。 [图片] 像这个5代前脸款式的斯堪尼亚在国内就很少能见得到了，第五代车型可

卡车生活家 2024-09-18

小动物呼吸机、大小鼠呼吸机

[图片] 大小鼠呼吸机是实验室中不可或缺的设备，它主要用于模拟和控制实验动物的呼吸环境。这种设备能够准确调节氧气和二氧化碳的比例，确保实验动物在稳定的环境中进行科学研究。大小鼠呼吸机的设计通常考虑到了操作的便捷性和实验的准确性。它具备多种功能，如可编程的呼吸频率、吸呼比、潮气量等参数设置，使得研究人员能够根据不同的实验需求来调整呼吸模式。此外，高端的呼吸机还可能配备有数据记录和分析系统，方便科研人员追踪和评估实验过程中动物的生理变化。使用大小鼠呼吸机时，研究人员需先根据实验目的设定好各项参数。例如，

耀耀坤坤 2024-09-18

实验室数据完整性与可追溯性的关键：LIMS系统

在高度专业化的科研与检测环境中，维护实验室数据的完整性和可追溯性是确保实验结果准确可靠、符合法规要求的核心要素。实验室信息管理系统（LIMS）作为现代实验室的基石，其设计需紧密围绕这两个核心目标。白码LIMS，作为行业内领先的解决方案，通过其六大关键功能，为实验室数据的安全与高效管理提供了坚实保障。LIMS功能1：详尽的数据变更历史记录白码LIMS内置强大的“数据审计追踪”功能，能够自动记录所有数据字段的变更详情，包括变更时间、执行者以及变更前后的值。这一功能确保了数据的每一次变动都有据可查，为数据完整性

白码科技 2024-09-18

发论文请注意！这些刊物已更名！

新闻总署近期又公布了一批国内学术期刊更名和创刊记录，大家应该庆幸现在新闻总署更名不再像过去一样，旧有刊名一变更就无法查询，而是会在你检索旧刊名时写清楚已在何时进行了更名。这就避免了一些作者由于发表的刊物后期进行了更名而面临旧刊名无法查询的局面。这次调整大家发普刊的话，就要重点关注这些刊物的变化，即《传奇故事》更名为《中原文化与旅游》，《东方药膳》更名为《药食同源杂志》。更名记录2024-04-29《潍坊医学院学报》更名为《山东第二医科大学学报》及变更主办单位和出版单位《合肥学院学报（综合版）》更名为《合肥

捷投科研教育咨询 2024-09-18

告别工程交付延期，打造高效装修“直通车”

• 客户满心期待入住新房，可装修现场因设计师交底不清、工人施工错误、工人少周转不灵等，导致工程进度停滞，交付延期。• 装修进行到一半，发现预定的特殊材料因厂家生产问题迟迟不能发货，工程交付被迫延期。• 小区临时停水停电，装修工程无法正常进行，交付时间不断后延。• 工程进行中，遭遇极端恶劣天气，施工无法开展，交付延期成为无奈之举。• 客户临时增加复杂的个性化装修需求，设计和施工都需重新调整，工程交付延期。• 家装公司与供应商发生纠纷，导致材料供应中断，工程交付不得不延期。• 施工过程中发现安全隐患，需要进行

陈义红家装管理培训 2024-09-18

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

推荐体验

相关资讯

轻松搭建AI应用的三个大模型技术路线

AI时代人人必修课-提示词工程+大语言模型多场景实战

003篇 - AIGC提示词工程 - 提示词在AI模型中的作用

人工智能 | 大模型之提示词工程：零样本提示

三个90后，估值360亿

近期资讯

托福备考指南：题型及考试时间如何科学分配？戳文了解详情！

苹果手机铃声怎么设置自己的歌？3个方法自定义手机铃声

上龙源的假刊能用来评职称吗？

GRE送分全指南：别被细节贻误了大事！

双层玻璃反应釜配套高低温一体机操作指导

绥芬河口岸拍俄罗斯卡车番外篇，俄罗斯真是个全球卡车的博物馆

小动物呼吸机、大小鼠呼吸机

实验室数据完整性与可追溯性的关键：LIMS系统

发论文请注意！这些刊物已更名！

告别工程交付延期，打造高效装修“直通车”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响