AI大模型新进化点：让GPT-4造工具给GPT-3.5用，谷歌DeepMind团队研究

作者：智东西发布时间：2023-06-05

智东西

编译 | Glu

编辑 | 李水青

智东西6月5日消息，来自谷歌DeepMind、普林斯顿大学、斯坦福大学的研究团队提出了一个名为LATM（ LLMs As Tool Makers ）的框架，这个框架涵盖两个LLM（大语言模型），其中像GPT-4这样的高性能LLM能够成为独立的工具制造者。

人类是从制造工具以应对新的挑战而获得进化的，人们现在让LLM通过制造工具来变得更强大，不仅提高了LLM灵活解决问题的能力，还能为用户提供最高效、实惠的解决方案。

一、让强大模型自制工具，让轻量级模型使用工具解决问题

LATM能够根据具体使用场景来分配LLM的使用，包括工具制造、工具使用两个环节：

1、使用性能强大、价格昂贵的模型作为工具制造者，如GPT-4，从任务实例中创建一个可复用的工具（以Python函数形式呈现）；

2、使用轻量级、较为便宜的模型充当工具使用者，如GPT-3.5 Turbo，执行相对简单的使用任务，即用已验证的工具来解决请求中的相似实例。

这种模式让轻量级模型拥有与强大模型相当的性能，同时保持更高的成本效率。可用于各类重复性任务，如对Web文档的解析与分析、寻找游戏攻略。

▲工具制造与使用环节示意图

工具制作分为以下几个步骤：工具提出、验证和封装。由于每类任务只需执行一次，所生成的工具可重复用于该任务的所有实例。因此与单独使用强大的模型相比，LATM的效率和成本效益显著增加。

此外，Python函数工具是一种更通用的思维链形式，能够增强LLM的整体实用性和灵活性。

他们还引入了第三个模块，一个轻量级的LLM以充当调度程序（the dispatcher），它可以决定是否可以使用现有工具解决传入的问题，或者是否需要创建新工具。

▲工具调度、制造、使用环节示意图

二、LATM能够解决复杂问题，最终效果堪比强大模型

该团队使用GPT-4 作为代表性的工具制造者、GPT-3.5 Turbo作为代表性的工具使用者，在六个不同领域的数据集上评估了LATM的可行性，包括逻辑演绎、跟踪洗牌对象、Dyck语言、词排序、中文剩余定理和会议调度，最终证实了:

1、GPT-4作为工具制造者时，该模型经常设计出合适的问题解决工具；

2、像GPT-3.5 Turbo这样的轻量级模型可以实现与GPT-4相同的性能且平均成本更低，显示了LATM在提高轻量级模型的性能方面的有效性；

3、调度程序可以有效识别现有工具，并根据需要请求新工具的创建。

但在该团队的评估过程中，他们还发现：

1、对于十分困难的任务，制作解决工具不仅需要高性能的强大模型，还需要高精度的数据集；

2、对于较为简单的任务，工具制造者可以是一个轻量级的LLM。

结语：整合LLM能力，推动AI系统进化

LATM创新性地整合两类LLM，并分配到两个关键阶段，使LLM能够创建和利用自己的工具来完成各种任务，既能利用先进LLM的能力，又能显著降低计算成本，推动了AI系统的进化，同时释放出大量机会。

而研究中对数据集缺乏的探究或将刺激研究界创建高精度的数据集，进而有助于培养下一代人工智能系统。

来源：美国康奈尔大学

AI大模型新进化点：让GPT-4造工具给GPT-3.5用，谷歌DeepMind团队研究

推荐体验

相关资讯

GPT-3.5逆袭GPT-4！谷歌DeepMind华人天团，让LLM像人类一样制作工具，完胜CoT

GPT-4当上“主编”，亲自下场给GPT-3.5改稿

阿里大模型敢对标GPT-3.5？我们让GPT-4给它上了点强度。

阿里大模型敢对标GPT-3.5？我们让GPT-4考考它们还有百度

GPT-4和GPT-3.5有什么区别？

近期资讯

七工匠 18mm F5.6 全画幅镜头新品 12 月 30 日发售

江西煜明智慧光电申请无荧光粉多基色LED自适应调节光源控制系统专利，实现高效自适应的LED控制

“马上消费”智慧农业项目“富慧养”荣获中国创新方法大赛银奖丨马上消费

一加Ace5系列发布 Pro版首发电竞Wi-Fi芯片G1

荣耀官宣成为《哪吒之魔童闹海》官方合作伙伴，2025魔法科技年货节开启

性价比优选，美的BC-93MF：93升单门一级能效小冰箱

珠海科创储能取得转移机构专利，解决现有技术的电芯模组在转移过程中安全性较低的问题

国网湖北电力充电桩年充电量首次突破5亿千瓦时

手机免打扰模式设置指南：助你专注与宁静生活

小米推出全新REDMI Book 16 2025笔记本电脑性能超强智能识别场景

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响