智东西
编译 | Glu
编辑 | 李水青
智东西6月5日消息,来自谷歌DeepMind、普林斯顿大学、斯坦福大学的研究团队提出了一个名为LATM( LLMs As Tool Makers )的框架,这个框架涵盖两个LLM(大语言模型),其中像GPT-4这样的高性能LLM能够成为独立的工具制造者。
人类是从制造工具以应对新的挑战而获得进化的,人们现在让LLM通过制造工具来变得更强大,不仅提高了LLM灵活解决问题的能力,还能为用户提供最高效、实惠的解决方案。
一、让强大模型自制工具,让轻量级模型使用工具解决问题
LATM能够根据具体使用场景来分配LLM的使用,包括工具制造、工具使用两个环节:
1、使用性能强大、价格昂贵的模型作为工具制造者,如GPT-4,从任务实例中创建一个可复用的工具(以Python函数形式呈现);
2、使用轻量级、较为便宜的模型充当工具使用者,如GPT-3.5 Turbo,执行相对简单的使用任务,即用已验证的工具来解决请求中的相似实例。
这种模式让轻量级模型拥有与强大模型相当的性能,同时保持更高的成本效率。可用于各类重复性任务,如对Web文档的解析与分析、寻找游戏攻略。
▲工具制造与使用环节示意图
工具制作分为以下几个步骤:工具提出、验证和封装。由于每类任务只需执行一次,所生成的工具可重复用于该任务的所有实例。因此与单独使用强大的模型相比,LATM的效率和成本效益显著增加。
此外,Python函数工具是一种更通用的思维链形式,能够增强LLM的整体实用性和灵活性。
他们还引入了第三个模块,一个轻量级的LLM以充当调度程序(the dispatcher),它可以决定是否可以使用现有工具解决传入的问题,或者是否需要创建新工具。
▲工具调度、制造、使用环节示意图
二、LATM能够解决复杂问题,最终效果堪比强大模型
该团队使用GPT-4 作为代表性的工具制造者、GPT-3.5 Turbo作为代表性的工具使用者,在六个不同领域的数据集上评估了LATM的可行性,包括逻辑演绎、跟踪洗牌对象、Dyck语言、词排序、中文剩余定理和会议调度,最终证实了:
1、GPT-4作为工具制造者时,该模型经常设计出合适的问题解决工具;
2、像GPT-3.5 Turbo这样的轻量级模型可以实现与GPT-4相同的性能且平均成本更低,显示了LATM在提高轻量级模型的性能方面的有效性;
3、调度程序可以有效识别现有工具,并根据需要请求新工具的创建。
但在该团队的评估过程中,他们还发现:
1、对于十分困难的任务,制作解决工具不仅需要高性能的强大模型,还需要高精度的数据集;
2、对于较为简单的任务,工具制造者可以是一个轻量级的LLM。
结语:整合LLM能力,推动AI系统进化
LATM创新性地整合两类LLM,并分配到两个关键阶段,使LLM能够创建和利用自己的工具来完成各种任务,既能利用先进LLM的能力,又能显著降低计算成本,推动了AI系统的进化,同时释放出大量机会。
而研究中对数据集缺乏的探究或将刺激研究界创建高精度的数据集,进而有助于培养下一代人工智能系统。
来源:美国康奈尔大学