【花师小哲】当代炼金术（神经网络）前沿（37）——语言模型学会制作工具？

作者：花师小哲-中二发布时间：2023-05-30

其实语言模型使用工具已经不算是什么秘密了，从Toolformer开始，比较著名的还有使用Huugging Face的模型，GPT-4的技术报告甚至说明了强大的语言模型甚至不需要单独训练或上下文学习就可以直接使用常见的工具了。

当然了，这里说的工具主要是虚拟工具，或者所程序的接口API（例如计算器的接口API），虽然也有用实际工具的（微软用ChatGPT控制机器人等），但总归不多。见：

【花师小哲】当代炼金术（神经网络）前沿（13）——语言模型自学使用工具？

【花师小哲】当代炼金术（神经网络）前沿（17）——ChatGPT帮你控制机器人

然而，本篇论文是关于制作工具的：

1.制作工具与重用

制作工具其实某种程度上并不是特别困难的事情，并且对于本篇论文来讲，制作工具更像是一个噱头（但为了和之前的专栏题目对应，所以题目还是制作工具），醉翁之意不在酒。

我们平时测试各种大模型，例如ChatGPT、文心一言时就经常拿它们写写代码，某种程度上这就是制作工具了，只不过很多时候没有重用罢了。

没错，重用某种程度上才是本文的重点。

我们知道，很多问题的解法都是类似的，只不过输出换了一下而已。如果我们每个题都让GPT-4这样的强模型来做的话，很浪费钱（GPT-4根据输入和输出的token数收费），但用一些便宜但弱一些的模型来做又能力不足，怎么办呢？

这时候我们让强模型针对一类问题写一套解决方法（工具），然后弱模型来调用就可以重复使用工具（使用工具的能力不需要太强的模型）来解决类似的问题。

2.架构

基本架构如下：

很简单，就是一个语言模型（工具制造者）根据一些示例做一个工具，当然，做工具也是包括写、评估、包装等步骤。然后，另一个语言模型（工具用户）就可以调用这个工具了。

OK，然后我们把这个系统放到真实的环境中，即我们不知道哪些问题是需要制作个新工具还是只要现有工具就可以了，也很简单，再加一个语言模型：

这个模型负责审查就可以了。整体架构并不复杂。

3.总结

所以从上文分析大家也知道了，这个工作的主要目的就是为了省钱，让强且贵的模型制作一些通用的工具，然后大部分工作只需要用弱且便宜的模型用工具就可以了。

或者说，类似于一种变向的蒸馏，即从强模型中提取“通用知识”出来供弱模型使用。

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（37）——语言模型学会制作工具？

推荐体验

相关资讯

【花师小哲】当代炼金术（神经网络）前沿（13）——语言模型自学使用工具？

【花师小哲】当代炼金术（神经网络）前沿（16）——语言模型的其他出路

【花师小哲】当代炼金术（神经网络）前沿（44）——语言模型战胜了Diffusion？！

【花师小哲】当代炼金术（神经网络）前沿（14）——语言模型自发觉醒意识？

【花师小哲】当代炼金术（神经网络）前沿（59）语言模型可能根本没学会预测下个token

近期资讯

国家数据局：将建立数据企业培育库推动构建大中小企业融通发展

揭秘DeepSeek-V3“物美价廉”的背后：蒸馏技术存在天花板，依赖合成数据训练有风险

最强性能骁龙8至尊版！一加Ace 5 Pro首销：3399元起

5G基站数3年翻番，16城入选千兆城市，广东新基建再加速

铠侠EXCERIA PLUS G4评测：平衡性能与发热的PCIe 5.0 SSD

从极简到极致！看华为浏览器如何重新定义上网方式

桥田智能2024：目标全落地，任务已完成

新年寄语丨麒麟合盛APUS董事长兼CEO李涛：探索AI与医疗健康的无限可能

请查收！亚太区“35岁以下科技创新35人”报名指南

南通斯瀚取得绗缝机夹持架移动机构专利，提高保护效果

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响