表现优于 GPT-4，ChemCrow 集成 13 种化学工具，增强大型语言模型的化学性能

作者：机器之心发布时间：2023-04-30

图 1：ChemCrow 的工具集。（来源：论文）

编辑 | 紫罗

最近，大型语言模型 (LLM) 在各种跨领域任务中表现出强大的性能，但在处理化学相关的问题上却举步维艰。此外，LLM 缺乏外部知识来源，限制了其在科学研究中的应用。

来自洛桑联邦理工学院（EPFL）和罗切斯特大学的研究人员开发了 ChemCrow，一种 LLM 化学智能体，旨在完成有机合成、药物发现和材料设计等各种任务。

通过集成 13 种专家设计的工具，ChemCrow 增强了 LLM 在化学方面的表现，并出现了新的功能。该研究通过 LLM 和专家人工评估，证明了 ChemCrow 在自动化各种化学任务方面的有效性。令人惊讶的是，作为评估器的 GPT-4 无法区分明显错误的 GPT-4 completions 和 GPT-4 + ChemCrow 性能。

该研究以「ChemCrow: Augmenting large-language models with chemistry tools」为题，于 2023 年 4 月 11 日发布在 arXiv 预印上。

在过去几年中，LLM 通过自动化自然语言任务改变了各个领域。然而，LLM 往往难以完成看似简单的任务，例如基础数学和化学操作。

AI 已用于化学研究，例如反应预测、逆合成规划、分子特性预测、从头分子生成、材料设计以及最近的贝叶斯优化等。然而，与其他领域相比，化学领域实现的自动化水平仍然相对较低，这主要是由于其高度实验性和偶尔的手工性质，以及计算工具的范围和适用性有限，即使在指定领域内也是如此。

受 LLM 在其他领域成功应用的启发，研究人员提出一个 LLM 驱动的化学引擎 ChemCrow，旨在简化药物、材料设计和合成等领域中各种常见化学任务的推理过程。

ChemCrow 整合 13 种专家设计的化学工具，并通过提示 LLM（GPT-4）提供有关任务和所需格式的具体说明来操作。

图 1：ChemCrow 的工具集。（来源：论文）

使用各种与化学相关的软件包和软件，创建了一套工具。然后将这些工具和用户提示提供给 LLM。LLM 然后通过一个自动的、迭代的思维链过程，在得出最终答案之前决定它的路径、工具的选择和输入。

图 2：ChemCrow 流程概述。（来源：论文）

ChemCrow 充当专家化学家的助手，同时通过提供一个简单的界面来获取准确的化学知识，从而降低非专家的进入门槛。研究人员分析了 ChemCrow 在 12 个用例上的功能，包括合成目标分子、安全控制以及搜索具有相似作用模式的分子。

结果表明，ChemCrow 大大优于普通的 LLM，尤其是在更复杂的任务上。GPT-4 未能系统地给出事实准确的信息（平均得分为 4.79，而 ChemCrow 为 9.25），示例中的大多数错误要么给出了错误的分子名称或 SMILES，要么预测了错误的反应。在完成分数上，GPT-4 的表现略好于 fact 分数 (6.87)，但仍远低于 ChemCrow 的水平 (9.62)，显示出 ChemCrow 在解决化学任务方面的有效性。

图 3：得分结果。（来源：论文）

下图给出了一个示例，模型的任务是提出药物阿托伐他汀（Atorvastatin）的合成计划，包括步骤、成分列表、成本和供应商。

图 4：阿托伐他汀的合成计划（Task 1）。（来源：论文）

GPT-4 对阿托伐他汀的合成过程总体上是错误的，因为它不会产生最终产品。从这个意义上说，ChemCrow 在人类评估中排名很高，而 GPT-4 得分较低。然而，值得注意的是，GPT-4 提出的总体计划似乎从早期阶段就解决了 β,δ-二羟基酸的合成问题。虽然 GPT-4 未能解释如何合成叔丁酯，但似乎表明这是羧酸的前体，它在合成的最后一步水解为羧酸，与 ChemCrow 的提议类似（IBM 的 RXN4Chemistry）。另一方面，ChemCrow 的结果受到所提供工具质量的限制。可以通过优化底层合成引擎来改进。

图 5：GPT-4 的人类分析（左）和 ChemCrow（右）对 Task 1 的回答。（来源：论文）

然而，要强调的是，对于缺乏评估结果的化学推理或适当的实验室培训的非专家来说，可能会出现潜在的风险，因为进行实验仍然需要全面的实验室经验。

研究人员指出，滥用 ChemCrow 等工具的风险很大。而正确使用 ChemCrow 工作，不仅有助于专业化学家，降低非专业人士的门槛，而且通过弥合实验化学和计算化学之间的差距来促进科学进步。

论文链接：https://doi.org/10.48550/arXiv.2304.05376

参考内容：https://twitter.com/andrewwhite01/status/1645945791540854785