来自微软亚洲研究院的研究人员开发了一种新技术,通过让大型语言模型(LLM)学习并纠正错误,从而改善它们解决数学问题的能力,类似于人类的学习方式。
研究人员提出了一项开创性的策略,名为“从错误中学习(LeMa)”,该策略训练AI来自行纠正错误,从而提高了推理能力。
研究人员从人类学习过程中汲取了灵感,即学生从错误中学习以改善未来的表现。
“考虑一个未能解决数学问题的人类学生,他会从自己的错误中遇到(学到)什么错误并如何纠正它,”。
然后,研究人员将这个概念应用到LLMs中,使用GPT-4生成的错误纠正数据对其进行微调。
LeMa如何增强数学推理
研究人员首先让类似LLaMA-2的模型生成有缺陷的数学题推理路径。然后,GPT-4识别推理中的错误,解释并提供纠正后的推理路径。研究人员使用这些纠正的数据来进一步训练原始模型。
研究人员解释,“在五种骨干LLMs和两个数学推理任务上,与仅在CoT数据上微调相比,LeMa始终保持性能的提高”,可见这种新方法的结果效果显著。
此外,WizardMath和MetaMath等专业法学硕士也受益于 LeMa,在 GSM8K 上实现了 85.4% 的 pass@1 准确率,在 MATH 上实现了 27.1% 的准确率。这些结果超越了非执行开源模型在这些具有挑战性的任务上所取得的最先进的性能。
这一突破不仅仅意味着人工智能模型推理能力的增强,也标志着人工智能系统向“可以像人类一样从错误中学习和改进”的方向迈出了重要一步。
深远的影响和未来发展方向
该团队的研究成果,包括代码、数据和模型,现已在 GitHub 上公开。这种开源方法鼓励更广泛的AI社区继续这一探索方向,推动机器学习的进一步发展。
LeMa的出现代表了AI领域的一个重要里程碑,表明机器的学习过程可以更加类似于人类的学习。
这一发展可能会彻底改变严重依赖AI的行业,如医疗保健、金融和自动驾驶汽车,在这些领域中,错误纠正和持续学习至关重要。
随着AI领域的快速发展,集成类似人类学习的过程,如从错误中学习,似乎是发展更高效和有效的AI系统的一个重要因素。