机器之心报道
机器之心编辑部
以 ChatGPT 为代表的大模型产品引领了一场新的产业革命,激发了国内外各机构积极投入相关技术研究的热情。在过去几个月的技术竞争中,国产大模型在文本理解和知识理解任务方面表现出色,堪称一位优秀的 “文科生”。
然而,在复杂数学推理计算、物理建模、科学发现等 “理科” 领域,大模型的研究尚未达到令人满意的水平,与美国顶尖科技公司(OpenAI、Google、Anthropic)相比,仍存在很大差距。例如,在数学推理方面的权威评测集 GSM8K 和 MATH 上,美国 AI 公司一直占据前几名,突显了其领先地位。
在这样的背景下,上海交大生成式人工智能研究组 (GAIR) 积极攻克难关,研发并开源了数学计算大模型 “阿贝尔(Abel)”,在多个榜单上取得开源第一!是首个海内外高校团队推出的 SOTA 数学开源大模型。
“在还未回国前,我和 Meta 非常优秀的科学家合作了一篇叫做 LIMA 的工作,在那篇工作里我们仅使用 1000 个样本就可以训练模型使其在达到接近 GPT4 的水平。但是这种 “少即是多” 的思想并没有在所有的任务场景上都得到了验证,比如数学推理。这也成为当时的遗憾,使得我对如何让大模型学好数学充满了兴趣。”上海交大生成式人工智能研究组负责人同时也是阿贝尔项目的负责人刘鹏飞分享道。“Abel 是为了致敬挪威伟大数学家 尼尔斯・阿贝尔 (Niels Henrik Abel) 在代数和分析方面的开创性工作而创建的,代数也是现在模型相对擅长解决的,不过,我们还有很长的路要走。”
模型表现
表 1: 代表专有模型,而 表示开源模型, 表示模型开发由学术大学主导(而不是由公司主导);这里仅考虑不使用任何工具(例如 Python)的模型;GAIRMath-Abel 为该团队提出的模型
在阿贝尔(GAIRMath-Abel)这个项目里,作者展示了,尽管
阿贝尔在 GSM8k(83.62)和 MATH(28.26)权威评测集上实现了开源数学模型(不使用外部工具)的最好成绩,具体说来:
除了优秀的性能本身,该项目也揭示了:
训练方法
为了训练阿贝尔,该团队提出Parental Oversight (家长监督),一种监督微调的保姆策略(Babysitting Strategy)。
Parental Oversight 的核心理念在于,在对大模型进行微调的过程中应该怀着一种敬畏和谨慎的态度,就如同家长在对孩子进行教育时,必须要用最浅显易懂并谨慎的方式进行教导,在稳健成长的同时避免揠苗助长。各种不同的数据和数据的呈现方式 代表的是不同的教育方式,而研究者必须谨慎小心的选择最好的方式教导大模型。
事实上,在 GAI 的背景下,数据结构工程 (Data Structure Engineering) 已经成为一种新的范式。有效的处理数据的方向对大模型在不同下游任务上的成功与否有着极为关键性的影响。从 Parental Oversight 理念出发,在复杂推理任务上取得好的结果,最关键的是要精心策划训练数据,而不是不加选择地使用任何样本进行监督学习。
通过最精确谨慎的监督,协助大模型在复杂推理的下游任务上成长。在有监督精调的训练样本中,不仅应包含正确的答案,还应告诉模型如何从预训练模型的知识中获得正确答案。此外,如果语言模型的知识不足以获得真实答案,监护监督应该帮助模型迅速填补知识上的空白。
局限性 & 规划
尽管阿贝尔数学模型在评估的几个数据集上表现优异,但是开发者也总结了它的不足之处:
开发者表示已经列出了一系列问题,并用 Github 维护这些限制和潜在解决方案。欢迎大家提出建设性意见和见解。
下一步计划
最后,作者也简单用一张图透露了实验室的下一步计划:从 “阿贝尔” 到 “伯努利”。