数学能力超过ChatGPT！上海交大计算大模型登开源榜首

作者：量子位发布时间：2023-09-27

ChatGPT 谷歌

克雷西发自凹非寺

量子位 | 公众号 QbitAI

国产数学大模型，能力已经超过了ChatGPT！

最新榜单中，上海交大GAIR实验室出品的Abel专有大模型：

准确率高达83.6%，在开源模型中位列第一。

据团队介绍，该模型是用挪威数学家尼尔斯·阿贝尔（Niels Abel）的名字命名的，以此向阿贝尔在代数和分析方面的开创性工作致敬。

在GSM8k数据集上，70B参数量的Abel碾压所有开源模型，还超过了ChatGPT。

甚至在新数据集TALSCQ-EN上，Abel的表现比GPT-4还要强。

而实现这样效果的Abel，成分可以说是十分“单纯”：

没有使用工具
没有使用数学领域的大规模预训练数据
没有使用奖励模型
没有使用RLHF
仅使用有监督精调（Supervised Fine-tuning，SFT）

那么Abel的效果究竟怎么样呢？

成绩超越开源模型SOTA

这里我们选择同样是开源的Llama-2来和Abel对比。

首先来看下这个鸡兔同笼问题的变体：

Brown由牛和鸡一共60只，鸡的数量是牛的两倍，一共有多少条腿？

这道题Llama-2出师不利，而且不是计算错误，是逻辑上就有问题：

Abel则成功地解决了这个问题。

再来看下一个问题：

12，21，6，11和30的中位数与平均数的和是多少？

两个模型都正确理解了所涉及的概念，但Llama还是在计算和排序上出了错。

而Abel依旧是正确地做出了这道题：

再从测试数据上看看Abel的表现。

首先是OpenAI提出的GSM8k数据集（大概是美国高中难度），这份榜单的前十名，Abel占了三个（不同参数规模）。

开源模型当中，70B规模的Abel打败了曾经的SOTA——WizardMath。

如果把商业闭源模型算进来，Abel也仅次于GPT-4、Claude-2和PaLM-2-Flan这些最著名的模型。

甚至ChatGPT也不是Abel的对手。

△地球代表开源模型，锁代表闭源模型

在难度更高的MATH（竞赛题目）数据集中，开源模型的前三名被三个规模的Abel包揽，加上闭源也仅次于Google和OpenAI的产品。

研究团队还使用了新数据集TALSCQ-EN对Abel进行测试，结果超过了GPT-4。

那么，研究团队是怎么调教出这样一款高性能模型的呢？

“保姆级”微调训练策略

核心奥义就是高质量的训练数据。

Abel使用数据是经过精心策划的，不仅包含问题的答案，还要能告诉模型找到正确答案是的方法。

为此，研究团队提出了一种叫做家长监督（Parental Oversight）的“保姆级”微调训练策略。

在家长监督的原则之下，团队仅通过SFT方式就完成了Abel的训练。

为了评价Abel的鲁棒性，研究团队还用GPT4对GSM8k中的数字进行了修改，测试Abel是否依然能解出正确的答案。

结果显示，在调整版GSM8k数据集下，70B参数的Abel鲁棒性超过了同等规模的WizardMath。

在Abel的介绍的最后，研究团队还留下了一个彩蛋：

Abel的下一代，将进化成为Bernoulli（伯努利）

不过团队并没有对其中的含义进行说明，我们不妨期待一番。

团队简介

Abel由上海交通大学GAIR（生成式人工智能研究组）团队打造。

该团队还曾推出过大模型高考Benchmark、AIGC事实核查工具Factool等成果。

该小组负责人、清源研究院刘鹏飞副教授同时也是Abel项目的负责人。

对这个数学模型感兴趣的读者，可以到GitHub页面详细了解。

GitHub页面：

https://github.com/GAIR-NLP/abel

— 完—

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动！点此了解详情。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

重庆移动与上海交大签约联手打造高性能计算项目

近日，中国移动重庆公司与上海交通大学重庆人工智能研究院合作的高性能计算及服务项目正式签约，该项目用于科研攻关、AI大模型训练，打造高性能计算数字经济生态创新圈，满足人工智能研发对于算力的需求。

人工智能 AI大模型

金台资讯 2023-05-26

MetaPost 2023-03-06

近期资讯

自动装配原理详解：Spring Boot 是如何让开发更高效的？

Spring Boot 自动装配机制详解：从原理到实战 Spring Boot 被誉为开发者的“神兵利器”，其中最强大的特性之一便是其自动装配机制。自动装配不仅极大地简化了配置流程，还让开发者能够专注

齐朋 2024-12-25

从零开始开发全栈项目：一、基于 Koa 的全栈后端框架封装

基于 Koa 的服务端框架封装：打造可扩展的服务架构在构建服务端框架时，我们通常需要解决以下几个核心问题：路由的注册与管理：实现灵活的路由定义与加载。代码分层：支持清晰的 Controller

我什么也不知道 2024-12-25

JVM实战—1.Java代码的运行原理

1.Java代码到底是如何运行起来的 2.JVM类加载机制的一系列概念 3.JVM中有哪些内存区域及各自的作用 4.JVM的垃圾回收机制的作用 5.问题汇总

东阳马生架构 2024-12-25

MySQL 核心知识全面解析：从事务到索引的深度探索

在当今数字化时代，数据库作为数据管理与处理的核心，对于各类应用的高效运行起着举足轻重的作用。而 MySQL 作为一款广泛使用的开源数据库管理系统，以其高性能、可靠性和灵活性，深受开发者和企业的青睐。无

快起来别睡了 2024-12-25

深入理解 ThinkPHP：框架结构与核心概念详解

# 深入理解 ThinkPHP：框架结构与核心概念详解 ThinkPHP 是一款广泛使用的 PHP 开发框架，以其高效性和灵活性受到开发者的青睐。要充分利用这一框架，理解其结构和核心概念是至关重要

奥顺互联 2024-12-25

K8S学习之旅（2）容器

镜像容器镜像（Image）所承载的是封装了应用程序及其所有软件依赖的二进制数据。容器镜像是可执行的软件包，可以单独运行；该软件包对所处的运行时环境具有明确定义的运行时环境假定。镜像名称容器镜像

上将邢道荣 2024-12-25

中文拼写检测纠正 Read, Listen, and See Leveraging Multimodal Information 论文

# 拼写纠正系列 [NLP 中文拼写检测实现思路](https://houbb.github.io/2020/01/20/nlp-chinese-spelling-correct-01-intro

老马啸西风 2024-12-25

【深入浅出】基于Koa实现简易Egg.js

在设计企业级中后台框架时，约定优先于配置和模块化设计的理念至关重要。由于实际应用场景通常涉及多人协同开发，故良好的设计能够帮助开发人员最大限度地减少配置代码的重复劳动，从而提升开发效率

heyy 2024-12-25

Linux 比grep更快的ack命令详解

简介 ack 命令是一款专为开发人员设计的强大文本搜索工具。它比 grep 更快速、更高效地搜索源代码，并具有忽略不相关文件（例如二进制文件、版本控制文件、临时文件）等内置功能，ack 命令的目标是通

唐青枫 2024-12-25

Python 抽象基类 ABC ：从实践到优雅

今天我们来聊聊 Python 中的抽象基类（Abstract Base Class，简称 ABC）。

Piper蛋窝 2024-12-25

数学能力超过ChatGPT！上海交大计算大模型登开源榜首

推荐体验

相关资讯

重庆移动与上海交大签约联手打造高性能计算项目

线上直播 | 上海交大发布大模型Agent心理诊所，可初诊抑郁症

抢先体验上海交大最新大模型Agent心理诊所！深度解读角色扮演Agent前沿进展

活动回顾 | 西域支持上海交大安泰EMBA校友沙龙圆满举行

上海交大周武忠教授：AIGC抢不了设计师的饭碗

近期资讯

自动装配原理详解：Spring Boot 是如何让开发更高效的？

从零开始开发全栈项目：一、基于 Koa 的全栈后端框架封装

JVM实战—1.Java代码的运行原理

MySQL 核心知识全面解析：从事务到索引的深度探索

深入理解 ThinkPHP：框架结构与核心概念详解

K8S学习之旅（2）容器

中文拼写检测纠正 Read, Listen, and See Leveraging Multimodal Information 论文

【深入浅出】基于Koa实现简易Egg.js

Linux 比grep更快的ack命令详解

Python 抽象基类 ABC ：从实践到优雅

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响