对标GPT-4代码解释器，港中大让模型写代码解决数学难题，得分超越GPT-4

作者：量子位发布时间：2023-10-08

GPT-4 编程

对标GPT-4代码解释器，港中大最新研究放了个“大招”：

他们开发了一个叫做MathCoder的大模型，数学能力直接在竞赛级“题库”Math上超过GPT-4。

△形象为羊驼是因为MathCoder底层模型来自羊驼家族

做到这一点靠的就是无缝集成代码的能力——

在遇到数学问题时，它不仅能用自然语言推理，还能自动编写和执行代码来建模、推导公式与方程。

这样的工作方式无疑和强大的GPT-4代码解释器一样。

在实际评测中，MathCoder除了超过GPT-4，还顺利在MATH和GSM8K两大数据集上取得了开源LLM中的SOTA（打败了8月份才诞生的WizardMath）

这个“新王”究竟是如何诞生的？

01 对标GPT-4代码解释器

总的来看，港大这项研究为了提高大模型的数学推理能力，学习了GPT-4代码解释器的优点和工作原理，提出了一种微调开源语言模型的方法。

该方法最终使大模型无缝集成代码，利用代码来解决数学问题。

具体而言，他们首先提出了一个可以生成高质量数学题的数据集：MathCodeInstruct。

该数据集由两部分组成：

种子数据（D0）：主要基于GSM8K和MATH，并利用GPT-4收集答案。

插值数据（D1）：让GPT-4基于他们提出的一种叫做“问题插值提示”的方法生成。

如下图所示：

示例1和2分别来自于GSM8K和MATH，1简单，2难一些，GPT-4要做的“插值”就是生成比1难但比2更简单的新问题。

基于以上两类问题，最终MathCodeInstruct数据集一共收集了8万道数学题。

如下表所示，这比业内其他数据集规模稍小一些：

而与其他数据集相比，它的特点之一是同时弥补了GSM8K和MATH这两大重要数据集中不足的部分，给出了一些难度范围更广的问题，增强了数据集的泛化能力。

特点之二是数据集中的每道题目同时包含基于自然语言推理的部分+基于代码解决的部分（包括执行代码和代码输出结果）。

如下图所示，这是对上面GPT-4生成的“插值”问题的解决思路：

在数据集准备好以后，团队便提出了一种定制的监督微调和推理方法，最终在Llama-2和Code Llama上微调出了MathCoder。

在推理期间，该方法还会将动态执行的结果附加到模型的先前预测中。

然后，继续基于这个新版本的输入自回归预测下一个token，以及最后的执行结果。

作者表示，通过这种方式，模型将能够“看到”执行结果，并不断地继续推理。

最终，该方法使微调模型MathCoder以类似GPT-4代码解释器的方式运行。

在评测中，MathCoder凭此直接在MATH和GSM8K这俩数据集上取得了45.2%和83.9%的好成绩。

该成绩证明：

其一，它超过了ChatGPT-3.5和PaLM-2等9个闭源模型，并在以数学竞赛题为主的MATH集上超过GPT-4。

其二，它打败了此前数学领域里最强的开源模型WizardMath，成为新的开源之最。

不过其三，模仿但还未超越，在这俩数据集上，MathCoder还是与GPT-4代码解释器（69.7%和97%高分）存在着一定的性能差距。

02 作者介绍

本研究一共10位作者，除了两位来自香港城市大学以外，其余均来自香港中文大学。

共同一作一共有6位，分别是：Ke Wang、Houxing Ren、Aojun Zhou、Zimu Lu、Sichun Luo和Weikang Shi。

通讯作者为李鸿升，为港中大电子工程系副教授，同时也就职于上海人工智能研究室。

论文地址：https://arxiv.org/abs/2310.03731

本文来自微信公众号“量子位”（ID:QbitAI），作者：关注前沿科技，36氪经授权发布。

近期资讯

知一数码 2024-12-25

中国一汽：持续向上树立民族汽车品牌

2024年，对于中国一汽而言，是充满挑战与机遇的一年。这一年，中国一汽深入学习贯彻党的二十届三中全会精神，紧跟行业智能化、电动化转型趋势，在变革中寻求突破，在创新中焕发新动能，红旗、解放、奔腾等自主品牌同步发力，市场占有率持续提升，为汽车产业高质量发展作出积极贡献。“红旗”驭变突破推动品牌持续向上2024年是红旗品牌成立66周年。这一年，“红旗”做强节能车优势，加快新能源转型，品牌形象全面焕新，品牌价值和品牌影响力稳步提升。这一年，“红旗”勇担科技创新引领者的责任，实现对关键核心技术的“高质量掌控”。发

21CN车言车话 2024-12-25

喜报 | 迈维代谢荣获首届“德勤光谷生命健康之星”！

12月10日下午，2024年度“光谷高科技高成长20强”榜单颁奖典礼隆重举行。在这场盛会中，首届“德勤光谷生命健康之星”评选项目榜单也荣耀揭晓，武汉迈维代谢生物科技股份有限公司凭借其卓越的技术实力和行业影响力，成功跻身榜单之列！此次评选由武汉东湖新技术开发区管理委员会指导，德勤中国主办，旨在挖掘并表彰光谷地区生命健康细分领域内那些以创新为引领、展现强劲成长潜力的杰出企业。德勤中国武汉办公室主管合伙人范宏彬表示：“德勤光谷生命健康之星’上榜企业以创新为引领，以高水平人才、高能级资本为驱动，大部分为科学家+

迈维医学 2024-12-25

一路辛苦过来都是值得的呜呜呜

分享25级学长学姐的好消息，咱准备明年考研的同学一直也注视着卫灿、、正好心里有个底~公卫考研认准咱们的课程辅导，不会错哒[爱心]#公卫考研##353卫生综合##公共卫生考研##25考研##医学考研##公共卫生##26考研##卫灿公卫研习社#

公卫考研题库 2024-12-25

苔米传媒：企业海外发稿至韩国综合媒体Korea Moyens提升影响力

企业如何有效地将自身信息传播至国际市场，已成为提升品牌影响力的核心要素。对于那些希望在韩国市场塑造品牌形象、传播企业理念的企业而言，苔米传媒作为全球媒体资源直供平台，与韩国知名在线期刊《Korea Moyens》携手合作，为企业提供了高效且精准的海外发布服务。自2020年创刊以来，《Korea Moyens》凭借其多元化的原创内容和独特的专业视角，迅速汇聚了一大批忠实读者。截至目前，该期刊的每月浏览量已攀升至420万次，并保持着持续增长的势头。其内容广泛涉猎日常计算机教程、科技新闻、软件评测以及

苔米传媒 2024-12-25

如何把GIF转换成视频？分享4种简单的转换方法

GIF格式因其适合创建简洁动画和表情符号而广受欢迎，但其固有的颜色深度和分辨率限制可能会牺牲图像质量。相比之下，将GIF转换成视频格式不仅能提升画质，还能优化文件大小。通常情况下，我们更多地见到将视频转换为GIF的操作，而对于如何将GIF转换为视频，许多朋友可能感到困惑。为此，我为大家整理了几种简便的转换方法，让我们一起来学习并掌握吧。 [图片] 方法一：迅捷图片转换器这是一款功能丰富、简单易用的图片处理工具，支持多种图片格式之间的快速转换，包括GIF转视频。同时，它还具备图片压缩、抠图、拼图、添加特效

技能分享君 2024-12-25

天津统威金属有限公司发货

北京、上海、广州、深圳。成都、重庆、杭州、西安、武汉、苏州、郑州、南京、天津、长沙、东莞、宁波、佛山、合肥、青岛。昆明、沈阳、济南、无锡、厦门、福州、温州、金华、哈尔滨、大连、

统威金属-厂家老统威 2024-12-25

对标GPT-4代码解释器，港中大让模型写代码解决数学难题，得分超越GPT-4

01 对标GPT-4代码解释器

02 作者介绍

推荐体验

相关资讯