ChatGPT编程准确率暴降13%！UIUC&南大新基准让AI代码现原形了

作者：量子位发布时间：2023-05-14

萧箫发自凹非寺

量子位 | 公众号 QbitAI

用ChatGPT写代码，已经是不少程序员的常规操作了。

△“至少提速3~5倍”

但你有没有想过，ChatGPT生成的代码，有不少只是“看起来准确”而已？

来自伊利诺伊大学香槟分校和南京大学的一项最新研究表明：

ChatGPT和GPT-4生成代码的准确率，比之前评估的至少要 降低13%！

有网友感叹，太多ML论文都在用一些有问题或有局限性的基准来评估模型，来短暂地达到“SOTA”，结果换个测评方法就现出原形了。

还有网友表示，这也说明大模型生成的代码仍然需要人工监督，“AI写代码的黄金时间还没到呢”。

所以，论文提出了一种怎样的新测评方法？

给AI代码考题加大难度

这个新方法名叫 EvalPlus，是一个自动化代码评估框架。

具体来说，它会通过改进现有评估数据集的 输入多样性和 问题描述准确性，来将这些评估基准变得 更严格。

一方面是 输入多样性。EvalPlus会先根据标准答案，用ChatGPT生成一些种子输入样例（虽然要测ChatGPT的编程能力，但用它生成种子输入似乎也不矛盾doge）

随后，用EvalPlus改进这些种子输入，将它们改得更难、更复杂、更刁钻。

另一方面是 问题描述准确性。EvalPlus会将代码需求描述改得更精确，在约束输入条件的同时，补充自然语言问题描述，以提高对模型输出的精确度要求。

这里，论文选择了HUMANEVAL数据集作为示范。

HUMANEVAL是OpenAI和Anthropic AI一起制作的代码数据集，包含164个原创编程题，涉及语言理解、算法、数学和软件面试几种类型的题目。

EvalPlus会通过改进这类数据集的输入类型和功能描述，让编程问题看起来更清晰，同时用于测试的输入更“刁钻”或是更困难。

以其中的一道求并集编程题为例，要求AI写一段代码，找出两个数据列表中的共同元素，并给这些元素排序。

EvalPlus用它来测测ChatGPT写的代码准确度。

首先用几个简单输入进行测试，发现ChatGPT能输出正确答案。但如果换个输入，就找出了ChatGPT版代码的bug：

属实是给AI们加大了考题难度。

基于这套方法，EvalPlus还做了一个改进版HUMANEVAL+数据集，增加输入的同时，修正了一些HUMANEVAL里面答案就有问题的编程题。

那么，在这套“新考题”下，大语言模型们的准确率实际上要打几折？

LLM代码准确率平均降低15%

作者们测试了当前比较受欢迎的10种代码生成AI。

GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α。

从表格中来看，经过严格测试后，这群AI的生成准确率都有所下降：

这里会通过一种名叫pass@k的方法评估准确率，其中k是允许大模型给问题生成的程序数量，n是用于测试的输入数量，c是正确的输入数量：

根据新的这套评估标准，大模型们的准确率 平均下降了15%，其中比较广泛研究的CODEGEN-16B更是下降了 超过18%。

至于ChatGPT和GPT-4生成代码的性能，也下降了至少13%。

不过，也有网友表示，大模型生成的代码效果没那么好，已经是“众所周知的事实”了，需要研究的是“为什么大模型写的代码不能用”。

作者介绍

共同一作Jiawei Liu，伊利诺伊大学香槟分校二年级博士生，研究兴趣是编程系统和深度学习。

共同一作Chunqiu Steven Xia，伊利诺伊大学香槟分校二年级博士生，本科毕业于多伦多大学，研究兴趣是机器学习和软件工程的交叉领域。

王宇峣（Yuyao Wang），南京大学计算机科学大三学生，研究兴趣是计算机系统的准确性、可编程性和性能。

Lingming Zhang，伊利诺伊大学香槟分校副教授，研究方向是软件工程及其与机器学习、编程语言和形式化方法（Formal Methods）的协同作用。

论文地址：

https://arxiv.org/abs/2305.01210

代码地址：

https://github.com/evalplus/evalplus

— 完—

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入交流群，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

点这里 👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

ChatGPT编程准确率暴降13%，UIUC&南大新基准让AI代码现原形了

大模型会生成“假装能跑”的代码

ChatGPT 编程

量子位 2023-05-15

ChatGPT编程准确率暴降13％！这个新基准让AI代码现原形了

萧箫发自凹非寺量子位公众号 QbitAI 用ChatGPT写代码，已经是不少程序员的常规操作了。 △“至少提速3~5倍” 但你有没有想过，ChatGPT生成的代码，有不少只是“看

ChatGPT 编程

量子位 2023-05-14

DwQCrI7475 2024-02-20

近期资讯

重磅！河南省首批4个工业大模型发布

12月24日，河南省首批工业大模型发布会在郑州举行。会上，中原智造——工业视觉大模型、豫鼎安澜——工业安全生产大模型、天信矿山大模型、华鼎雪豹大模型等4个工业领域大模型正式发布，标志着我省在推进数字化转型、加快建设制造强省上迈出重要一步。面对新一轮科技革命和产业变革浪潮，人工智能大模型发展如火如荼。

央广网 2024-12-27

年菜销售火热开启，普陀这个智慧菜场上了“高科技”

在普陀区桃浦镇真南市场里，用智慧菜场为小商贩经营赋能，为周边市民节日期间的一日三餐提供了舒心多元的消费体验。“每年冬至过了就要开始灌香肠了，市场里这项服务有十来年了，我们每年都要来这里灌香肠，生意好得不得了，大过年的就要红红火火。”

东方网 2024-12-27

第八届前沿科技大赛生物医药领域决出TOP10

12月25日，中关村论坛系列活动——第八届中关村国际前沿科技大赛生物医药领域赛举办，10家生物医药创新企业脱颖而出，成功入围生物医药领域TOP10榜单。决赛现场，兼具科技创新实力与创业热忱的参赛选手围绕技术产品、创始团队、商业模式等方面进行充分展示，以科技创新创业解密生命密码。

北青网 2024-12-27

科兴制药：终止人干扰素α2b喷雾剂临床试验

钛媒体App12月27日消息，科兴制药公告，公司研发的人干扰素α2b喷雾剂处于临床研究阶段。近日，经公司审慎考量该药物的后续开发风险，决定终止该项目的临床试验。截至2024年9月30日，公司人干扰素α2b喷雾剂项目研发投入累计1918.64万元，该项目的全部研发支出已计入相应会计期间损益。

钛媒体快报 2024-12-27

亮点多多！湖北政法智能化建设成果应用优秀案例和优秀能手展演举行

12月27日，湖北省政法智能化建设成果应用优秀案例和优秀能手展演暨第八期“湖北政法大讲堂”举行，全省十佳案例和十佳能手一一进行了展演。今年以来，全省政法系统深入开展政法智能化建设成果应用年活动，结合实战推进智能化平台应用。

极目新闻 2024-12-27

210组件年底累计出货近380GW 叠加先进电池技术有望引领800W+时代

“五年前，在行业各界领军企业的共同努力下，我们一道开启了210大尺寸高功率的时代，有效地助力了行业在光伏平价上网的关键时期顺利过渡，突破了光伏度电成本的关键瓶颈，促进了更多先进技术应用于光伏产业，也深刻地改变了产业的创新协作模式。”

证券时报 2024-12-27

【品牌】OPPO新机发布计划曝光不止FindX8mini/Ultra/N5大折叠

10月下旬OPPO发布了FindX8系列，带来了FindX8和FindX8Pro两款新旗舰，分别采用6.59英寸和6.78英寸显示屏，当时有传闻称FindX8后续或带来一款屏幕更小的mini版本，现在关于OPPO新机有更多消息。

小白测评 2024-12-27

机器人辅助施工，5G无人塔吊、空中造楼机....江苏智能建造正向“新”而行

江苏陆续发布了第一批省级28个智能建造试点项目、34家智能建造试点企业和17家智能建造技术服务试点单位；多项举措入选住建部发展智能建造可复制经验做法清单，多次承办全国性智能建造交流、观摩会；指导编制了全国首套高等职业教育智能建造类专业系列教材等。

扬子晚报 2024-12-27

熊伟：期望数据库90%的开发、运维和调优可以用自然语言实现

引擎，将性能波动控制在3%以内。2025年，openGauss将致力于把技术能力打牢，在此基础之上继续推动AI化和智能化建设。

新京报 2024-12-27

中关村丰台园打造“AI+制造”创新联合体

12月27日，北京丰台创新中心为中关村丰台园企业搭台，发布了智工·工业大模型4.0产品，为各种工业场景提供智能化解决方案。

北京日报 2024-12-27

ChatGPT编程准确率暴降13%！UIUC&南大新基准让AI代码现原形了

推荐体验

相关资讯

ChatGPT编程准确率暴降13%，UIUC&南大新基准让AI代码现原形了

ChatGPT编程准确率暴降13％！这个新基准让AI代码现原形了

用ChatGPT解释科学，准确率有多高

用ChatGPT进行创作，准确率有多高

准确率最高的计划软件

近期资讯

重磅！河南省首批4个工业大模型发布

年菜销售火热开启，普陀这个智慧菜场上了“高科技”

第八届前沿科技大赛生物医药领域决出TOP10

科兴制药：终止人干扰素α2b喷雾剂临床试验

亮点多多！湖北政法智能化建设成果应用优秀案例和优秀能手展演举行

210组件年底累计出货近380GW 叠加先进电池技术有望引领800W+时代

【品牌】OPPO新机发布计划曝光不止FindX8mini/Ultra/N5大折叠

机器人辅助施工，5G无人塔吊、空中造楼机....江苏智能建造正向“新”而行

熊伟：期望数据库90%的开发、运维和调优可以用自然语言实现

中关村丰台园打造“AI+制造”创新联合体

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响