当前位置：首页|资讯|编程|GPT-4|大语言模型

NCB：代码新榜，GPT-4 通过率仅 53%

作者：ChatGLM发布时间：2024-06-26

编程 GPT-4 大语言模型

近年来，大型语言模型（LLMs）在代码生成领域取得了显著进展，甚至在一些编程比赛中达到了与人类平均水平相当的表现。

然而，当前的代码测试基准，如 HumanEval、MBPP 和 DS-1000，主要面向算法和数据科学的入门任务，不能充分满足现实世界中普遍存在的编码挑战要求。

为了填补这一空白，我们提出了NaturalCodeBench(NCB)，这是一个具有挑战性的代码基准评测集，旨在反映真实编程任务的复杂性和场景的多样性，即使表现最好的 GPT-4，在 NCB 上的通过率也只有 53%，说明 LLMs 的代码生成能力仍有很大的提升空间。

项目地址：https://github.com/THUDM/NaturalCodeBench

论文地址：https://arxiv.org/pdf/2405.04520

同时，我们在 39 个 LLM 上进行的系统性实验中发现，在HumanEval上分数接近的模型在 NCB 上的性能差距可能仍然很大，这表明我们缺乏对实际代码合成场景的关注，或者在 HumanEval 上进行了过度的优化。

HumanEval 与 NaturalCodeBench 的比较。(上图）测试的 LLM 在两个基准上的性能图。红圈中的 LLM 在两个基准上的表现相对不匹配。(下图）HumanEval 和 NCB 中编码任务的案例研究。NCB 基于真实世界用户的代码提问，并在可执行的 docker 环境中进行了评估。

我们将 NaturalCodeBench 在评测数据和评测方法上和其他基准的对比情况总结如下：

数据集

NCB 由 402 个 Python 和 Java 的高质量问题组成，这些问题都是从在线编码服务(CodeGeeX)的用户提问中精心挑选的，涵盖软件、前端、系统管理、人工智能等 6 个领域。

NCB构建流程

考虑到为真实代码问题创建测试用例异常困难，我们还引入了一个半自动化流程，以提高测试用例构建的效率。与人工解决方案相比，它的效率提高了 4 倍之多。

1) 数据收集：从在线代码服务中(CodeGeeX)收集真实世界的提问，并通过 GPT-3.5 和人工注释从提问中筛选出高质量的问题并分类。

2) 半自动化流程：通过 LLM 生成解决方案和测试用例，然后由人工标注者进行修正，从而提高构建评估框架的效率。

详细评测结果

测试集结果

与 HumanEval相比，一些 LLMs 的位次出现了明显的变化：

在NCB测试集上评估 LLM，greedy decoding的所有结果均为pass@1
由于我们从在线编程服务中收集到的大部分问题都是中文的，这对于基于英文的LLM模型来说并不公平。因此，我们对所有问题进行了翻译，形成了中英两个版本。

开发集结果

在NCB开发集上评估 LLM，greedy decoding的所有结果均为pass@1

结果

1、GPT-4系列模型在代码领域仍处于较强水平（3款模型均分均超过51%)，但最高分也仅达到52.8，还远不能令人满意。
2、即使 HumanEval 分数相近的模型，在 NCB 上的表现也可能存在显著差距，表明现有模型对代码真实应用场景的解决能力不足，LLMs 的代码生成能力仍有很大的提升空间（LLMs的代码能力还远没有HumanEval评测集中表现的那样乐观）。

NCB

NCB 的特点

真实应用场景： 从在线编程服务中收集自然用户查询，涵盖软件工程、前端开发、系统管理、人工智能等 6 个领域，更贴近真实应用场景。

复杂数据类型： 测试输入包括多种文件类型和其他复杂结构，如列表、数字、字符串、字典、张量、DataFrame、多格式文件，更具挑战性。

高效构建： 采用半自动化流程构建基准测试，包括 GPT-4 生成参考解决方案和测试用例，人工专家进行校验和修正，效率提升超过 4 倍。

中英双语： 包含中英文版本的问题和指令，更公平地评估 LLMs 的代码生成能力。

NCB 的意义

评估真实应用能力： 帮助评估 LLMs 在真实代码生成任务中的表现，促进模型在实用性方面的提升。

促进研究发展： 为研究人员提供公平的评估环境和高效构建工具，推动代码生成领域的进一步发展。

NCB 的结果

模型性能差异： 即使 HumanEval 分数相近的模型，在 NCB 上的表现也可能存在显著差距，表明现有模型对真实应用场景的优化不足。

GPT-4 仍有提升空间： 即使表现最好的 GPT-4，在 NCB 上的通过率也只有 53%，说明 LLMs 的代码生成能力仍有很大的提升空间。

推荐体验

相关资讯

GPT-4通过图灵测试，胜率高达54%，UCSD新作：人类无法认出GPT-4

GPT-4在UCSD的双人图灵测试中通过率54%。

新智元 2024-05-20

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33% 据站长之家 11 月 21 日报道，美国圣塔菲研究所的研究显示，GPT-4 在图形推理任务上的准确率仅为 33%，而多模态版本

AI新智界 2023-11-21

GPT-4远不如人类？正确率仅15％，Meta领衔发布通用AI助手基准

GPT-4远不如人类？正确率仅15％，Meta领衔发布通用AI助手基准当前，大型语言模型（LLMs）或许是通用人工智能（AGI）得以实现的“最优解”。然而，尽管大模型在流利性和知识广度方面

GPT-4 大语言模型人工智能 AGI

学术头条 2023-11-24

微软通过提示工程将GPT-4变成医学专家，首次准确率超90%

要点:微软通过「提示工程」将GPT-4成功转化为医学专家，使用最新提示策略Medprompt在医疗专业领域取得了超过90%的准确率，首次超越其他高度微调的模型。Medprompt是一个多种提示策略

微软提示工程 GPT-4 医疗

AI方立体 2023-12-05

【译】GPT-4能否“真正”编写代码？

自从ChatGPT问世以来，我看到很多人发布了关于它编写代码的能力的帖子。但是，所有这些人们发布的例子中都有一个共同点。它们都是已经解决过的问题，或者对这些问题进行极小的修改。

GPT-4 ChatGPT 编程

阿乐去买菜 2023-03-19

近期资讯

新手必看之【设计索引需要考虑什么问题】

前言 😊今天给大家总结一下，设计索引需要考虑哪些问题。典型的八股文，新🐒必看呀！欢迎大家一键三连呀✌️ 设计索引需要考虑哪些问题查询的频率和数据结构和数量对于频繁查询的列，并且有一定的数据量，数

提前退休的java猿 2024-12-27

MSIY-40浮动电主轴在压铸件铝去披锋毛刺中的应用

MSIY-40浮动电主轴在压铸件铝去披锋毛刺中的应用在压铸件铝去披锋毛刺的过程中，确实建议在机械臂末端加装MSIY-40浮动电主轴，以下是对此建议的详细分析：一、MSIY-40浮动电主轴的简介 MSIY-40浮动电主轴是一款专为自动化去毛刺设计的精密工具，由外径40mm的电主轴与MSIY浮动刀柄组成。其具有以下显著特点： [图片] 高精度：MSIY-40浮动主轴的回位精度可达1μm以内，旋转跳动精度也在3μm以内，确保了去毛刺的精确性。高转速：其转速范围在1000~20000rpm之间，甚至可搭配

春亨工具 2024-12-27

专项报告 | 新能源汽车营销月报11月

11月，新能源汽车市场销量达到151.2万辆，环比上升5.73%，同比上升47.37%。我国新能源汽车年产量首次突破1000万辆，成为全球首个新能源汽车年度达产1000万辆的国家。 [图片] 01 新能源汽车总体概况竞争格局：头部品牌销量攀升，特斯拉促销策略有效吸引消费者汽车销量头部方阵稳定，除理想、蔚来外品牌销量较上月均实现不同程度增长。比亚迪集团月销量再创新高，零跑月销量首次超过4万，两者提前完成全年销量目标。特斯拉为Model Y、Model 3推出的“限时交付，尾款立减”“五年0息贷款方案

百分点舆情洞察 2024-12-27

排刀机内圆研磨，nakanishi高速电主轴NR-2551

排刀机内圆研磨，加装直径25mm高速电主轴，实现高精密内圆研磨排刀机想要进行内圆研磨，可选择这款直径25mm的电主轴，转速5W转可调，跳动精度1μm，可根据主轴外径改刀座孔后直接安装固定，无需改动机床设备，通过机床主轴带动工件旋转，即可精密研磨工件内外圆表面。 [图片] NAKANISHI中西高速电主轴NR-2551，直径25mm，转速5万转可调，需搭配电主轴马达EM25N-5000-J4和E2280控制器配套使用，输出功率250W，可夹持刀具柄径0.5~6.35mm。 [图片] NAKANI

春亨工具 2024-12-27

标题：深入解析BFC与父元素高度塌陷——打造稳健的网页布局

我们来探讨一个前端开发中非常重要的概念——BFC（Block Formatting Context，块级格式化上下文）。让我们一起揭开BFC的神秘面纱吧！

AAA酒席代吃刘哥包顺礼金 2024-12-27

走心机钻微孔刀具伸出长度不足？加装高频铣BMJ-322

斯大走心机钻微孔刀具伸出长度不够怎么办？加装直型高频铣BMJ-322 斯大走心机钻微孔，刀具伸出长度和工件存在距离差，这个问题怎么解决？加装高频铣BMJ-322，因其尾端是直柄的，安装在走心机刀座孔，可以延长伸出长度，达到刀具和工件的亲密接触。 [图片] 斯大走心机常规刀座孔22mm，一般加装的高频铣型号为BM-322FL和BM-322FR，这两款主轴都是带法兰盘的高频铣，线从高频铣中部导出，不利于主轴伸长，更换型号为BMJ-322电主轴，线从尾端导出，让主轴从刀座孔突出，从而实现刀具与工件的接触。

春亨工具 2024-12-27

华科尔推出量产级微型车载无人机场WK-AC20MINI

在汽车上配备无人机，一直是汽车行业的宏大梦想之一。如今，梦想照进现实，作为全球领先的无人机制造商，华科尔推出全新的微型车载无人机场WK-AC20MINI，为智能化车载生态注入“汽车+无人机”的想象空间。树立“汽车+无人机”生态标杆得益于华科尔在智能视觉算法、AI智能跟随技术、模块化设计以及智能电量管理系统等方面的深厚积累，WK-AC20MINI在起降、飞行、充电等方面均具有关键的核心技术，为用户提供轻松、好用的无人机智能化伴飞体验。移动精准起降：用户仅需一键操作，无人机就能够在汽车行驶过程中自动稳定起飞和

Walkera华科尔官方账号 2024-12-27

还买汉兰达？尺寸更大、配置更高、动力更强的TA，更超值！

当大家想在年底选购一台大尺寸SUV时，恐怕有不少人就会把目光看向汉兰达，虽然我们不否认这款车型拥有出色的产品力，但是放在当下市场极度内卷的大背景下，始终都会涌现出拥有更强产品力的车型，比如我们今天要说的2025款星途揽月，就是更值得选购的大七座SUV。首先从大家最关注的价格上来看，目前汉兰达的起售价为24.98万，这也就意味着低配版本的落地价也要在25万左右，对于预算不太充足又注重配置的消费群体来说，汉兰达也就不够香了。反观刚焕新登场没多久的2025款星途揽月，官方指导价仅为19.39万-23.39万，再

大侠上车 2024-12-27

基于 WPF 开发的简约，功能强大的终端模拟器

前言今天大姚给大家推荐一款基于 WPF 开发的简约，功能强大的终端模拟器：ModengTerm。项目介绍 ModengTerm是一款基于 WPF 开发的简约，功能强大的终端模拟器，可以用来连接SS

追逐时光者 2024-12-28

AI 自动直播：会是直播行业即将刮起的强劲新风口吗？

AI 自动直播，作为直播行业的一种新兴形式，正逐渐崭露头角，其潜力与价值正在被越来越多的行业与消费者所认可。这一技术的出现，v+@=Ttnyzake不仅改变了传统直播的模式，更在多个领域展现出强大的应用潜力和商业价值，成为直播行业即将刮起的强劲新风口。 [图片] ### 一、AI 自动直播的兴起背景传统直播方式存在诸多痛点，如需要雇佣专业主播、投入大量时间精力进行策划和管理等，成本较高。随着人工智能技术的飞速发展，特别是深度学习、自然语言处理、计算机视觉等领域的突破，AI 自动直播应运而生。它无需真人出

小橙百合 2024-12-27

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1