ChatGPT代码生成飙升10%，北大华人一作：细化prompt，大幅改进大模型代码能力

作者：新智元发布时间：2023-11-16

ChatGPT 编程北大提示词

在大模型时代，高质量的代码生成已经强大到，让人惊叹。

从通过HumEval中67%测试的GPT-4，到近来各种开源大模型，比如CodeLlama，有望成为码农编码利器。

然而，现实中，程序员们不会精炼表达需求，因此误导、限制了LLM生成优秀代码的能力。

说白了，大模型代码能力行不行，取决于你的提示妙不妙。

对此，来自北大实验室的研究团队提出了，通过与LLM聊天来细化需求的方法——ChatCoder。

论文地址：https://arxiv.org/pdf/2311.00272.pdf

具体来说，他们设计了一种聊天方案，大模型引导用户细化需求表达，进而比以前更精确、更完整，同时提高了大模型的性能。

大模型是「码农」，你就是「产品经理」

这里先举个例子，如下图，用户提出了需求：

数据集#MBPP/443，要求ChatGPT编写一个python函数从给定的列表中找到「最大的负数」。

基于原始需求，ChatGPT生成一个程序，该程序可以正确提取实际值最大的负数。

然而，sanitized-MBPP的作者认为「最大负数」应该是指「绝对值最大的数」。

因此由于「最大」这个表达不明确，导致LLM生成了错误的代码。

而这里，可以通过需求细化（requirements refinement）来解决这个问题。

需求细化就是揭示需求中的隐含依赖和隐藏结构的过程。通过提供更多细节，在需求细化的过程中可以补充不完整的信息，消除模糊不清的地方。

在前面举的例子中，我们可以简单地向大语言模型说明「最大的」在这里特指「绝对值最大的」，揭示了「最大」这个词的隐藏结构。

有了这一改进后的需求，大模型就可以生成符合MBPP作者期望的代码。

不得不提的是，需求细化，需要人类用户和大模型的协作。

一般来说，在需求工程的背景下，需求细化是通过软件供应商（编码人员）和软件客户（用户）之间的一系列交互来执行的。

软件供应商分析客户需求的初始表达，并提出细化点。软件客户则需要根据这些点来作出响应,供应商才能完成一轮需求细化。

无论是软件客户还是软件供应商，任何一方都不具备单独进行需求细化的资格。

这样的劣势在于，客户通常不够了解软件设计和开发过程，无法撰写可用的需求说明；而供应商通常也不够了解客户的问题和业务领域，无法为满意的系统制定需求。

而现在，在大模型时代，人类用户是客户，LLM是「供应商」。

为了通过需求细化让大模型生成更好地满足用户需求的代码，就需要研发人类和LLM协作的方法。

ChatCoder：聊天细化，生成代码

北大提出了ChatCoder，这是通过聊天进行需求细化的大模型代码生成的新方法。

整体框架如下图，非常简洁，通过聊天来辅助LLM和人类在需求细化方面的协作。

关键是，如何与大型语言模型聊天。

ChatCoder便提供了一个全新的聊天模式，其设计灵感来自IEEE SRS。

接下来，我们具体看下ChatCoder这个框架。

其整体结构是一个两轮的对话。

第一阶段：Paraphrase和Exend

由于人类用户表达需求可能语意模糊、不完整，ChatCoder使用提示要求LLM从几个角度解释用户的原始需求，即完整的需求规范必须清晰。

对于需要改进的遗漏或有野心的论点，ChatCoder让大语言模型基于它从训练数据中获得的假设来扩展它们。

人类用户需要查看细化的规范并纠正其中的错误。

第二阶段：Going-deep和Loop-back

在这一轮中，ChatCoder要求LLM询问人类用户，关于第一轮Paraphrase和Exend中信息损失，以及需要进一步改进的规范方面的困惑。

人类用户需要回答这些问题，并回环纠正细化后的规范。

经过两轮细化后，得到细化后的需求，然后发送给大型语言模型，得到用户想要的程序。

ChatGPT代码能力10%

实验设置

数据集：Sanitized-MBPP、HumanEval。

基准：gpt-3.5-turbo、gpt-4。

研究问题

为了评估ChatCoder，研究人员提出并测试了以下研究问题：

1）与现有代码生成模型相比，ChatCoder的表现如何？

2）ChatCoder是LLM和人类用户交流以进行需求细化的有效方法吗？

3）人类参与ChatCoder带来了多少改进？

ChatCoder性能表现

首先我们来看第一个问题，主要是为了评估ChatCoder与基线相比的整体代码生成性能。

如表1所示，ChatCoder通过大幅细化的需求，成功帮助LLM提高了其生成程序的执行精度。

例如，对于gpt-3.5-turbo，其在Saniticed-MBPP上的pass@1从57.04%提高到71.25%，提升了14%。

横向比较，对于gpt-3.5-turbo和gpt-4，Saniticed-MBPP上的性能改进比HumEval上的更突出。

沟通效率的表现

第二个问题是，评估ChatCoder是否是大模型和人类进行需求细化交流的有效方式。

根据表2，所有3种与LLM进行需求细化的通信方法都有助于LLM改进其代码生成结果。

这一发现指出，任何形式的需求细化在应用LLM生成代码时都是有用和重要的。

与ChatCoder相比，Free Paraphrase和Free QA不会指示LLM执行某些类型的细化，从而导致较低的改进。

人工干预评估

如下评估了人工干预对ChatCoder的重要性，结果见表3。

由于ChatCoder利用需求细化来提高大语言模型的代码生成性能，因此人工干预是必要的，也是不可忽视的。

ChatCoder的过程是从给定的角度揭示需求的内部结构，这些角度没有明确表达，即使有歧义。解决歧义的答案只有人类用户知道。

案例研究

如下，作者提出了几个真实的测试用例，说明ChatCoder如何帮助LLM生成具有细化需求的代码。

由于页面限制，研究人员从MBPP中选择了3个案例，涵盖了关于输入、输出和目的的细化，因为它们直接影响功能需求。

参考资料

https://arxiv.org/abs/2311.00272

本文来自微信公众号“新智元”（ID:AI_era），作者：桃子，36氪经授权发布。

近期资讯

RK3576开发板技术笔记之二：RK3576开发板介绍

第二篇嘛，亮亮我们做出来的板子，3576这个片子的基本功能接口单板都做了，接口数量肯定是比不上3588（PS：这个我们也在做，后续都完成后会发文章），但是比起3568来说还是升级了，我把规格书贴出来，大家可以瞅瞅 [图片] [图片] [图片]

电鱼智能 2024-12-26

手套箱内的工作气体需要定期更换吗？

一、一般情况下是否需要定期更换手套箱内的工作气体在正常情况下通常不需要频繁更换。如果手套箱的密封良好，气体循环系统和净化系统能够正常工作，工作气体（如惰性气体氮气或氩气）可以在箱内循环使用。这是因为气体循环系统会不断地使气体在箱内流动，经过净化系统除去氧气、水分和其他杂质，维持箱内环境的稳定。例如，在一个高质量的手套箱用于锂电材料研究时，只要其气体净化系统持续有效运行，工作气体可以长时间保持在合适的纯度范围内，满足实验需求。 [图片] 二、需要考虑更换的情况 1、气体纯度下降：当手套箱内的工作气体纯度下

手套箱达人小伊 2024-12-26

三溴乙醇麻醉剂问题解答（一）

叠甲：每个品牌的三溴乙醇麻醉剂都有所不同，本篇主要以“吉田”三溴乙醇麻醉剂作为参考。文章仅供参考，若需要文档版或有疑问和补充其它问题可随时私信我！ 1.名称三溴乙醇又名阿佛丁，是一种新型麻醉剂。 2.浓度大鼠三溴乙醇麻醉剂和小鼠三溴乙醇麻醉剂是两款不同的产品，浓度也大不相同。通常大鼠麻醉剂浓度为2.5%；小鼠麻醉剂浓度为1.25%。 3.使用剂量大鼠每100g注射1.2ml；小鼠每10g注射0.2ml。 4.规格小鼠的有10ml和30ml两种规格，前者可以麻醉约20只小鼠，后者可以麻醉约60只小鼠；大鼠只

吉田bio 2024-12-26

回收站清空几天可找回？如何恢复电脑回收站删除的文件

回收站清空后的文件找回问题，一直是许多电脑用户心中的痛。在日常使用中，我们经常会不小心将一些重要文件删除到回收站，并在未加思索的情况下清空回收站，随后便陷入深深的懊悔之中。那么，回收站清空后的文件是否真的无法找回？如果可以找回，应该在几天内尝试恢复？本文将详细探讨这些问题，并提供电脑恢复回收站删除的数据的方法。图片来源于网络，如有侵权请告知回收站清空几天可找回？首先需要明确的是，回收站清空后的文件并不存在几天内可找回的固定说法。回收站清空后的文件恢复并不受具体天数的限制‌。回收站清空并不是永久性地抹除了文

云骑士数据恢复 2024-12-26

货架安全高标准，团体标准严格要求

在仓储物流领域，货架作为存储和搬运货物的重要设备，其安全性直接关系到仓库的运营效率和人员安全。随着物流行业的快速发展，货架的种类和规格日益多样化，对货架安全性的要求也越来越高。为了确保货架的安全性和可靠性，团体标准应运而生，对货架的设计、制造、安装、使用和维护等各个环节提出了严格要求，旨在推动货架行业的健康发展，保障仓储物流的安全与效率。一、货架安全现状与挑战货架作为仓储物流系统的重要组成部分，其安全性面临着多方面的挑战：1. 设计缺陷：部分货架在设计阶段未充分考虑货物的重量、尺寸、堆垛方式等

国联政研 2024-12-26

外贸CRM含义揭秘，特性功能与应用双重解读

在全球化的商业浪潮中，随着外贸活动的蓬勃增长，企业对高效、精准的客户关系管理需求愈发迫切，外贸CRM（Customer Relationship Management，客户关系管理）系统应运而生。其中，Zoho CRM作为一款专为国际贸易设计的客户关系管理软件工具，凭借其卓越的性能，在全球市场中占据了重要地位。它旨在帮助企业在国际舞台上有效管理客户关系、优化业务流程，并显著提升市场竞争力。本文将深入解析外贸CRM的定义、特点、功能及其广泛应用，同时特别聚焦于Zoho CRM在外贸领域的出色表现。一、定义：

Zoho云服务 2024-12-26

Unity3D特效实训营课程介绍

[链接] 大家好，欢迎关注u3d游戏特效课程；本课程线上+线下都可以学习。线上课程：免费试学一个案例之后，对课程满意再报名，实实在在做教育！试学课程链接：魔法弹道案例【需要课程资料的小伙伴加UP猪联系方式联系客服老师领取】线上就业班-实训营课程：全程辅导+直播作业点评+就业推荐（零基础入门到精通）： 1、报名后给您提供完整的课程体系；拉您进VIP学习群； 2、学习过程中遇到问题，随时找专业老师远程1对1辅导，直播作业点评+技术指导，教学服务周期2年； 3、报名即签订培训服务合同，保障您的教学服务和

点线CG 2024-12-26

TN和 IPS 液晶屏有什么区别？

TN 和 IPS 是最常见的液晶面板类型。TN 液晶面板更便宜，响应速度快，能耗更低。IPS 液晶面板则在广视角和显示效果方面遥遥领先。LCD，就是我们常说的液晶显示屏，由于其轻薄、稳定、低功耗的特点，是主要的平板显示技术之一。在LCD技术诞生之初，由于价格太高，液晶面板厂推出了结构简化的平价版--TN LCD，它伴随着的是色彩显示质量低、有效视角小的天然缺陷。后来，IPS技术被引入LCD，改善了上述缺陷，显示色彩准确，可视视角广。可以说IPS是TN技术的升级版。下文中，我们将从不同角度介绍 TN LCD

有屏网 2024-12-26

PLC 伺服电机控制器 NPN PNP 光电开关限位开关接线板

PLC 伺服电机控制器 NPN PNP 光电开关接线板淘宝店：络道工控 [图片] [图片] [图片]

络道工控 2024-12-26

RK3576开发板技术笔记之一：RK3576性能介绍

前段时间瑞芯微官方发布了一个新平台，RK3576，我们这边也收到了好多客户的咨询，目前来看，这款芯片的的竞争力还是可以的，经过我们的辛勤努力，RK3576单板做出来了，这两天我整理整理，逐步把一些笔记分享一下老规矩，第一篇依旧是整体介绍 [图片] Geekbeench5 CPU 跑分比较 [图片] GFXBench5 GPU跑分比較 l CPU 性能：架构：采用八核大小核构架，包括四核 A72 大核与四核 A53 小核，还搭配一个 M0 协处理器。这种架构能够在保证高性能的同时，灵活地应对不同的任务

电鱼智能 2024-12-26