普林斯顿首个「开源」AI程序员登场！爆改GPT-4，93秒修bug

作者：新智元发布时间：2024-04-03

GPT-4

普林斯顿首个「开源」AI程序员登场！爆改GPT-4，93秒修bug

新智元报道

编辑：编辑部

【新智元导读】世界首个AI程序员Devin诞生不足一个月，普林斯顿就推出了全新的「开源版本」——SWE-agent！在GPT-4的加持下，debug只需93秒，准确率几乎不相上下。

AI程序员又出新选手了。

普林斯顿团队祭出了全新的智能体-计算机接口（ACI）——SWE-agent。

简单来说，SWE-agent能够让大语言模型（比如GPT-4）变身为软件工程AI智能体，并在真实的GitHub仓库里自己修bug。

GPT-4编程难的宿疾，这不就解决了！

在SWE-bench测试集上，SWE-agent成功解决了12.29%的问题，平均耗时只有93秒，准确率堪比Devin。

当然，更重要的是：SWE-agent完全开源。

仅仅十几个小时，就在GitHub上斩获了1.6k星，109个Fork。

地址：https://github.com/princeton-nlp/SWE-agent

英伟达高级科学家Jim Fan，也揭示了这一朴实的真理——

要想在SWEBench上获得12.3%的分数，只要更好地手动设计GPT-4的命令行工具就行，不需要什么别的神奇之处。

矩阵操作bug，神速解决

下面就是一个SWE-agent如何解决GitHub问题的示例。

这是sympy项目中的一个问题，是SWE-bench的一个实例。

用户报告了这个问题：矩阵操作的Insert时，产生了一些不符合预期的输出。

SWE-agent是怎么解决这个问题的呢？

首先，它重现了报告的bug，把bug的代码复制到了一个名为「reproduce_bug」的文件中。

运行后，果然出现了和报告中一样的问题——

确认问题之后，它在存储库中搜索了「col_insert」函数，看看是在哪里被定义的。

很快

SWE-

ent就

发

现了是

在

com

mon.

py里

。

打开文件后，它找到了一个名为「_eval_col_insert」的函数，认为这可能是关键所在。

在分析代码后，SWE-agent发现，问题就是出在了矩阵操作的索引上！

于是，它对这个函数进行了修改。

再次运行代码，问题完美解决了！

提交解决方案后，SWE-bench的评估结果显示，该方案已经通过初步测试，因此可以将其标记为已解决。

而整个过程中，SWE-agent解决问题之神速，令人惊叹！

在项目主页中，还有一个可以自主操作的演示，感兴趣的可以自主尝试体验修改bug。

传送门：https://swe-agent.com/demo

「开源Devin」，软件工程护城河不存在了

根据研究者John Yang，也是SWE-bench一作介绍，SWE-agent的工作原理是与专门的终端交互，它可以：

- 打开、滚动和搜索文件

- 编辑特定行，并自动进行语法检查

- 编写和执行测试

简单地将大模型连接到vanilla bash终端，并不能很好地工作。

因此，John等研究小组认为，大模型需要精心设计的智能体——计算机接口，类似于人类喜好的UI设计。

就比如，当LLM搞乱缩进时，编辑器就可以阻止，并给出反馈。

而另外一个典型案例是，在查看文件时，让SWE-agent每次只看100行，要比每次看200-300行，甚至整个文件效果要好得多。

即便是用上了GPT-4，一个优秀的智能体-计算机设计也非常重要。

而关于SWE-agent的技术报告，也将在4月10日上线。

作者Ofir Press表示，自己耗费了好几个小时用DALLE-3设计出了logo。

Devin从面世到现在不足一个月的时间，走向大众化。

有开发者表示，我感觉到了一个新的研究领域：智能体计算机交互（ACI）。它与人机交互（HCI）类似，但更侧重于LLM和LVM。

有人发出感慨，普林斯顿团队打造的「开源Devin」，仅用GPT-4在基准测试中取得了12.29%的准确率，真不敢想象GPT-5诞生之后会怎样？

网友纷纷表示，软件行业再也没有护城河了。

全新的ACI设计

为此，研究人员专门为大语言模型设计了简洁的指令和反馈格式——智能体-计算机接口（ACI），从而让模型能够更轻松地浏览代码仓库、查看、编辑和运行代码文件。

正如良好的提示设计对于充分发挥语言模型的潜力至关重要一样，优秀的ACI设计对于使用AI智能体时能够取得更佳效果也是关键。

在设计代理计算机接口过程中，研究人员发现了几个极其有用的功能，并将它们集成到了SWE-agent中：

1. 增加了一个在发出编辑命令时运行的代码检查器，如果代码语法不正确，则阻止编辑命令执行。

2. 提供了一个特制的文件查看器，并为文件编辑器添加了滚动查看和文件内搜索的功能。结果显示，这个查看器在每次只展示100行代码时效果最佳。

3. 提供了一个特制的全目录字符串搜索命令。研究发现，简洁地列出每个含有匹配项的文件非常重要，因为给模型提供每个匹配项的更多的上下文信息会使其感到困惑。

4. 当某个命令执行后没有任何输出时，会返回一条消息：「你的命令已成功执行，但没有产生任何输出。」

总结来说，通过智能体计算机接口（ACI），SWE-agent让LLM有了与专属的Docker容器互动，实现浏览、搜索、编辑和执行代码的功能，从而极大地拓宽了LLM在软件开发领域的应用范围。

智能体工作流

SWE-agent的工作流程分为两个阶段：

第一阶段被称为「推理」，此时SWE-agent会处理一个GitHub上报告的问题，并生成一个旨在修复该问题的拉取请求（Pull Request）。

第二阶段，则是对生成的拉取请求进行「评估」，以确认它是否真正解决了报告的问题。（目前只适用于SWE-bench基准测试中的问题）

推理

只需使用下面这个脚本，你就可以在任何GitHub问题上运行SWE-agent了！

python run.py --model_name gpt4 \

--data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml

接下来，要实现SWE-bench上的推理，需要在SWE-bench Lite上运行SWE-agent并生成补丁：

python run.py --model_name gpt4 \

--per_instance_cost_limit 2.00 \

--config_file ./config/default.yaml

如果要运行SWE-bench中的单个问题，则需使用--instance_filter选项：

python run.py --model_name gpt4 \

--instance_filter marshmallow-code__marshmallow-1359

评估

评估生成的拉取请求方法如下：

cd evaluation/

./run_eval.sh <predictions_path>

需要注意的是，这个步骤仅适用于SWE-bench问题集。

作者介绍

就在下周公布，

SWE-agent论文就会公开。

这项研究中两位核心作者是John Yang和Carlos E. Jimenez。

John Yang

John Yang目前是普林斯顿大学的研究助理，导师是Karthik Narasimhan。他曾在加州大学伯克利分校取得了电子工程和计算机学士学位。

他本人对语言基础和交互、LLM的基准测试、软件工程和代码生成感兴趣。

Carlos E. Jimenez

Carlos E. Jimenez是普林斯顿的博士生，导师是Karthik Narasimhan教授。

他研究的是自然语言处理的人工智能和ML，研究兴趣包括代码语言模型，以及面向任务的对话。

Carlos曾在犹他大学获得了计算机科学学士学位，导师是Ellen Riloff。

编码的未来掌握在AI手中？

无可否认，AI正逐渐改变技术行业的运作方式。

不管是Devin、Devika，还是OpenDevin等等，都在软件工程领域有着出色的表现。

在这里，AI不再仅仅是软件工程师的辅助工具，而是开始承担起了工程师的角色，完成过去认为只有人类才能完成的任务。

那么，这是否意味着AI已经不仅仅是一个工具，而是成为了工程过程中的合作伙伴？

更进一步的，AI是否真的能够独立编写安全的代码？未来，编程是否将完全交由AI来掌控？

可以说，这些问题不仅关乎技术的进步，也触及到我们对于AI角色和能力认知的深层次思考。

他们发布的世界上第一位AI程序员——Devin，不仅掌握了全栈技能，能自主学习不熟悉的技术，端到端地构建和部署应用程序，自己改bug，甚至还能训练和微调自己的AI模型！

在SWE-bench上，Devin的表现远远超过Claude 2、Llama、GPT-4等选手，取得了13.86%的惊人成绩！

可以说，Devin并不仅仅是一款AI工具，而是一个能够独立完成软件工程任务的AI系统。

与以往AI工具不同的是，Devin能够规划并实施复杂的软件项目，这意味着AI现在能够扮演起工程师的角色。

除了编写代码外，Devin还能够处理程序中的错误，部署应用，乃至于训练新的AI模型。

OpenDevin：共创未来的愿景

就在发布当天，Devin的开源翻版——OpenDevin横空出世。

通过鼓励社区成员贡献代码和坚持开放标准的原则，OpenDevin致力于不断改进和增强AI在软件开发中的应用，使软件工程师能够更高效地完成编程任务。

Devika：开源社区的新星

受到Devin在AI软件工程领域开创性成就的激励，另一个开源项目——Devika也诞生了。

Devika是一个富有主动性的AI软件工程师，它能够理解人类的高级指令，把这些指令分解成具体步骤，搜集所需的信息，并据此编写代码来完成既定目标。

具体来说，Devika依托于Claude 3的强大能力，结合了先进的AI规划与编程技术，打造了一个开放给社区并由社区共同推动发展的平台。

Devika不仅仅是一个技术项目，它更是一个向全球开源贡献者发出的邀请，鼓励他们参与到AI创新的旅程中来，共同探索和定义AI技术的未来。

目前还无法代替人类

随着像Devin、Devika和OpenDevin这样的AI软件工程师的兴起，我们已经见证了AI在编程方面的巨大潜力。

这些AI不仅能够规划和执行复杂的工程任务，还能找出并修复漏洞，甚至负责整个项目的开发流程。

然而，当面对复杂的现有代码库并追求编写安全代码时，情况变得更加复杂。

编写安全的代码不仅要求代码无误，更重要的是要理解代码的广泛背景、可能的安全漏洞以及最新的安全研究和实践。

在这里，人类的监督仍然不可或缺。

虽然我们尚未达到AI能够完全取代软件工程师的阶段，但AI无疑正在改变技术领域的面貌和未来的走向。

在AI创新日新月异的今天，Devin、Devika和OpenDevin引发了我们对人工智能与人类之间关系的深思：我们是否应该将AI视为与人类相似的存在？

正如Ethan Mollick在「On the Necessity of Sin」中提出的，我们面临的是与AI合作共创软件工程未来的机遇，还是AI最终将取代人类角色的挑战？

答案可能在于我们对未来的设想，以及我们是否愿意采取一种开源的态度，强调透明度、开放性和协作精神。

参考资料：

https://swe-agent.com/

https://github.com/princeton-nlp/SWE-agent

金融界2024年12月26日消息，国家知识产权局信息显示，英特尔公司申请一项名为“存储器接口电路”的专利，公开号CN119181393A，申请日期为2023年6月。专利摘要显示，一种存储器接口电路，包括驱动器级和向驱动器级提供控制代码的逻辑电路。驱动器级具有多条支路，每条支路包括上拉(PU)晶体管、下拉(PD)晶体管和电阻器。

金融界 2024-12-26

普林斯顿首个「开源」AI程序员登场！爆改GPT-4，93秒修bug

普林斯顿首个「开源」AI程序员登场！爆改GPT-4，93秒修bug

推荐体验

相关资讯

普林斯顿首个「开源」AI程序员登场，爆改GPT-4，93秒修bug

ChatGPT修bug横扫全场准确率达78%！程序员要开心了

ChatGPT修bug横扫全场，准确率达78%！网友：程序员要开心了

开源日报 | 微软AI程序员登场，马斯克开源Grok；Open-Sora全面开源

AI程序员Devin卧底工作群修bug！和CTO聊技术，网友：顶级码农水平

近期资讯

如何应对忘记手机解锁图案的烦恼与解决方法分享

中国长江电力申请一种基于transformer的水轮机声音监测方法专利，实现对设备状况实时跟踪

瑞昱半导体申请存储器时钟控制专利，控制存储器时钟

华为手机录屏功能详解：简单步骤与实用技巧

崎伟科技取得一种防触电充电桩专利，实现充电头干燥

三星手机双卡双待设置详解：轻松管理两张SIM卡的便捷体验

平安科技申请语音情绪识别专利，提高情绪识别准确性且提高识别效率

华为手机呼叫等待功能设置详解与注意事项

如熠智能科技取得种 AGV 充电桩专利，避免充电桩主体因 AGV 小车剐蹭造成损坏

英特尔申请存储器接口电路专利，提高存储器接口性能

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响