在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。...【查看原文】
在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。
OpenAI
2024-09-09
该基准是对现有SWE-bench的改进版本(子集),旨在更可靠地评估AI模型解决现实世界软件问题的能力。虽然LLM在SWE-bench上取得了令人瞩目的进展,但OpenAI的研究发现,该基准存在一些问题,可能导致低估模型的自主软件工程能力。
华尔街见闻 2024-08-14
1. 背景在软件工程自动化的浪潮中,大型语言模型(LLMs)正逐渐成为编程助手的核心技术,它们通过自动化编码过程,显著提升了开发效率。尽管如此,软件工程的范畴远不止编码,它还包括了软件维护(例如错误修复)和软件演化(如功能添加)等更为复杂的程序改进任务,这要求深入分析和调试来定位并修复问题。SWE-agent是一种先进的软件工程师智能体,它利用如GPT-4这样的大型语言模型自动化解决GitHub上的实际问题。 SWE-bench包含来自GitHub的2,294个真实问题案例。在 SWE-bench 上,S
大语言模型编程GPT-4GitHub
AGIDreamFactory 2024-04-17
此外,榜单还显示,今年上榜企业的平均员工人数从1,313人增加到1,505人。作为阿里巴巴集团旗下的业务板块,阿里云提供了广泛的云计算产品和解决方案,包括云服务器、云数据库、云存储、大数据分析、人工智能等。在…
OpenAI阿里巴巴人工智能
前瞻网 2023-08-10
摘要随着人工智能(AI)技术的飞速发展,软件工程正经历着前所未有的变革。本论文深入探讨了AI时代对软件工程的影响,分析了新兴技术在软件开发、测试和维护等方面所带来的挑战和机遇。从过去独立发展的人工智能和软件工程两个学科,逐渐走向交汇并形成新的研究领域。随着AI技术的崛起,我们见证着软件工程手段的变革,同时也在面对着其所带来的问题和挑战1. 引言随着人工智能(AI)技术的迅猛发展,软件工程领域正在经历一场前所未有的变革。本论文旨在深入探讨AI时代对软件工程的影响,并分析新兴技术对软件开发、测试和维护等方面的
人工智能
名字想不好不要乱起 2024-01-11
微软对 Windows 系统中的 Copilot 实现方式进行了又一次更新。
极客邦科技InfoQ 2024-12-26
单身购房正在为哪类房子买单
真叫卢俊 2024-12-26
这是面向未来消费者的一封情书。
36氪的朋友们 2024-12-26
字节小米盯上AI硬件。
字母榜 2024-12-26
LCA距离评估泛化性能,提升OOD准确率。
新智元 2024-12-26
为什么这么大个世界就容不下一台「mini」手机呢?
少数派 2024-12-26
作为一名投资人,Alan与他的被投企业有着极强的连接,在聊天过程中,他会将被投企业的产品/业务,不由自主地说成是“我们的”产品。
36碳 2024-12-26
汽车技术话语权的夺取。
36氪品牌 2024-12-26
随着Gemini家族的日趋完善、阵容的发展壮大,谷歌大模型将可代表用户完成更多现实工作。
国家铁路局:预计全年全国铁路旅客发送量约43亿人。
夏天与你的声音💤 2024-12-26
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1