代码能力超越GPT-4，这个模型登顶Big Code排行榜，YC创始人点赞

作者：量子位发布时间：2023-11-03

编程 GPT-4

一款号称代码能力超越GPT-4的模型，引发了不少网友的关注。

准确率比GPT-4高出超过10%，速度却接近GPT-3.5，而且窗口长度也更长。

据开发者描述，他们的模型取得了74.7%的Pass@1通过率，超过了原始GPT-4的67%，登上了Big Code榜首。

这个模型名叫Phind，和以其为基础的面向开发者的AI搜索工具同名。

它是由开发团队在CodeLlama-34B的基础之上微调得到的。

Phind利用TensorRT-LLM在H100上可以跑出每秒100个token的速度，是GPT-4的5倍。

此外，Phind的上下文长度达到了16k，其中12k可供用户输入，另外4k保留给检索结果中的文本。

针对这个产品，网友们议论纷纷，结果是喜忧参半：

支持的人，如著名创业投资公司YCombinator创始人Paul Graham表示，Phind可以让人们用更少的资源和大厂抗衡。

也有网友具体列出了Phind的优点：

不认可Phind的网友则说，自己之前用GPT-4写的代码，Phind写不出来：

更是有人吐槽说，GPT“每天都在被打败”，但是从来没被超越过。

有意思的是，在Phind应用当中，自研模型又被称作“fast model”，而“best model”仍然是GPT-4。

（虽然没明说，但是GPT-4和best model的剩余可用次数是同步变化的）

所以，这个号称“击败了GPT-4”的模型到底是不是真的那么好用，我们进行了一番实测。

01 Phind vs GPT-4

正式开始之前，先来说说对Phind的第一印象。

它的界面十分简洁，主要就是一个搜索框，而且不需要登录就能无限量使用。

左下角有一个Pair Programmer的开关，直观上的区别就是开启之后回答界面更侧重对话，不开启的话则更像搜索引擎。

此外，还可以从自研模型和GPT-4中选择，GPT-4则需要登录，而且每天只能用10次。

接下来就是和GPT-4进行的对比测试，GPT-4没有开启代码解释器。

首先还是从LeetCode题目开始测起，Prompt就是是原问题加上下面这段话：

请用Python写一段代码解决这个问题，给出通用的解法，不需要设定参数值，代码需要以如下内容开头：（LeetCode页面中给出的起始片段）

为了防止Phind通过检索来“作弊”，我们还在Phind的Prompt结尾加入了这句话：

不要检索任何信息，靠你自己的能力创建代码

第一题在LeetCode中被归为组合数学问题，难度为困难，通过率67.1%。

Phind给出了这样的代码和解释，经过测试，20条测试数据中有19项正确。

出错的是这一条，这里的输出结果应该是3，但Phind给出的程序运行结果是4。

我们试着反馈给Phind，看它能不能找出错误的原因，结果分析一番之后给出了新的代码，并通过了测试。

而GPT-4这边，则是一次性通过。

进入下一题，这道题目涉及到了动态规划，通过率为53.9%。

这次Phind和GPT-4都是以一次通过。

第三道题目的通过率只有约30%，但它的难度可能在于用来判题的测试数据太庞大了。

Phind给出的这段代码就在通过前12组测试数据之后出现了运行时间超限的现象。

我们让它试着进行优化，结果这次直接是算不对了。

而GPT-4则轻松解决，不过在解释说明部分有些错误，因为超级回文数的概念中的描述是“回文数的平方”而不是“平方是回文数”。

三道LeetCode题目测试下来，Phind以一平两负的成绩输给了GPT-4。

但需要说明的是，这里我们为了测试模型本身表现，通过提示词关闭了Phind的检索功能，但从实用角度出发，如果保留搜索，Phind还是能很好地解决这些问题的。

接着，我们又测试了一下他们的实际开发能力，这次的题目是扫雷游戏。

Phind会问我们有没有什么特殊要求，这里我们直接点跳过。

然后Phind会对任务进行拆解，对每个子任务又分别进行检索。

这时的代码也是分段给出的，有趣的是，在生成过程中，Phind会使用不同来源中的代码。

然后我们让Phind给出完整代码，并通过链接的第三方平台直接运行。

结果呢，我们一进去就看到程序已经非常“贴心”地把雷的位置清楚地标注好了。

不过这次，GPT-4的代码更加离谱一些，运行出来是这样的：

虽然都没做对，但硬要比较的话，这一轮，Phind略胜一筹。

一路测试下来，很难判断它们孰优孰劣，但考虑到搜索能力，以及免费免登录的特性，Phind还是可圈可点的。

本文来自微信公众号“量子位”（ID:QbitAI），作者：关注前沿科技，36氪经授权发布。

近期资讯

代码能力超越GPT-4，这个模型登顶Big Code排行榜，YC创始人点赞

01 Phind vs GPT-4

推荐体验

相关资讯

中国开源大模型登顶HuggingFace排行榜

Stability AI新模型登顶开源大模型排行榜

超越LLama2，通义千问登顶HuggingFace开源大模型排行榜榜首

通义千问登顶HuggingFace排行榜

超越LLama2 ，阿里云通义千问登顶HuggingFace开源大模型排行榜榜首

近期资讯

神舟十八号载人飞行任务取得圆满成功

神舟十八号载人飞船返回舱在东风着陆场成功着陆。（央视）

郭明錤：低价版Vision Pro量产延期到2027年以后

神十八航天员李聪顺利出舱

神舟十八号载人飞船返回舱成功着陆

“80后”乘组太空之旅圆满结束，叶光富累计飞行时长超一年刷新纪录

神十八轨道舱与返回舱成功分离

迎接太空出差归来的航天员神舟十八号乘组回家后第一个见到的是谁

11月4日和5日可欣赏金星伴月

航天员李聪顺利出舱

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响