当前位置:首页|资讯|ChatGPT|编程

ChatGPT抢走了数据!编程语言排行榜,没法做了!

作者:51CTO发布时间:2023-12-20

原标题:ChatGPT抢走了数据!编程语言排行榜,没法做了!

提及编程语言排行榜,很多人都能想到Tiobe、RedMonk、Stack Overflow等,基本上它们更新的频率也相对固定。但最近,这家号称编程语言榜单天花板的RedMonk似乎“放鸽子”了。

RedMonk一般一年发布两次榜单,上次更新的榜单是在5月,按惯例第二次发布应该是在今年的11月,但今年却迟迟没有动作。

今日,官网终于公开了没有发布语言排行榜的原因:他们之前从Stack Overflow和Github上获取到的样本数量大大减少,已经显著影响到榜单排名的评估!背后的罪魁祸首,竟是AI编程助手!

RedMonk排名离不开社区样本

根据官方介绍,RedMonk通过追踪编程语言在GitHub和Stack Overflow上的代码使用情况与讨论数量,统计进行分析后进行排序,进而深入了解潜在的语言采用趋势。

具体讲,RedMonk 榜单的数据收集方式包含两部分:使用GitHub Archive作为数据源对GitHub数据进行分析;Stack Overflow部分则直接使用其提供的实用工具 data explorer。

具体排序算法官方也给出较详细的介绍,这里不再赘述。

ChatGPT推迟了编程榜单的进行

今年大家都见证了一个增长奇迹:ChatGPT推出后,两个月就做到了一个亿的用户。

1 Stack Overflow首当其冲

随后,Stack Overflow流量下降的速度开始陡生,以致于其CEO宣布对数据获取方开始收费的决定。

Stack Overflow 的网站访问量显著下滑到原来的一半,不仅如此,还有分析师指出“用户花在 Stack Overflow 上的时间比去年同期下降了 40%,比此前网站峰值期下降了约 2 亿小时”。

此外,Stack Overflow在网站上的问题和答案也减少了五成,投票也减少了。原因也很明显,开发人员已经可以即时向人工智能助手提问,并在上下文中给出答案,而无需再去Stack Overflow中查询答案。

那么由Stack Overflow提供的公共数据集的实用性的价值就会大打折扣。

上图是Stack Overflow 上使用排名前20种编程语言标签的问题数量,可以看出比前一时期减少了近20%。这还只是是RedMonk在ChatGPT爆火之后第一次完整地运行这些数字,粗略查询下整年的变化,就会发现结果更加明显。

2.Github同样也没有摆脱数据下降的影响

RedMonk对于Stack Overflow数据的下降是有预料到的,但令其万万没没想到的是,Github也被AI代码助手打击到了,数据上也出现了非常严重的异常。

Redmonk使用的数据集是BigQuery上的公共数据集,为此,Redmonk会向谷歌和GitHub团队询问了数据是如何提取的,以及是否在内部数据中看到了类似的变化。

“得到的结果非常意外,我们从GitHub Archive中看到的数据显示,与2022年下半年PR相比,2023年上半年的拉取请求下降了约25%。”

ChatGPT写代码能力太强了,后果很严重。各种Copilot的出现,已经严重影响到了编程问答社区的提问数量。样本量的减少,意味着RedMonk赖以进行的排名变化统计似乎面临着不小的挑战,因为这些样本数据似乎已经不足以完全、真实地反映语言的受欢迎程度了。

下一步,编程排行榜怎么办

因此,RedMonk无奈地表示,基于人工智能的代码助手的出现和兴起已经影响了RedMonk语言排名的数据。

随着问题和知识共享从公共的社区论坛转移到私人的AI聊天工具,他们从公开数据中确定有意义趋势的能力也将无限期地改变

接下来,RedMonk会继续跟踪这些趋势,并确定样本量的变化将如何影响他们进行排名,同时预告2024年1月发布新榜单。

写在最后:

新的数据霸主正在诞生

大模型时代的到来,已经在慢慢改变人们原来的互联网习惯。以前大家遇到问题,可能想到的是访问门户、访问社区,而生成式AI爆发后,取而代之的是各种“ChatGPT”的私人聊天界面。

而由此带来的,就是人机交互数据的源头发生了迁移。知识问答社区的形态又会发生怎样的改变?会不会朝着“弱问答、轻社交”的方向演进?又或者是其他哪些方向?

再比如依赖这些数据的下游企业,又该如何适应新的数据生产霸主?

这些都是一个个亟待回答的问题。且让我们看看几周后,RedMonk是如何思考和这个问题的。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1