国产AI碾压ChatGPT？AI评测不应走偏路线 | 三评AI乱象（二）

作者：搜狐资讯发布时间：2024-03-23

人工智能是引领这一轮科技革命和产业变革的战略性技术。生成式人工智能的迅速崛起，正使得AI逐渐渗透至普通人的生活。正如任何先进技术都可能被误用，AI作为工具被滥用的情况也逐步浮出水面。技术无善恶，但法律有边界，新华每日电讯推出系列评论，为走偏的AI划出界限。

来源：3月22日《新华每日电讯》

作者：新华每日电讯评论员周琳、董雪

“百模大战”以来，AI大模型的部分榜单上出现了一个奇怪现象：长期盘踞在榜单前列的，经常是一些名不见经传的国产大模型，它们竟然以接近满分的优势碾压了ChatGPT、Gemini和其他知名的AI大模型。

之所以令人大跌眼镜，是因为这与大众的实际体验严重不符。不少AI大模型分数名列前茅，实力却不及格。如果说“听不懂答不对、动不动就崩溃”司空见惯，那么更讽刺的是，有的大模型根本没对业界开放，就算大家想感受一下“第一名”的风采都找不到门路。

有人可能会好奇：一些AI大模型“高分低能”是怎么做到的？原因其实很简单，那就是评测中出现了数据污染和泄露。简单来说，榜单排名类似于有第三方“考官”出了一个题库，题库中大量考题针对性测评大模型各个方面的能力，而有的“考生”提前拿到题库，并把答案逐一背了下来。

“考高分”的目的也很明确，那就是投机取巧、炒作包装。业内人士告诉记者，在国内众多大模型激烈竞争、良莠不齐的当下，许多大模型还未在用户之间形成过硬的口碑，离产生世界级影响还有较远的一段路。而评测是直观体现大模型能力的关键方式之一，学术化榜单和市场化榜单都得到了广泛重视，刷榜跑分因此成为一些企业快速吸引眼球的手段。

当然，榜单失真的背后，不只有作弊的“考生”，也可能有徇私的“考官”。业界需要客观、公正、高水准的优质榜单帮助大家慧眼识珠、去伪存真，“考官”如果协助“考生”作弊，无疑会扰乱AI大模型的评测环境。所幸我们看到，部分榜单在遇到刷榜跑分问题后，及时推出补救措施，例如将公开大模型和非公开大模型区分为两张榜单，成功挤出大量非公开大模型的水分。

是金非金焰烈而晓，部分大模型企业一心扑在刷榜跑分上显然走偏了路线。说到底，AI大模型的发展还是那句老话，关键核心技术要不来、买不来、讨不来，更包装不来，唯有一步一个脚印，扎扎实实地向前走。

■此前报道

复活逝者成生意？AI变现不能无伦理底线 | 三评AI乱象（一）

监制：卢刚 | 责编：赵岑 | 校对：张慧

近期资讯

聚乳酸（PLA）是什么？聚乳酸（PLA）的独特特性

聚乳酸（PLA）是一种新型生物可降解材料，又名聚丙交酯，是以乳酸为主要原料聚合得到的聚合物，属于聚酯家族。聚乳酸是新型生物降解材料，具有良好生物相容性和可降解性，广泛应用于包装、医疗和3D打印等领域。生产成本高、原料供应不稳、市场认知度低和技术瓶颈是挑战。发展方向包括技术创新、原料多元化、产品多样化和市场推广，政策支持也很重要。聚乳酸（PLA）的韧性比较差，缺少弹性以及柔性，质地硬而且脆性大，熔体强度相对较低，结晶速率过慢等，上述缺陷限制了其在很多方面的应用。聚乳酸（PLA）的化学结构中含有大量的酯键，

深德鸿环保新材料 2024-12-29

想要进行局域网监控？学会这两种操作，保证让你轻松上手！

想要进行局域网监控？没问题，我这就给你详细说说怎么操作，保证让你轻松上手！一、使用专业监控软件-域智盾软件首先，你是公司企业，可以考虑全面地局域网监控，建议使用专业的局域网监控软件，如域智盾软件。软件功能全面，部署简单，是监控局域网电脑的首选工具。1.选择软件‌：市面上有很多优秀的局域网监控软件，如域智盾软件、中科安企系统等。你可以根据自己的需求和预算选择合适的软件。‌2.下载安装‌：在控制端和被控端电脑上分别下载并安装所选的监控软件。安装过程中，请遵循软件的安装向导，确保正确配置各项参数。‌3.配置监控

企业超管 2024-12-29

国产AI碾压ChatGPT？AI评测不应走偏路线 | 三评AI乱象（二）

推荐体验

相关资讯

谁在评价大模型？AI大模型评测榜单乱象调查

【深度】谁在评价大模型？AI大模型评测榜单乱象调查

快手AI文生视频大模型体验：更偏商业端，“国产版Sora” 来了？

商业快评 | 生成式AI为巨头游戏，创业公司不应盲目跟风

国产大模型扎堆模仿ChatGPT 华为：这是AI最不应该做的事！

近期资讯

聚乳酸（PLA）是什么？聚乳酸（PLA）的独特特性

想要进行局域网监控？学会这两种操作，保证让你轻松上手！

高中化学三年方程式汇总，高中三年这一份就够！建议收藏打印！

【java毕设 python毕设大数据毕设】基于web的域名管理系统的设计与实现

第九次河北省森林资源连续清查技术操作细则

东方圣人有巢氏　山林子东方圣人系列组诗之二

熬了9晚，我将高中历史主观题答题语言汇编一册，吃透次次90+

中考数学(150个常考母题+450道精选好题)，考试刷这些就够了！

一个很变态，但地理能94的方法！

如何解决Adobe正版弹窗提示，相关软件正版弹窗提示方法

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响