新V观海外：数据集和基准测试变革预示AI能力突变

作者：经济观察报发布时间：2024-05-29

经济观察报社论 陈沛/文纵观AI领域近几十年来的发展历程，除了算法层面的架构创新和算力层面的规模倍增，数据层面的变革也是驱动AI发展的重要一环。

例如，十几年前ImageNet和MS COCO的出现，极大推动了计算机视觉和物体识别应用的发展。而近两年以OpenAI的GPT系列模型为代表的生成式AI，则是使用大规模来自网页、书籍、文章的文本数据进行训练，涌现出了突破性的生成能力。

在数据层面，主要涉及数据集和基准测试两个领域。前者为AI模型提供训练和微调的材料，后者提供了评估AI模型性能的标准方法。

在数据集领域，高质量多模态数据集频现

数据集包括了AI模型学习和模仿的数据，数据集的质量直接影响到模型的效果。一个高质量数据集通常兼具多样性、代表性、平衡性、规模性等特点。

多样性确保模型能够处理各种输入，代表性保证数据集真实反映现实世界分布情况，平衡性避免模型产生偏见，规模性则可以提高模型的泛化能力。

为提升AI模型处理多模态信息的能力，近期业界陆续出现了谷歌的DOCCI、字节跳动的COCONut、Reka AI的Vibe-Eval、MBZUAI的CVRR-ES等多模态高质量数据集，涵盖图片、文本、视频等形式，训练AI模型识别视频、理解图像、分析语境和生成推理结果。

在基准测试领域，动态测试愈发受到重视

基准测试是评估AI模型性能的重要工具，通常包括一系列设计好的问答任务，用来系统评估AI模型在特定任务上的表现，帮助AI研究者和开发者了解模型在实际应用中的有效性和局限性，以及比较不同模型的性能得分。

但是这些基准测试都是静态测试，如果AI模型仅针对某一基准进行训练微调，那么可能会出现过拟合，用户实际体验到的能力反而一般。因此以Chatbot Arena为代表的实时动态测试被认为更能符合模型实际能力。

近期，Chatbot Arena背后团队进一步推出了升级版Arena Hard排行榜，完全基于500个高质量评估的动态测试结果进行排名，并且减少了不同模型能力置信区间重叠的情况，拉开得分差距。动态测试的理念正在受到更多关注。

数据集和基准测试开始面临新的挑战

首先，高质量数据集的构建非常耗时，人工标注的工作成本也非常高昂。其次，每一类基准测试，都要在效率、成本、有效性之间寻找平衡。最后，随着AI应用快速发展，旧的数据集和基准测试可能很快就会过时，无法满足新的需求。

在如今的AI数据层面，通过“众包+调查”的方法广泛收集数据和反馈，或是通过合成技术控制数据生成，成为业内的关注焦点。研究社区也在持续发布开放的数据集和评估方法，以供研究使用。新的基准测试也在不断被开发出来，用来评估模型在更复杂、更接近现实世界场景中的能力。

透过这些数据层面的变革，我们不仅可以期待出现更多高质量数据集与基准测试，还可以预见AI技术能力的下一次突变或许就在不远的未来。

相关资讯

新V观海外：数据集和基准测试变革预示AI能力突变

推荐体验

相关资讯

新V观海外：o1模型的开源复现和智商测试

新V观海外：Sora热度下降后再看它的变革意义

新V观海外：Anthropic警示AI破坏力

新V观海外：ChatGPT搜索出现功能重叠

新V观海外：生成式AI走入“大”和“小”的分岔口

近期资讯

产品人成长路径指南

给孩子喝感冒冲剂，能预防呼吸道传染病？

户外和滑雪的圈，今年冬天中产不想挤了

以餐饮SaaS为例，想清5个问题，销售不讲“功能”，成交概率更高

TORA-ONE人形机器人：工业制造智能化关键性破局力量

“晚上10点后，店里一半是韩国人”，只为吃瓜？

技术转产品拿7个offer，复盘发现因为做好了这3件事！

译体验｜Qualtrics：2025 全球消费者体验趋势报告

NewCo弱爆了，美国Biotech开始流行“专利权”融资

你 VS 数据分析高手，最大的差异竟是……

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响