当前位置:首页|资讯|AI大模型

麻省理工学院及其联合团队推出AI大模型数据集审查工具DP Explorer

作者:华制智能发布时间:2024-11-21

当前,人工智能越来越依赖庞大而多样的数据集来训练模型。研究人员和开发人员经常使用大规模数据,若没有完全了解其来源、正确的归属或许可条款,可能造成重大的道德与法律风险因此在模型开发中对所使用的数据集进行审计和跟踪至关重要。

为了解决这一问题,麻省理工学院(MIT)研究团队及其合作者开发出 “Data Provenance Explorer”(简称“DPExplorer”),旨在帮助AI从业者审计和跟踪用于训练的数据集的来源,相关研究论文已发表在已发表在科学期刊 Nature Machine Intelligence上。

01

DPExplorer核心功能

DPExplorer是一种结构化审查工具,其工作原理是利用算法自动生成详细的数据来源卡片,涵盖来源、许可信息以及潜在的偏差风险,帮助AI 从业者选择更适合其大模型的训练数据。 核心功能包括:

1

信息审查

连接多个聚合器(如Hugging Face、GitHub、Papers with Code等)的元数据,并提供每个数据集的来源、创建者和许可证的详细视图,以此做参考帮助开发人员精准决策并尽可能避免法律风险。

2

拓展元数据

扩展了Hugging Face等现有元数据存储库,提供了更丰富的数据集特征分类,包括语言构成、任务类型和文本长度。用户可以通过商业或非商业许可证筛选数据集,并查看数据集如何在不同的上下文中重新打包和重复使用。

3

发布工具

系统会自动生成数据来源卡,用于可扩展的符号归因和未来最佳文档实践;提供存储库,供从业者下载根据许可条件筛选的数据;同时还可以自动生成所需要的数据摘要框架,帮助编写数据归属和组成部分,并保持在法律许可范围内。

02

DPExplorer应用成效

研究团队使用DPExplorer对超过1,800个文本数据集进行了许可证准确性跟踪,发现大多数数据集存在许可信息缺失、许可证标注不一致、许可证种类繁多等问题。

DPExplorer将未指定许可证的数据比例从72%降低至30%,明显降低了数据的偏差,有效提高了数据的可追溯性和透明度。

研究指出,DPExplorer通过确保AI模型在获得恰当许可的数据上进行训练,降低了数据使用的法律风险,减少了训练数据透明性不足导致的模型偏差,提高了AI模型在实际应用中的准确性和公正性。

--THE END--

来源:麻省理工学院、澎湃新闻


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1