网络抓取数据用于生成式AI训练？英国ICO：合法利益是可行关键

作者：21世纪经济报道发布时间：2024-01-25

21世纪经济报道记者郑雪北京报道

海量数据、算力和算法，使得生成式人工智能侃侃而谈、无所不知。数据来源方面，不少企业的数据源于公开网络抓取，也因此产生了相关纠纷，如OpenAI因数据抓取引发多起纠纷。纠纷背后，涉及网络抓取合法性问题，即通过网络抓取数据训练而成的生成式人工智能模型，是否具有法律依据？

今年1月，英国ICO（theUK Information Commissioner's Office，英国信息专员办公室）宣布启动生成式人工智能系列研究，探讨数据保护法如何适用于生成式人工智能模型的开发和使用。通过网络抓取数据训练而成的生成式人工智能模型是否存在法律依据？首次研究便回应了这一问题。

对于人工智能企业而言，何以训练数据如此重要？

数据，尤其是高质量的数据，成为人工智能发展关键。生成式人工智能模型开发的第一步，便是收集和预处理训练数据，通过数据训练模型，结合微调，以便在特定环境中部署。如GPT-3的数据量为45TB。同时，数据又是稀缺的，根据Epoch的研究预测，数据耗尽最早可能出现于 2026 年。此外，AIGC厂商数据来源大致分为三个面向，公开渠道爬取的数据便是其中之一。

生成式人工智能的训练数据来自何处？

ICO指出，大多数生成式人工智能开发人员都通过可公开访问的来源获取数据，或直接从网络抓取，或间接从拥有数据的第三方获取，或两者结合。从互联网中抓取的信息包括个人数据，还包括泄露的信息等。

基于网络抓取数据训练而成的生成式人工智能的合法基础如何判定？

ICO指出，公开抓取数据训练而成的生成人工智能模型，合法利益可以成为其法律依据，但前提是模型开发者通过三部分测试（three-part test）：

一是，目的测试，即是否存在有效利益。开发者的利益涉及商业利益以及更广泛的社会利益，需要对模型的使用进行适当控制。

二是，必要性测试，即鉴于目的，网络抓取是否必要。ICO理解，目前大多数生成式人工智能，只能使用通过大规模抓取获得的数据量进行训练。

三是，平衡测试，即评估对个人的影响，并确定是否侵犯了个人的利益、权利和自由（此处重点关注对个人的潜在影响）。通过网络抓取收集数据是一种“隐形处理”活动，在此情况下，公众可能会失去对个人数据处理的控制权，或者无法行使法律所授予的相关权利。ICO指出，隐形处理和人工智能相关处理都被视为高风险活动，需要在其指导下进行DPIA（数据保护影响评估）。

可以看到，生成式人工智能模型正逐渐引发风险和危害，可能是因为收集的训练数据，也可能和模型使用相关。相关风险又该如何缓解？

ICO列明三种情况：

初始开发人员部署的生成式AI模型：部署在自己的平台时，期望能够完全控制模型的生成和使用。

由第三方通过API部署的生成式AI模型：在此情况下，初始开发者可以部署特定技术（例如输出过滤器等）或通过组织予以解决。如对API接口的限制查询、对模型使用进行监控、通过合同予以限制等。

提供给第三方的生成式人工智能模型：这种情况下，初始开发者会将底层模型副本或大量细节（如模型权重、起始代码等）提供第三方，客户选择运行自己研发的生成人工智能模型。ICO指出，合同控制措施可以减轻这种风险，但仍需实践证明上述措施可行。

值得注意的是，此次是ICO关于生成式人工智能开发和使用的新想法，不应将其解释为数据处理需要符合的法律规定。

数据抓取从来都不是一个新问题，数据抓取及合法性边界是权益衡量的结果，同时需要具体分析（case by case），对于新兴的人工智能企业来说亦如此。

更多内容请下载21财经APP

相关资讯

OpenAI阻止网络爬虫抓取数据，避免数据被用于训练AI模型

驱动中国2023年8月8日消息，据悉，OpenAI旗下GPT模型的训练需要大量的网络数据，这可能涉及到数据隐私和版权等问题。为了解决这些问题，OpenAI最近推出了一个新功能，让网站可以阻止其网络爬虫（web…

OpenAI

驱动中国 2023-08-08

鞭牛士 2023-07-19

网络抓取数据用于生成式AI训练？英国ICO：合法利益是可行关键

推荐体验

相关资讯

OpenAI阻止网络爬虫抓取数据，避免数据被用于训练AI模型

OpenAI近日承认其推出了名为GPTBot的网络爬虫机器人，用于抓取和收集数据用于大模型训练

社交媒体数据抓取亟待合规合法，全球十二家数据保护机构发声

Meta欲将个人数据用于生成式AI训练，巴西监管出手叫停

Meta停止披露用于训练巨型生成式AI模型Llama 2的数据来源

近期资讯

江西煜明智慧光电申请无荧光粉多基色LED自适应调节光源控制系统专利，实现高效自适应的LED控制

掌握电脑分屏技巧，提升工作与娱乐效率的实用指南

鼎阳科技：公开发布三个新产品

中科创达RUBIK AI Glass Lite版已获超3个品牌客户的选型合作预计2025年第一季度实现量产并上市

机械革命 CES 2025 笔记本电脑新品预热：A 面外壳采用特殊工艺

美的MR-190E：859元到手的181升双门节能冰箱，性价比之选

一加Ace 5系列评测：双枪齐发！游戏党的战斗利器

一加Ace5系列发布 Pro版首发电竞Wi-Fi芯片G1

蓝漂广告登陆CCTV，品牌影响力再上新阶

Switch 2真机现身？网友疑造假

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响