当前位置:首页|资讯|OpenAI

OpenAI的数据采集是否是在剽窃人们的创意?

作者:知产专利信息发布时间:2024-04-30

原标题:OpenAI的数据采集是否是在剽窃人们的创意?

在互联网时代,公开的内容极其容易被他人剽窃。人尚且如此,机器的采集则更加防不胜防。

对大模型开发而言,训练数据的数量与质量对模型有巨大的影响,因此当前的大模型开发对于数据采集有着较高的依赖性。但这些被采集的内容不少来自公域互联网,像OpenAI这样的企业并没有为其付费的打算。

针对这一问题,OpenAI在一场针对版权问题的诉讼中阐明道,自己使用的是合法公开的网络数据,并未将其运用在非法用途,因此是合理的。

如果我们按照这个逻辑来看,当前互联网上的任何内容都有可能被AI采集,成为训练数据的一部分。即便这些内容你并未授权其使用,但也仍旧会被剽窃走创意。

不止是一般民众的内容,作为OpenAI重要的数据库来源,《纽约时报》过往发表的数百万篇文章都被的OpenAI运用其训练聊天机器人。但相关的内容创作者,并未收到任何稿费、版权相关的费用。粗略统计,OpenAI光从此项活动中,就能够获利数十亿美元的利润。

OpenAI在当前的发展模式,无疑是高度依赖数据收集,这其中自然也包括一些受版权保护的内容。不过,他们并不认为这是可持的行为,因为如果不使用这些高质量数据,就不可能训练出优秀的AI。

当然,针对OpenAI利用搜索引擎采集数据的行为,谷歌也没少跟它掰扯。先前OpenAI采集油管的数据时,就遭到了谷歌的警告,并宣传要限制其数据采集。

AI的运用确实方便了我们的日常生活,但相对的,当下利用AI生成的无意义内容正在污染互联网数据,其蕴藏的价值正逐步降低。但AI发展已是必然的趋势,从长久来看,它仍旧有可能成为人类开启下个世代的关键。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1