在互联网时代,公开的内容极其容易被他人剽窃。人尚且如此,机器的采集则更加防不胜防。
对大模型开发而言,训练数据的数量与质量对模型有巨大的影响,因此当前的大模型开发对于数据采集有着较高的依赖性。但这些被采集的内容不少来自公域互联网,像OpenAI这样的企业并没有为其付费的打算。
针对这一问题,OpenAI在一场针对版权问题的诉讼中阐明道,自己使用的是合法公开的网络数据,并未将其运用在非法用途,因此是合理的。
如果我们按照这个逻辑来看,当前互联网上的任何内容都有可能被AI采集,成为训练数据的一部分。即便这些内容你并未授权其使用,但也仍旧会被剽窃走创意。
不止是一般民众的内容,作为OpenAI重要的数据库来源,《纽约时报》过往发表的数百万篇文章都被的OpenAI运用其训练聊天机器人。但相关的内容创作者,并未收到任何稿费、版权相关的费用。粗略统计,OpenAI光从此项活动中,就能够获利数十亿美元的利润。
OpenAI在当前的发展模式,无疑是高度依赖数据收集,这其中自然也包括一些受版权保护的内容。不过,他们并不认为这是可持的行为,因为如果不使用这些高质量数据,就不可能训练出优秀的AI。
当然,针对OpenAI利用搜索引擎采集数据的行为,谷歌也没少跟它掰扯。先前OpenAI采集油管的数据时,就遭到了谷歌的警告,并宣传要限制其数据采集。
AI的运用确实方便了我们的日常生活,但相对的,当下利用AI生成的无意义内容正在污染互联网数据,其蕴藏的价值正逐步降低。但AI发展已是必然的趋势,从长久来看,它仍旧有可能成为人类开启下个世代的关键。