当前位置:首页|资讯|OpenAI|谷歌|GPT-4

OpenAI与谷歌矛盾再起,数据使用权争夺战

作者:非业内报发布时间:2024-04-11

根据纽约时报的一篇报道宣称,OpenAI在将超过100万小时的YouTube视频转文字内容后,用以训练GPT-4。了解过AI相关内容的都知道,训练数据的质量,将直接影响大模型的开发进度。因此追逐高质量数据来训练模型,是当下厂商们争夺的焦点。



而这次OpenAI采集数据的行为,也使其成为了与谷歌矛盾的新节点。谷歌一方认为,OpenAI这是在未经授权的情况下采集训练数据,不符合法律规定。因此,谷歌将在后续采取一些措施,防止未经授权的内容被采集使用。



作为采集数据的重要入口,搜索引擎的价值无用质疑。谷歌的这番举动,无疑是掐住了OpenAI的脖子。当然这事并不像表面说辞这般简单,其必定涉及到两家在大模型开发上的商业竞争。谷歌的Gemini一直被当作ChatGPT的重要竞争对手,两家公司也一直是摩擦不断。

OpenAI获取训练数据主要有哪些来源呢?



从目前其收集数据的渠道来看,主要分为五类,分别为:互联网内容、纸质资料、学术论文、社媒数据以及专业公开数据。显然,最为直接高效的方式就是从互联网上采集内容。其不仅内容量更多,数据形式也更加多种多样,有利于模型进行多模态学习,提升开发效率。



不难看出,限制OpenAI对YouTube视频内容的采集,将对其研发工作产生较多影响。但如果从用户数据安全的角度而言,谷歌这番举动也确实是在保障网络安全。为了提升模型开发速度,不少公司的数据采集方式都十分粗放且无序,大大增加了隐私信息泄露的风险。


如何平衡AI开发的数据采集要求与信息安全,仍旧需要监管框架进一步完善。AI发展所带来的影响已经不止是在技术层面,它对社会发展也带来了诸多影响,值得我们更加关注。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1