在生成式人工智能和大语言模型兴起的背后,高质量的训练数据发挥了关键作用。
为更好地提高人工智能模型生成内容的准确性和价值度,包括 OpenAI 在内的人工智能公司往往通过网络爬虫的方式收集数据,以训练其开发的模型并为聊天机器人提供内容素材。
(来源:AI 生成)
例如,OpenAI 于 2023 年发布了“GPTBot 爬虫”,称它会基于该爬虫爬取的网络数据,来推动今后的模型开发。不仅如此,该公司也分享了指导网站如何完全或部分禁止爬虫的方法。
图丨禁止 GPTBot 访问网站(来源:OpenAI 官网)
与此同时,多家美国知名网站开始禁止来自 OpenAI 和其他公司的人工智能网络爬虫。
直到今年 1 月中旬,人工智能检测初创公司 Originality AI 在 44 个领先的新闻网站上进行了数据搜集,发现目前几乎所有的网站都屏蔽了人工智能网络爬虫,包括《纽约时报》《华盛顿邮报》《卫报》等报纸。
然而,一个有意思的现象是,在接受调查的美国知名右翼新闻媒体中,如福克斯新闻、每日传讯和布赖特巴特新闻网等,没有任何一家媒体做出阻止人工智能网络爬虫的行动。
虽然大多数右翼网站尚未对此事发表公开评论,但相关领域的从业人员却基于该现象做出了一些不同的猜测。
其中,这或许是右翼媒体用来对抗感知政治偏见的策略,是一种获得诸多认可的猜测。
“人工智能模型反映了其训练数据的偏见。”Originality AI 创始人兼 CEO 乔恩·吉勒姆(Jon Gillham)对媒体表示,“如果整个偏左的内容都被屏蔽了,你可以说,来这里‘吃掉’我们所有偏右的内容吧。”
事实上,人工智能产生偏见的情况的确存在。
据了解,在最近一次关于人工智能的听证会上,共和党籍参议员玛莎·布莱克本(Marsha Blackburn)用一首由人工智能生成的赞美拜登总统的诗歌作为证据,指出用 ChatGPT 无法生成类似的对特朗普的颂歌。
基于美国保守派领导人对 ChatGPT 和其他人工智能工具表现出自由主义或左倾政治偏见的担忧,右翼媒体有理由将自由派同行阻止人工智能网络爬虫的决定,视为促进意识形态平衡的独特机会。
不过,在美国加利福尼亚大学洛杉矶分校的人工智能伦理研究员杰里米·鲍姆(Jeremy Baum)看来,右翼媒体允许人工智能网络爬虫搜集数据的行为,并不能对人工智能系统的内容输出产生可衡量的影响。
部分原因在于,当媒体开始禁止人工智能网络爬虫之前,人工智能公司已经从中收集了大量的资料,并且往往倾向于雇佣具有自由主义倾向的员工。
另外,大多数人工智能公司的目标都是创建价值中立的系统。如果控制人工智能的开发者看到右翼内容有所增加,但通过判断其不安全或错误,他们可能会撤销任何向机器提供某种观点的尝试。
正如 OpenAI 发言人凯拉·伍德(Kayla Wood)所说,“为了追求能够深刻体现所有文化、行业、意识形态和语言的人工智能模型,公司使用了广泛的训练数据集。
任何一个新闻网站只是整个训练数据的一小部分,不会对模型的预期学习和输出产生可衡量的影响”。
除了上述猜测,有关人士认为该现象的背后,还可能反映出新闻网站对版权问题的意识形态分歧。
具体来说,大多数主流媒体的管理者都认为这种数据爬取属于“盗窃”。比如,《纽约时报》认为 OpenAI 的数据搜集是非法的,并正在起诉该公司侵犯版权。
但右翼媒体的管理者却未针对版权问题发表意见,他们或许认为用来建立人工智能系统的数据爬取操作,受到合理使用原则的保护。
其实,从技术角度来推测,不管该现象是基于哪些原因产生的,只要有越来越多的网站屏蔽人工智能网络爬虫,开发者就越难找到好的训练数据,对人工智能产品改进和更新的难度也会随之增高。
而在 OpenAI 年营收即将突破 10 亿美元的当下,生成式人工智能的发展前景和对人类社会的重要性可见一斑。
因此,不管是人工智能公司,还是新闻网站,都应该尽可能地在拥抱人工智能和抵制它的发展之间,谋求一种适当的平衡。
参考资料:
https://www.wired.com/story/most-news-sites-block-ai-bots-right-wing-media-welcomes-them/
https://platform.openai.com/docs/gptbot
https://www.linkedin.com/posts/emilprotalinski_most-top-news-sites-block-ai-bots-right-wing-activity-7155945517515001856-v4zf
https://www.axios.com/2023/08/31/major-websites-are-blocking-ai-crawlers-from-accessing-their-content
https://finance.yahoo.com/news/openais-meteoric-rise-1-billion-173545014.html
运营/排版:何晨龙