谷歌是贼,是强盗。
2009年末的寒冬,在美国华盛顿一场论坛上,媒体大亨罗伯特·默多克直言:“有些人觉得他们可以窃取我们的新闻内容,还无需为新闻制作贡献一分钱……他们几乎盗用我们的全部新闻,这可不是合理使用。说得直白些,这就是偷。”
从新闻集团的发言来看,美国报业广告收入腰斩应全部归咎于谷歌的强取豪夺。默多克最亲密的朋友,自2013年担任新闻集团CEO至今的澳大利亚人罗伯特·汤姆森,把谷歌称作“盗版平台”(platform of pirate),其中pirate既可以表示盗版者,也有海盗的意思。直到2021年,谷歌才终于和新闻集团达成合作协议。
从互联网时代开始的谷歌与一众媒体的纠纷持续至今,引得多国政府亲自下场立法,要求谷歌为本国媒体“掏钱”;十年前的移动互联网时代中,自称为“新闻搬运工”的今日头条也曾与国内媒体对簿公堂。如今到了生成式AI时代,以OpenAI为代表的AI大模型与媒体的纠纷,让内容创作者与技术催生的新渠道在21世纪的第三个十年,打响了第三次大战。
去年年末,《纽约时报》向OpenAI发起一场声势浩大的版权诉讼,索赔金额高达数十亿美元。作为全球付费新闻的王者,该媒体指控后者偷窃了《纽约时报》的内容训练数据,甚至原封不动把本应付费才能阅读的内容提供给用户。
这场诉讼暂无结果,但OpenAI并没有闲着。
不到半年,从与《金融时报》携手,到与新闻集团的重量级联姻,OpenAI已逐步铺开自己的媒体联盟。5月29日,OpenAI宣布将与世界报业和新闻出版协会(WAN-IFRA)合作,帮助各大新闻编辑室跟踪其对人工智能的采用和实施,以便提高效率并创造高质量的内容。声明中没有涉及内容版权合作,但处处写满了这一点。
OpenAI成为平台方和内容行业主导者的野心昭然若揭。
十年前怒斥谷歌的汤姆森,如今却对OpenAI不吝溢美之词:“我们很高兴能找到萨姆·奥尔特曼这样有原则的合作伙伴,以及他值得信赖、才华横溢的团队,他们了解记者和新闻业的商业和社会意义。”
与过往的版权争议相比,这次媒体和OpenAI达成合作的速度、内容的使用形式、资讯摄取的隐忧,都在发生变化。
但行业局势逐渐明朗:无论是否合法,OpenAI都一定会使用包括媒体在内的创作者提供的内容来训练模型并提供回答,而后者最好尽早排队和OpenAI谈一个合作的好价钱。刚刚开始的第三次大战,OpenAI几乎已经不战而胜。
唯一不变的是:天下熙熙、皆为利来,天下攘攘、皆为利往。
依靠各自披露的不同细节,AI大模型企业与内容出版商的合作雏形已现。
5月下旬,OpenAI与新闻集团签署为期五年,价值超过2.5亿美元的合同。OpenAI可以访问新闻集团旗下媒体过去数十年的历史内容,包括《华尔街日报》《巴伦周刊》《泰晤士报》《每日电讯报》等英美澳主流媒体。
OpenAI与新闻集团合作,图片来源:OpenAI
实际的呈现形式,可能就像英国《金融时报》在OpenAI合作协议中披露的那样:ChatGPT用户可以看到该媒体文章的摘要、引述和链接。尚不清楚该协议是否仅包括资讯内容,还是也包括观点类内容。
OpenAI曾表示,该公司会持续与“精心挑选的高质量内容伙伴”合作,但没有披露入选标准。值得一提的是,OpenAI尚未和默多克媒体帝国中的另一大集团——福克斯新闻签署合作。
同时,大多数合作媒体都表示,获取OpenAI的相关技术用于自己的网站上。5月29日新晋达成合作的《大西洋月刊》表示,它正在创建一个名为“大西洋实验室”的“实验性网站”,该网站将试点OpenAI的技术,帮助这家媒体实现用AI推动产品功能开发。
在这场合作潮中,OpenAI的伙伴名单日益扩充,几乎都是各国首屈一指的媒体集团。除上文提到的,还有去年7月就签署合作的美联社、法国《世界报》、西班牙《国家报》所属的Prisa Media、德国《图片报》所属的Axel Springer,不一而足。
悉尼大学高级研究员罗布·尼科尔斯(Rob Nicholls)对「甲子光年」表示,单纯复制媒体内容的AI模型,只是帮助用户降低浏览付费内容的成本而已,这不是它最大的价值。OpenAI达成这些交易的主要目标是加强自身内容输出的权威性,但这不意味着它的内容必须是最新的。
“(与媒体集团的)交易很可能主要是为了它们的历史档案。OpenAI认识到过去的新闻具有作为历史记录的权威性,尽管它们作为新闻本身的价值较低。”尼科尔斯说。
然而交易的另一方透露了些许无奈。
“与所有人达成协议符合我的利益,”《世界报》首席执行官路易·达孚(Louis Dreyfus)在接受采访时表示,“如果没有协议,他们还是会或多或少地使用我们的内容,而我们不会得到任何好处。”
这或许证明,默多克的话也有一定道理。
但OpenAI可能也觉得自己是被迫使用版权内容的。它在2023年底提交给英国上议院的文件中表示:“把训练数据限制在一个多世纪前创作的公版书籍和绘画中,不能训练出符合当今公民需求的人工智能系统”。
眼前的局面很符合英语里说的“marriage of convenience”——便利的婚姻,出于利益而非你情我愿的结合。
墨尔本皇家理工学院媒体与传播学系高级讲师T·J·汤普森( T J Thomson)对「甲子光年」表示,如果平台方受益于人类的劳动、创造力或他人的表达,那么补偿他们的劳动和表达是公平的。但当科技巨头与媒体公司达成协议时,通常只有那些最大的、利润最高的媒体公司才能受益。谈判桌上没有席位留给中小媒体机构,随着大公司的壮大,它们被远远甩在了后面。
据The Information报道,与注入新闻集团的巨资相比,OpenAI给一些新闻机构只开出100万美元的报价。
即便如此,许多内容出版商还是排队从OpenAI或类似的公司那里拿钱。
没有拿到合同的大媒体还在释放诚意,比如《华盛顿邮报》首席执行官威廉·刘易斯 (William Lewis) 忙着隔空喊话:“我们正在寻求重要的人工智能合作伙伴关系”。但他又不忘强调:“无论如何,我们必须为迄今为止被拿走的一切获得报酬。”
值得一提的是,《华盛顿邮报》的老板明明就是以个人身份收购这家媒体的亚马逊创始人贝佐斯——当然也有人嘲讽说,亚马逊根本没有走进这一轮AI浪潮。
另一方面,总有人不想和他们心中贪婪的野兽做交易。
在圣诞节和新年假期的夹缝中,曼哈顿联邦地区法院于2023年12月27日受理了《纽约时报》对微软和OpenAI提起的诉讼。
在起诉书中,《纽约时报》指责OpenAI在训练其生成式AI工具(如GPT)时,特别重视《纽约时报》的内容。如下图所示,ChatGPT和微软的Copilot等AI产品经常按照用户的提示原封不动地呈现《纽约时报》文章的第一大段,第二大段等等。并且在多数情况下它不会给原链接,从而剥夺了内容出版商的广告收入和读者流量。
图片来源:《纽约时报》的起诉书
美国Alden Global Capital旗下八家知名地方报纸也出于同样的原因向OpenAI发起诉讼。它和《纽约时报》一样没有说明具体的索赔金额。
而微软在回应中,自认为是推动社会进步的技术掌控者。它引用了1982年时任美国电影协会主席的杰克·瓦伦蒂 (Jack Valenti) 的言论,当时他警告国会说,磁带录像机(VCR)将对电影业造成巨大冲击,因为“录像机对美国电影制片人和美国公众的风险,和杀死多名独居女性的波士顿连环杀手对独居女性造成的风险”一样多。
因此,微软认为《纽约时报》正在利用其影响力拦截大模型这一重大技术进步。版权法不应成为阻碍AI模型发展的绊脚石,正如它不会阻拦录像机、复印机、个人电脑或互联网的发展一样。
与此同时,OpenAI并不满足于获取媒体内容。《纽约时报》报道指出,OpenAI曾使用超过一百万小时的YouTube视频转录来训练GPT-4,随即引发YouTube及母公司谷歌的强烈反弹。
一些艺术家也表示,自己的图像或作品被用作训练数据,女演员斯嘉丽·约翰逊则指责OpenAI根据她自己的声音创建了AI语音助手,尽管她曾拒绝为该公司的新产品提供声音。
康奈尔大学数字与信息法教授詹姆斯·格里梅尔曼(James Grimmelmann)对「甲子光年」指出,刻意模仿某个人的声音或风格可能侵犯美国法律的公开权(the right of publicity),即有关个人形象用于商业用途的权利。此外,产品的营销话术也很关键。OpenAI与斯嘉丽·约翰逊的纠纷会很麻烦,因为该公司已经公开表示语音助手功能受到了这位女演员用声音出演的电影《她》的启发。
当然,格里梅尔曼还提到,对于一些艺术家来说,这不仅是经济纠纷,还关乎他们的人性与尊重。“他们不仅仅想要补偿;他们还希望得到点头的权利和信任。” 并且有些创作者纯粹是在伦理道德上就反对生成式人工智能。而《纽约时报》的诉求很明确,它认为自己正在遭遇不正当竞争,希望通过谈判达成协议并获得补偿。
尼科尔斯指出,除了文本之外,大型语言模型非常擅长基于较短(不到一小时)的语音材料的声音训练并模仿。提供声音的演员面临的问题之一可能是,制作公司可能在早期的合同里写入了允许其使用声音训练的条款。所以一些纠纷可能发生在创作者和之前的合同雇主之间,而非他们直接控诉OpenAI。
AI大模型对版权的使用也的确存在法律上的模糊地带。OpenAI可以提出的辩护理由是美国1976年版权法第107条规定的“合理使用”(fair use)。中国的著作权法中也有类似的概念,植根于有关版权保护的《伯尔尼公约》。但欧盟和澳大利亚等地没有“合理使用”的规定。
格里梅尔曼表示,根据美国法律,谷歌与OpenAI所称的“合理使用”并没有异议。然而,合理使用的先例不涉及生成式人工智能,而且AI模型还会利用互联网素材生成新的表达,这会对他们借用“合理使用”的概念造成不利。
如果OpenAI足够了解十年前国内发生的版权大战,它会不会也考虑把自己定位为中立的新闻搬运工呢?
2012年8月,今日头条App上线,其以算法推荐内容作为主要特色。时代证明,张一鸣踩中了大家想要的。
不到两年时间,今日头条累计下载用户过亿,月活用户4000万。2014年6月初,当时还以今日头条指代整个公司品牌的字节跳动高调宣布完成C轮融资,金额达1亿美元,市场估值超过5亿美元。
喜讯从天而降之时,那些被利用的角色拍桌而起。
几乎和融资消息公布同步,拥有《广州日报》信息网络传播权的广州交互式信息网络有限公司以侵犯著作权为由将字节跳动告上法庭,理由是今日头条客户端会抓取包括《广州日报》在内的其他媒体的原创新闻,然后进行整理、归类、排行,最终推出“二次加工”新闻。北京海淀法院在2014年6月4日公开审理此案。
南方的媒体也得到了北方同行的大力应援。《新京报》在2014年6月5日发表社论文章控诉今日头条侵权,讽刺对方利用了中国“窃书不算偷”的思想,误导中国的版权保护之路。
当年6月13日在北京举行的网络媒体作品使用版权问题座谈会上,《广州日报》副总编辑谢奕感触良多:“对于个别移动客户端未经授权便转载信息的做法,我们采取了积极谈判的方式,然而由于彼此对于版权的理解不同,我们只好对某些不能达成一致意见的移动客户端采取了司法手段。”
这场座谈会没有流出今日头条方面的发言。但座谈会主办方代表,中国版权协会常务副理事长王国庆、副理事长邹建华表现出促和的态度。他们指出,传统媒体在法律框架下充分维权,让传统媒体与新媒体合作共赢,才是行业的共同目标。
即便没有座谈会上的鼓励,据刺猬公社报道,今日头条仅在2014年6月6日至7日,就收到了20多家媒体的合作申请,身后还有一百多家传统媒体机构主动申请加入今日头条媒体平台。
开庭仅两周后,今日头条与《广州日报》在2014年6月18日签署合作协议,后者已正式申请撤诉。
截至2017年11月与《华西都市报》达成合作时,今日头条旗下产品总日活用户超过1亿,也与约1万家媒体达成版权合作。今日头条每年在内容建设方面投入达15亿元。
而把报纸上最重要的位置留给控诉今日头条四年后,《新京报》在2018年10月推出了自己的App。时任新京报社长的宋甘澍表示,这是一个让传统媒体“窘迫”的时代,App“内容是新京报的,技术是今日头条的”。
一贯强调今日头条不是一家媒体公司,而是一家技术公司的张一鸣,也作为嘉宾出现在《新京报》这场发布会的现场。
但今日头条仍然在之后的许多年里输掉许多版权官司。例如2015年,《现代快报》因今日头条未经授权转载现代快报4篇稿件起诉后者,最终字节跳动在2018年被判赔偿经济损失10万元及相关合理费用1.01万元;
近期多篇稿件刷屏的自媒体博主何加盐在2021年曾因同样的理由起诉今日头条,获赔3200元。他指出自己获胜的核心理由是:今日头条并不是一个简单的“信息存储空间”。他的文章由字节跳动经过“筛选”后再“分发”到今日头条平台的不同板块,意味着它应该在此过程中对分发内容是否侵权承担更高的注意义务。第二,今日头条把内容分发到不同板块,是能从中获得相关收益的。
然而,和内容创作者消耗的时间精力与成本相比,获赔金额似乎不值一提。
什么才是合理的成本?
随着媒体陷入经济困境,他们的谈判地位愈发卑微。
据The Verge在2015年援引谷歌前员工表示:“如果谷歌说,下个礼拜二开始你的网站主页必须改成亮粉色,才能在谷歌搜索结果里显示出来,每个人都会这样做,因为这是活下来的必要条件。”
但欧洲经济政策研究中心(CEPR)2024年1月的一篇文章估计,谷歌这样的技术平台每年应向内容平台支付119亿美元至139亿美元。文章作者研究认为,谷歌和Facebook的广告收入飙升,而传统媒体的广告收入却在下降。越来越多用户通过社交媒体获取新闻,这是谷歌和Facebook都承认的事实;同时报纸应该感谢大型科技平台为自己的内容带来流量。
因此,基于“经济互补性”理论。大型科技平台和新闻内容创作者提供了“互补服务”,意味着它们合作创造的经济价值比各自单独运营的收益要大。计算经济价值总量后,研究者认为大部分收益应归给科技平台,新闻出版商只占一小部分。即便如此,对比实际的情况,像谷歌这样的科技公司每年还是应该多付媒体几十亿美元。
面对平台方的强势,政府也下场了。
2019年,欧盟通过的《数字化单一市场版权指令》第11条赋予了新闻出版机构“与著作权相关的邻接权”,他们有权向互联网平台展示的新闻出版内容(包括链接、标题和具体内容等)索取费用。法国多家媒体随即向政府投诉谷歌。2021年,法国竞争管理局向谷歌开出5亿欧元的罚单;次年谷歌放弃上诉,与媒体达成和解协议。
谷歌在公司声明中表示:“我们对(法国2021年的)这一决定非常失望——我们在整个过程中都是本着善意行事的。”
虽然早前也和法国媒体有过协议,但法国竞争管理局负责人伊莎贝尔·德席尔瓦 (Isabelle de Silva) 当时表示,谷歌给的版权费是“微不足道”的,这家科技巨头为新闻内容支付的费用和给天气预报资讯的差不多水平。
在人工智能带来的新业态下,谷歌在5月表示会向用户提供生成式AI驱动的搜索引擎。
格里梅尔曼对「甲子光年」表示,谷歌也想赶上OpenAI的步伐,开发自己的模型。但由于之前犯过几个非常尴尬的错误,人们对它面向消费者能否提供好的产品有质疑,OpenAI把大模型转化为消费者产品这方面要做得更好。
于是急火攻心的谷歌也抓取了新闻机构的内容——并且又被法国发现了。2024年3月,法国竞争管理局又向谷歌罚款2.5亿欧元,因为它未经媒体同意就擅自抓取内容训练自己的聊天机器人,违反了欧盟知识产权相关规定。
“随着时间的推移,人们越来越清楚,没有什么特别神奇的秘密;任何在足够多的数据上训练类似架构的人都可以从中获得相当好的产品模式,”格里梅尔曼说道。
OpenAI从未否认高质量内容对训练大模型的必要性。
为了更好地协调与内容创作者的关系,OpenAI在5月表示正在开发“媒体管理器”,计划于2025年投入使用。它将允许创作者和内容所有者向OpenAI识别他们的作品,并选择将自己的作品纳入数据训练或排除在外。
在那之前,汤普森对「甲子光年」表示,创作者可以用“数据投毒(Data Poisoning)”的方式,即内容可以在不被察觉的情况下做出改动的方式反击人工智能的盗窃,迷惑那些想要偷数据的AI模型。比如Nightshade之类的AI工具已经可以通过改变像素在图片上做到这一点。
与其被媒体“偷袭”,不如握手言和。
但最难解决的还是利益分配问题。格里梅尔曼指出,支付补偿的困难在于,一个AI模型基于这么多不同的内容作品训练,很难弄清楚谁有权获得多少份额。
对于用户来说,格里梅尔曼认为,大模型提供的新闻摘要可能会取代大多数原创新闻,而大模型自己经过训练并总结的新闻资讯也可能出现错误,所以会带来很大风险。在这些情况下,最有可能被追究责任的就是作为平台的OpenAI,因为它直接向用户传递了有害信息。
汤普森指出,长远来看,在媒体与科技公司加强内容共享后,仍需要关注具体共享的内容类型,尤其是新闻网站上的资讯内容和观点内容可能南辕北辙,但如果这两者都被用于训练AI模型,内容输出的质量,准确性和有效性都会受到影响,“它反映了谁的价值观和意识形态,这会如何在人工智能的输出中无形地体现出来?”
因此汤普森认为,一种理想的方式是保持“人的在场”,也就是在输出前有人监督AI模型从输入到输出的准确性。
另一方面,对于把OpenAI的技术应用于产品的媒体来说,尼科尔斯认为,内容出版商要为所有自己发布的内容负责,没有理由说“是我的人工智能让我这么写的”。这种责任制会让媒体更谨慎地使用AI,“幻觉”不是出版商可以采用的辩护理由。
“抛开点击率不谈,目前人工智能制作的新闻质量与记者制作的新闻质量没有可比性。虽然生成式人工智能可以帮助增强记者的工作,例如帮助他们整理大量内容,但如果我们开始将其视为替代品,我们会损失惨重,”尼科尔斯说。
传播学鼻祖麦克卢汉曾提出:“每一种旧媒介都是另一种新媒介的内容”,新媒介的出现不会完全取代旧媒介,而是将旧媒介作为其内容的一部分。 所以也可以认为,无论是谷歌、今日头条,还是如今的OpenAI,他们都不可避免地成为了媒介的媒介。
OpenAI首席运营官布拉德·莱特卡普 (Brad Lightcap) 表示,对于公司来说,“在这些产品成型的过程中展现高质量的新闻报道”非常重要,并且“与任何变革性技术一样,它既有可能取得重大进步,也有可能面临重大挑战,但绝不可能让时光倒流。”
这不禁让人想到一个问题:一百年后,人们会记得OpenAI还是《纽约时报》?
本文来自微信公众号“甲子光年”(ID:jazzyear),作者:田思奇,编辑:王博,36氪经授权发布。