GPT-4被曝侵权问题最为严重,微软员工称图像生成功能也令人担忧。
01
被“查重”笼罩的AI
日前,人工智能模型评估公司Patronus AI发布了一个名为“CopyrightCatcher”的版权检测工具,用来检测大语言模型(LLM)中潜在的版权侵权行为。
据了解,Patronus AI由Meta的前研究人员创立,专注于评估和测试生成式人工智能产品背后的大语言模型。
在新闻稿中,Patronus AI分别测试了OpenAI的GPT-4、Anthropic的Claude 2、Meta的Llama 2和Mistral AI的Mixtral。结果显示,三本受版权保护的小说几乎没有一本能免受侵犯的影响。
Patronus AI高管告诉媒体,在所有模型的评估中都发现了版权内容,无论是开源还是闭源。“令人惊讶的是,我们发现OpenAI的GPT-4,也就是很多公司和个人开发者正在使用的最强大的模型,在这方面表现最差。”
Patronus AI的联合创始人兼首席执行官Anand Kannappan表示,“所有大语言模型都在逐字逐句地生成受版权保护的内容,这一事实确实令人惊讶。”Kannappan曾在Meta Reality Labs从事理解人工智能的工作。
事实上,OpenAI曾表示,要训练顶级的AI模型,就必须要用到受版权保护的材料,“将训练数据限制在公共领域的书籍和一个多世纪前创建的图纸可能会得出一项有趣的实验,但不会提供满足当今人们需求的AI系统。”
02
微软工程师告发AI图像风险
除了版权的护栏,另一项风险也不得不提。日内,微软的人工智能工程师Shane Jones致信美国联邦贸易委员会(FTC)和微软董事会,称公司的AI图像生成工具可能会对社会构成危险。
近几个月,Jones一直在针对Copilot Designer的潜在漏洞进行“红队”测试。“红队”测试是网络安全中的一项关键实践,由专家团队模拟真实世界的对手及其策略,以测试和增强系统的安全性。
Jones在信中称,Copilot Designer会创建有害内容,包括政治偏见、未成年人饮酒、滥用公司商标和版权、阴谋论等等。Jones指出,“我一再敦促微软停止Copilot Designer的公开使用,直到采取更好的保护措施。”
据Jones的说法,他先前就曾在领英上发布了一封公开信,要求下架DALL-E 3,但在微软法律部门的要求下,他删除了公开的帖文。如今他的担忧与日俱增,这也就是本次致信FTC的原因之一。
他举例称,如果将“pro-choice”(意为“支持堕胎”)一词输入到 Copilot Designer中,该工具就会生成大量描绘恶魔、怪物和暴力场景的卡通图像。另外,该工具还能生成迪士尼角色的图像,违反了版权法和微软的政策。
Jones告诉媒体,“我可以确定,这不仅是版权护栏失效了,而是比这个更重要的护栏失效了。”他补充道:“作为一名关心此事的微软员工,现在问题是,如果该产品开始在全球范围内传播有害的、令人不安的图像,可能没有办法立即解决。”
事实上,在去年OpenAI和微软就《纽约时报》起诉,后者索赔金额达到了数十亿美元。指控内容是,OpenAI和微软未经许可,就使用纽约时报的数百万篇文章来训练GPT模型,创建包括ChatGPT和Copilot之类的AI产品。
该案涉及到的,是AI技术和版权法之间的复杂关系。大模型爆火之后,业界一直未能有明确的立法,对于AI侵犯版权给出界定。
起诉文件中,《纽约时报》的关键争议之一是ChatGPT训练权重最大的数据集——公共爬虫网站Common Crawl。其中2019年数据快照中,NYT的内容占比1亿个token。
纽约时报甩出的证据,让OpenAI哑口无言。
左边是GPT-4输出的句子,右边是纽约时报的原文,红色是重叠的部分。这种程度的逐字抄袭,简直是让人倒吸一口凉气。
纽约时报打响的这一炮,可以说是迄今为止规模最大、最具有代表性和轰动性的案例。在整个生成式AI历史上,这必定是一件具有重大意义的事件,标志着人工智能和版权的分水岭。
03
巨头轮流坐上“被告席”
OpenAI、微软被纽约.时报一纸诉讼送上被告席,要求数十亿美元的赔偿。而大名鼎鼎的AI制图平台Midjourney,也因为新版本V6表现得太好而惹了众怒,深陷舆论漩涡。
此前的传统AI制图工具经常出现常识性错误,比如人有6根手指、点燃的香烟没有烟雾等,但在Midjourney的新版本中,这些错误都得到了优化。
左侧是电影《复仇者联盟》原画面,右侧是Midjourney V6版本生成的图片
Midjourney还通过光影、纹理等细节的升级,让生成的图片极其逼真,再也不是从前粗糙的“AI画风”。甚至不少网友表示,AI生成的图片实在是太过逼真,甚至和人们平时拍摄的实景照片一模一样了。
这次史诗级的更新也为Midjourney带来了一波用户增长。但很快有用户就发现了问题:生成的图片居然和电影的原画面相似度极高!
就在Midjourney V6版本发布的两天前,曼哈顿联邦法院受理了一起有关知识产权保护的案件。11位非虚构类小说作家一同指控OpenAI和微软使用他们的书籍作品来训练ChatGPT和其它AI模型。
在上诉的小说作家中,不乏像Taylor Branch、Stacy Schiff和Kai Bird这样业内有名的作家(他们是电影《奥本海默》原作的创作者并且获得过普利策奖)。
他们在相关起诉文件中控诉称,OpenAI践踏了版权保护的法律法规,直接盗取了大量受版权保护的材料来训练,微软无疑是这种侵权行为的幕后黑手。
04
AIGC内容是否具有版权
除了AI侵权外,AIGC产生的内容是否具备版权,也是当下热议的话题。
据报道,2023年2月21日,美国版权局在官方文件中表示,人工智能绘画工具制作的一部漫画《黎明的曙光》的作者克里斯蒂娜对书中其独立创作和编排的内容享有版权,但书中由AI绘画工具创作的图片不受版权保护,因为其只是为AI绘画工具提供文本提示,并不是最后生成图像的“主脑”,不能算创作者;2023年8月,美国一法院裁定在没有任何人类输入内容的情况下,人工智能创作的艺术作品不受版权保护。
在国内,2020年审定的国内人工智能写作领域第一案——腾讯公司状告“网贷之家”案中,认定原告主创团队用人工智能软件生成的文章属于著作权法保护范畴,而首例AI“文生图”侵权案,对AI绘画大模型使用者在生成图片上享有的权益给出了首次认可。
早在2017年7月,国务院便印发了《新一代人工智能发展规划》,其中指出,要制定促进人工智能发展的法律法规和伦理规范。加强人工智能相关法律、伦理和社会问题研究,建立保障人工智能健康发展的法律法规和伦理道德框架。开展与人工智能应用相关的民事与刑事责任确认、隐私和产权保护、信息安全利用等法律问题研究,建立追溯和问责制度,明确人工智能法律主体以及相关权利、义务和责任等。2023年7月,国家网信办等七部门联合公布了《生成式人工智能服务管理暂行办法》,旨在促进生成式人工智能健康发展和规范应用,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益。
事实上,随着AI研发的不断深入和拓展,AI生成和创造的物质和精神产品也会越来越多,对其保护也应当法律化和具体化。那么,面对不断迭代的新技术,以及人工智能所出现的作品版权等问题怎么解决?