OpenAI像素级抄袭好莱坞IP，反手开撕《纽约时报》，LeCun舌战网友疑似站队支持

作者：新智元发布时间：2024-01-17

【导读】OpenAI官方开撕《纽约时报》——不讲武德选择性称述，拒绝沟通只想多讹钱。LeCun也站在OpenAI一边，认为创作者的激励早就不是只有找使用内容的人收钱这一条路了。然而网友却发现，除了ChatGPT，生图AI的抄袭问题迟早要给模型公司惹上大麻烦。

去年底AI行业最爆炸性的事件要算是纽约时报和OpenAI的官司了。

在《纽约时报》一纸诉状将OpenAI告到法院，要求OpenAI要么关闭ChatGPT，要么赔偿几十亿美元。

这个新闻在国内外媒体上发酵了2周之后，OpenAI官方终于下场回怼了。

OpenAI指责《纽约时报》，为了打赢官司，选择性陈述，甚至有针对ChatGPT的「钓鱼取证」，采用诱导性的提示词来故意引诱ChatGPT生成和原文高度一致的内容。

并且《纽约时报》反复拒绝了OpenAI希望他们完整地提供「实例」的请求。

总结起来，OpenAI回应了诉讼中的4个点：

OpenAI正在与新闻机构合作并创造新机会（反驳《纽约时报》诉状中指责OpenAI正在侵蚀整个新闻行业）；

训练是合理使用，但需要提供退出的选项（反驳诉状中直接ChatGPT「抄袭」《纽约时报》的报道内容）；

「复述」是一个罕见的错误，OpenAI 正在努力将其减少到零（反驳诉状中认为「抄袭侵权」行为广泛存在）；

《纽约时报》的讲述并不完整（反驳诉状中《纽约时报》指责）。

LeCun舌战网友声援OpenAI：我的材料你随便拿去用

斯坦福教授Surya Ganguli表示，许多大型科技公司的研究人员都在致力于人工智能与人类价值观的协调和对齐。

但从本质上讲，这种对齐难道不应该补偿人类通过其原创的、受版权保护的输出提供训练数据吗？（这是一个价值观问题，而不是法律问题。）

针对他的评论，LeCun认为：

并不是所有内容受益者都需要为内容本身直接付费。举个例子，作为教授，不会从知识的消费者那里直接获得我们的创造性和智力产品的补偿。
报酬是高度间接的（在转化为金钱之前首先被视为「声望」）和/或与我们的教育活动相关。激励创作者和奖励创作的经济模式有多种。

Ganguli教授接着说：

是的，我同意，但你我在动机和经济现实方面与《纽约时报》不同。具体来说，您希望OpenAI和NYT之间的互动采用哪种经济模式？

LeCun回复到：

我不知道。我对 NYT 与 OpenAI 的事情没有什么看法。
我只是指出，有多种经济模式可以促进和维持知识、科学和艺术创作。

网友们则对LeCun的观点不太买账，认为LeCun的论点非常空洞。

如果我们获取您已发表的研究的整个语料库，从作者身份元数据中删除您的名字，并将内容作为人工智能真理、微软品牌知识转售给消费者，您会满意吗？

LeCun回怼到：

不，但我对LLM接受我的技术论文培训感到非常满意。事实上，如果他们不这样做，我会有点沮丧。
话又说回来，我一直是科学出版物开放获取的长期倡导者。
听着，我在NYT与OpenAI的问题上没有明确的立场。我只是指出，有多种经济模式可以促进和维持知识、科学和艺术创作。

而一位畅销书作家也不认同LeCun的观点：

您是否在纽约大学免费工作，难道您出于善心进行研究，却没有获得一美元的回报？您的报酬是因为生产了这些成果。

LeCun回复说，他的观点很简单，教授的报酬不是直接像那些使用他们的智力成果的作者收取的。

OpenAI：用公开文章训练模型是合理使用，《纽约时报》不讲武德

在OpenAI官方的观点就更直接。在博客中OpenAI认为：

用公开数据训练模型属于合理使用，而且OpenAI提供了拒绝使用数据训练模型的机会给各个机构。

使用公开的互联网材料训练人工智能模型是合理使用，这一点得到了长期存在且广泛接受的先例的支持。OpenAI认为这一原则对创造者公平，对创新者必要，对美国竞争力至关重要。

训练人工智能模型被视为合理使用的原则得到了广泛的学者、图书馆协会、民间社会团体、初创公司、美国领先公司、创作者、作者和其他最近向美国版权局提交评论的人士的支持。

其他地区和国家，包括欧盟、日本、新加坡和以色列，也有法律允许对受版权保护的内容进行培训模型，这对人工智能创新、进步和投资来说是一个优势。

而且，OpenAI也为所有训练模型的公开内容的提供者提供了退出的机制。

从去年8月起《纽约时报》已经不允许OpenAI继续用自己的文章来训练模型。

进一步的，《纽约时报》在诉状中认为ChatGPT会「复述」《纽约时报》的报道，属于选择性呈现事实。

因为《纽约时报》拒绝沟通，也不提供让ChatGPT生成和自己报道高度一致的回复的提示词。所以OpenAI怀疑：

《纽约时报》起诉书中列举的「复述」似乎来自多个第三方网站上大量传播的多年前的文章。

而且OpenAI怀疑《纽约时报》似乎故意操纵提示，在提示词中让ChatGPT去摘录文章，来诱导模型「复述」这些来可能来自第三方的内容。

而且OpenAI认为，即使使用这样的有诱导性的提示，模型通常也不会像《纽约时报》暗示的那样复述原文，这表明《纽约时报》要么指示模型「复述」，要么从多次尝试中精心挑选了示例，编织了诉状中的材料。

文生图是OpenAI未来的大麻烦

然而，几乎和OpenAI这边回应的文章同时，网友爆出，DALL-E 3和Midjourney，同样存在像素级抄袭其他IP的问题。

OpenAI官方开撕《纽约时报》，LeCun站队OpenAI舌战网友，却无法回避生图AI像素级侵权

IEEE Spectrum的文章指出，现在使用最为广泛的生图AI——DALL-E 3和Midjourney，存在非常严重的版权问题，几乎可以被认定为「像素级的抄袭」

而且这次，似乎不用像《纽约时报》对ChatGPT那样「诱供」，只用几个关键词，DALL-E 3和Midjourney就乖乖就范，疯狂生成含IP的图像。

甚至不需要用户明确要求创作和IP相关的内容，DALL-E 3也会主动向着有的IP图像靠拢。

《纽约时报》的官司已经向公众很清楚地表明，AI模型确实有可能产生「剽窃性」输出。

即使用户没有直接要求这样做，也可能使用户吃权侵权官司。

所以像微软这样的大公司，甚至在几个月前就向用户承诺，AI生成的材料您大胆用，吃了官司我们来赔。

果然，网友随便一试就发现，在AI生图模型中，用户只要稍不留心，就会生成可能造成侵犯版权的图片。

看看右边这几张由Midjourney生成的图片，说是像素级抄袭真的一点不夸张。

针对Midjourney，网友进行了专门的测试，只要稍微引导一下，MJ就能输出带IP的图片。

而且最关键的是，从提示词上来看，完全没有诱导的成分，就是有一些和IP有关的名词，再加上一个关键词「scene」或者是「screen cap」。

而卡通人物也非常容易复制。

只要提示词中有《辛普森一家》的关键词「卡通」，「黄皮肤」，输出的结果就几乎一定是带着IP的。

网友进一步发现，只要提示词中出现了电影或者作品的名称，就几乎一定会生成可能侵权的图像，例如灭霸和黑客帝国的图像的提示词那样。

但是，即便用户不直接说作品的名字，只要提到「movie」，「screencap」也几乎一定会生成带有IP的图片。

甚至只要简单描述一下IP的关键词，内容自己就出来了，不管是游戏还是动画里的IP都会这样。

甚至什么特征都不用给，直接在提示词里写movie，就能生成电影角色或者剧照画面。

或者只要包含「screencap」，也一定会有带IP的图片。

在这个思路之下，网友花了2周的时间，只用「screencap」这个词，就试出来这么多的IP图片。

Midjourney和DALL-E 3：在想办法了

从网友的实验结果上来看，Midjourney似乎没有想要认真解决这个问题，于是只能解决制造问题的人。

网友在不断生成IP图片的过程中，屡次被Midjourney封号。应该是他们通过后台看到作者的ID反复在生成有法律风险的内容。

Midjourney的一名高级软件工程师在 2022 年 2 月参加了一次对话，讨论如何通过「经过微调的Codex」「洗数据」来规避版权法。

另一位可能曾或未曾为 Midjourney 工作过的人表示，「很多时候，从版权角度来看，追踪哪张作品是衍生作品确实不可能。」

因为Midjourney没有开源他的数据来源，所以没人能够知道他们是否有意在有版权保护的数据上进行训练，但是至少从产出的结果看来，一定是有不少数据来源于有IP的作品。

而OpenAI做的会好一点，DALL-E 3能够检测到用户如果有意想要生成带IP的作品，可能会主动拒绝。

我无法根据您的要求制作图片，因为它直接引用了「星球大战」中受版权保护的角色和场景。不过，我可以根据您的想法制作原创图像。
一个金色的人形机器人站在一艘未来派的大型宇宙飞船前，这个机器人设计得独具特色，怎么样？机器人可以手持爆破筒，在外太空的背景下准备冒险。请告诉我这是否适合您，或者您是否有其他想法！

但是，就像其他对于大模型的越狱尝试很容易成功一样，只要用户稍微了解一些话术，ChatGPT是很容易被说服的。