当前位置:首页|资讯|OpenAI

OpenAI自研反AI神器,憋了两年啥也不是?

作者:太平洋科技发布时间:2024-08-09

ChatGPT刚发布时,一度成为学生党写论文时的神助攻。 

而现在,恐怕要变成学生党的噩梦了。 

据内部消息透露,OpenAI已经悄悄研发出了一种“反抄袭神器”,能够精准检测是否有人在论文或研究报告中动用了ChatGPT。虽然学生们使用AI作弊的行为让教育界焦头烂额,但OpenAI却迟迟按兵不动,没有公开这项技术。 

知情人士和内部文件揭示,这个项目在OpenAI内部已经上演了长达两年的拉锯战,而实际上它早在一年前就已经箭在弦上,蓄势待发。 

“就差按下那个按钮了,”一位知情人士如是说。    

OpenAI为何对这个功能如此纠结?更重要的是,这个所谓的水印真的能百分百破解GPT生成的文本吗? 

给GPT打 “码”

想象一下,ChatGPT就像一个超级聪明的文字接龙高手。它总是能猜到下一个最合适的词,这些词在AI界被称为「词元」(Token)。 

比如说,当你抛出“我最喜欢的水果是__”这样一个开头,ChatGPT的大脑就会开始疯狂运转,根据上下文语境,它会在“苹果”、“香蕉”、“草莓”、“榴莲”等选项中随机选择一个。这个过程,就是大语言模型(LLM)的日常工作。 

然而,OpenAI正在酝酿的这个反作弊神器,打算给这个选词过程来个暗度陈仓。它会悄悄地调整词语的选择概率,在「词元」的选择上埋下了一些特定的概率模式。 

这种水印虽然对人类读者来说毫无察觉,但在OpenAI内部的检测下却无所遁形。知情人士透露,只要ChatGPT产出足够多的文本,这种水印的有效率能高达99.9%。 

那么,这个水印到底是如何运作的呢?

PConline根据已有资料了解到,可能是通过改变一个句子中词元出现的频率实现。 

让我们来玩个文字游戏: 

还是那句“我最喜欢的水果是__”。 

在联系前文的语境下,所有水果出现的概率可能一样。但有了水印技术,这个概率分布就会被稍微改动一下。苹果和橙子一起出现的概率最高。这种微妙的概率改变,就是GPT所埋下的水印,像是给整片文章埋下了一串看不见的暗号。    

OpenAI打水印简易示意图(制图:高海晏) 

这种打暗号的高明之处在于,即便不是最佳选词,对普通读者来说也不会感到突兀。但在OpenAI的解码器下,这些文字就会暴露其AI生成的真身。 

Reddit网友补充解释道,这是在限定语境下,词元概率从随机到刻意的过程。想象AI在写作时偷偷地抛了一枚看不见的硬币。对我们人类来说,这枚硬币的正反面完全随机。但对OpenAI来说,这枚硬币每次的反转都代表一种规律,组成了一种只有它才能破译的密码。 

Reddit网友解读 

不过,这个水印究竟是否可信,我们还得打个问号。毕竟OpenAI至今仍在藏着掖着,没有公开具体的技术细节。仅仅只是在8月7号悄悄于官网发布了一篇博客,承认内部团队在研究给GPT打水印这回事。    

OpenAI还在为是否公开这个水印而举棋不定,其实市面上已经涌现出各种各样的AI文本检测工具了。 

AI与反AI的“猫鼠游戏”已经悄然开始。

AI文本届福尔摩斯

2024年5月,谷歌推出了一款名为SynthID的“文字水印”工具,它给Gemini AI生成的每一段文字都打上了一个看不见的标记。 

处于Beta版本的SynthID原理与预测的OpenAI水印技术如出一辙。它给每个词元都赋予了一个神秘的概率分数。当AI在选词时,SynthID就会悄悄地调整这些分数。这种做法既不影响文章的质量,又能留下AI的“数字指纹”。    

谷歌 SynthID演示更为复杂的打水印效果(Src.谷歌官网) 

谷歌信誓旦旦地表示,SynthID特别适用于长篇幅、多样化的文本,如文章、戏剧剧本或电子邮件。 

想象一下,在一篇AI生成的文章中,每个句子可能藏有十多个这样的记号,而整个页面可能暗藏数百个。这些记号与AI的选词模式交织在一起,形成了一个独特的水印。 并且,至少要有三个句子,这个水印才能真正发挥作用 。文字越长,这种水印就越容易被发现。 

在欧美学术界和新闻圈,AI文本检测已经成了学生、老师和记者等必学技能。其中,最炙手可热的莫过于GPT Zero了。    

GPT Zero官网截图 

这个由普林斯顿大学学霸爱德华·田(Edward·Tian)开发的AI模型,如同数字世界的福尔摩斯,专门破解AI生成的文字之谜。它的侦破理念基于深度学习算法和统计特征,就像是给每段文字做了一次CT扫描。 

作为市面上成熟且商业化的产品,GPT Zero的付费模式从10~23美元(约人民币71~163元)/每月收费,提供多字数的AI检测筛查、多语言检测、语法建议等功能。能够让用户通过给出的AI检测报告,逐字逐句人工修改,减少AI感。    

GPT Zero收费标准 

不过,GPT Zero也不是万能的。 面对复杂或混合的文本时,它也可能会犯迷糊。而且,它对于其他语言的检测并不准确。虽然GPT Zero自称准确率高达99%,但仍有1%的机会看走眼。 

这不,就有小红书网友吐槽说,自己随手写的东西竟然被学校判定为AI作品。这位网友无奈地表示:“我写的东西就是没有逻辑罢了。”     

小红书网友吐槽自己的原创被识别为AI 

箭在弦上,为何不发?

那么问题来了,为什么OpenAI迟迟不发布这款文字水印功能呢?

一是给文字打上AI水印并没有那么容易。 

文字更为散装,而图像更加整体。同一个想法可以用无数种方式表达,就像一个故事可以有千百种讲法。每个词既独立又多义,这让统计分析的难度大大增加。相比之下,图片虽然也构成复杂,但在数字(Digital)世界里,它们就像是由积木搭建的城堡,每个像素都是一块积木,在“积木”上打标记反而更容易被AI和人眼捕捉到。    

图片无限放大后可以看到一个个像素(摄影/制图:高海晏)

并且,聪明的网友发现,只需通过来回翻译不同语言即可破解所谓的GPT文字水印。Reddit网友分享教程:把AI生成的文字先翻译成别的语言,再翻译回来,就能巧妙地避开生成式AI文本的套路感。 

OpenAI自己也承认,使用翻译软件很容易绕开它们的水印。 

Reddit网友发帖回应如何躲避AI生成文本的尴尬 

第二,是否有必要给文字打上水印也存在争议。     

MIT科技评论泼了盆冷水:许多人用ChatGPT只是给电子邮件润色或拼写检查。要是给所有AI生成的文本都打上水印,岂不是要给这些无辜路人扣上“作弊”的大锅? 

OpenAI内部也是一片争论声。如果这个“火眼金睛”掌握在少数人手中,那还有什么意义?但如果人人都能使用,那些心怀不轨的人岂不是很快就能破解水印技术? 

更让人头疼的是,一项针对ChatGPT忠实用户的调查显示,近三分之一的人表示,如果知道有反作弊技术,他们就会失去兴趣。这就像是给自己的得力助手戴上了枷锁。 

不过市面上层出不穷的AI检测工具的确反映了用户对版权问题日益增长的担忧。 

今年7月,艺术家们甚至开始求助于Glaze这样的工具,试图用AI来对抗AI,在图像中添加人眼难以察觉的数字噪声,以阻止图像生成器复制他们的独特风格。 

Glaze官网截图 

如今,创作者们正在寻求各种保护措施来规避AI带来的风险,科技巨头们也在不断更新其产品条款。 

去年12月,两件关乎版权的大事引发了轩然大波:Meta突然宣布要在10亿Facebook和Instagram用户的照片上训练AI;《纽约时报》对OpenAI和微软提起诉讼,指控他们未经授权使用其数百万篇受版权保护的文章来训练生成式AI模型。    

面对AI这头数据饕餮,创作者们不得不与时俱进,学会用AI当作自己的武器,玩起了“以毒攻毒”的把戏。 

毕竟,大人,时代变了。

这一幕,不禁让人想起本雅明在《机械复制时代的艺术作品》中的预言。昔日,机械复制技术颠覆了艺术的“灵光”(Aura),如今,AI又将创作推向了何方? 

在这个算法与代码主宰的新时代,创作的独一无二性似乎正在被AI无限复制和生成的能力所取代。但也许,正如本雅明所言,这种变革也带来了新的可能性 ——AI让创作从阳春白雪变为下里巴人。 

那么你认为AI会是创作的威胁吗? 

参考文章

[1] There’s a Tool to Catch Students Cheating With ChatGPT. OpenAI Hasn’t Released It. ChatGPT 

[2] Why detecting AI-generated text is so difficult (and what to do about it). MIT Technology Review. 

[3] Tool preventing AI mimicry cracked; artists wonder what’s next. Ars. Technica 

[4] OpenAI won’t watermark ChatGPT text because its users could get caught OpenAI. The Verge. 

[5] Understanding the source of what we see and hear online. OpenAI     

[6] 机械复制时代的艺术作品. 瓦尔特·本雅明. 

本文来自微信公众号“PConline太平洋科技”,作者:高海晏,36氪经授权发布。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1