每经记者:文巧 每经编辑:高涵
ChatGPT带来的喧嚣还未归于平静,北京时间2月1日,其背后的公司OpenAI又趁热打铁推出了一款检测工具,试图区分人工编写的文本和AI生成的文本。
这款工具名为AI文本检测器(AI Text Classifier),《每日经济新闻》记者亲测了其检测效果,发现其能成功区别单独的人工或AI文本,但当人工和AI文本混淆时,检测效果并不乐观。不过,OpenAI认为,当这个检测工具与其他方法结合使用时,可能有助于防止 AI文本生成器被滥用。
“它仍然有一些局限性——因此它应该被用作其他确定文本来源方法的补充,而不是作为主要的决策工具,”OpenAI在一份官方文件中表示,“我们正在提供这个初始检测器,以获取有关此类工具是否有用的反馈,并希望在未来分享改进的方法。”
随着ChatGPT的大热,市场围绕生成式 AI的热情不断增长。但以北密歇根大学“论文作弊”为代表的事件也引发了对于学术、伦理等方面的诸多担忧。一些批评者认为,生成式AI工具的广泛使用可能会带来一些潜在的有害影响。
直接的后果是,美国一些最大的学区已禁止在其网络和设备上使用 ChatGPT。自然而然地,对类似AI文本检测器的工具的需求也开始涌现。
亲测OpenAI的AI检测器效果:并不完美
《每日经济新闻》记者注意到,有趣的是,OpenAI新推出的这款检测器在架构上和ChatGPT一样,它也是一种AI语言模型,并且也是根据来自网络的许多公开文本示例进行训练的。
但与ChatGPT不同的是,它经过微调可以预测一段文本由AI生成的可能性——不仅来自ChatGPT,还来自任何文本生成AI模型。
具体来看,OpenAI在来自5个平台(包括OpenAI本身)的34个文本生成系统的文本上训练了这款AI文本检测器,例如维基百科等。不过,这款AI文本检测器至少需要1000个字符,即大约150 ~250 个单词,才能进行检测。
那么,这款检测器的效果到底如何?是否真的能完美区别AI和人工生成的文本?每经记者对此进行了一番测试。
我们先让ChatGPT写了一篇主题为AI未来的文章,并用检测器对其进行检测,结果显示,“检测器认为文本很可能是AI生成的”。
图片来源:AI Text Classifier
随后,我们用了一篇人工写作的文本再次进行检测,结果显示,“检测器认为文本非常不可能是AI生成的”。
图片来源:AI Text Classifier
从上述结果来看,OpenAI的这款AI文本检测器的确成功区分了人工和AI生成的文本。然而,我们将两个文本结合后(AI文本占比超90%)再进行检测,它并不能检测出AI生成的文本。
图片来源:AI Text Classifier
从每经记者亲身体验来看,目前,要靠这个AI文本检测器来抓作弊还有些困难。
据OpenAI的一份文件,该检测器将文本标记为“非常不可能”由AI生成的可能性小于10%;“不太可能”由AI生成的可能性为10%~45%;“不清楚它是否是”AI生成的可能性为45%~90%;“可能”是AI生成的几率为90%~98%。
在准确性上,OpenAI也承认,“鉴于AI生成的内容在互联网上的激增,它可能无意中将一些AI编写的文本错误分类为人类编写的文本。”
“AI枪手”引担忧,“猫鼠游戏”就此开始?
1月中旬,北密歇根大学的论文作弊事件让学术界着实震惊了一把。在这次事件之后,在美国,许多大学教授、系主任和管理人员都在对课堂进行大规模的调整,以应对ChatGPT对教学活动造成的巨大冲击。很多教授在重新设计课程,更多地采用口试、小组合作和手写文章作为评估方式。
纽约和西雅图等最大的学区最近已禁止在其设备和网络中使用 ChatGPT,许多大学也在考虑采取类似措施。
在更早之前,全球最大的编程技术问答网站Stack Overflow紧急宣布,ChatGPT在该站暂时封禁。Stack Overflow在官方通告中表示,做出这个规定的主要原因是,ChatGPT自动生成的答案质量太低,错误太多,而且看上去还挺像那么回事,即使是完全不懂的人也能随便生成答案。
在“AI枪手”带来的担忧之下,一些其他的AI文本检测器也如雨后春笋般涌现,以满足当前的需求。
在OpenAI推出自己的检测器之前,普林斯顿大学的一名学生Edward Tian开发了ChatZero,来检测文本是否可能是AI生成。据报道,1月3日,该网站一经上线,一周内就有超过3万人试用。
一名用户展示GPTZero的检测效果 图片来源:推特
不过,一些用户也报告了GPTZero检测的错误结果。Edward Tian也承认,检测并非百分之百准确,他仍在努力提高模型的准确性。
据此前报道,包括斯坦福大学在内的一些机构联合提出一种名为DetectGPT的新方法,来区分AI生成的文章。
开源AI社区Hugging Face也推出了一种工具来检测文本是否由 GPT-2 创建,GPT-2 是用于开发 ChatGPT 的 AI 模型的早期版本。据悉,南卡罗来纳州的一位哲学教授用这个工具抓获了一名提交了 AI 编写的作业的学生。
除此之外,谷歌搜索以及检测学术抄袭的Turnitin也正在开发自己的AI生成文本检测器,谷歌搜索据悉至少会推出6个应用程序来对AI和人工文本进行区分。
科技媒体Techcrunch对此评论称,这很可能会成为一场猫捉老鼠的游戏。随着文本生成AI的改进,检测器也会改进——这是一种永无止境的来回交流,类似于网络犯罪分子和安全研究人员之间的交流。
正如OpenAI 所写,虽然检测器在某些情况下可能有所帮助,但它们永远不会成为确定文本是否由AI生成的可靠唯一证据。“也就是说,目前还没有灵丹妙药可以解决AI生成的文本所带来的问题,”Techcrunch这样写道。
每日经济新闻
IT之家 2024-12-19
36氪 2024-12-19
36氪 2024-12-19