随着研究人员进入人工智能聊天机器人的“美丽新世界”,出版商需要明确合法用途、并制定相应规则,避免其滥用。
原文链接:Tools such as ChatGPT threaten transparent science; here are our ground rules for their use (nature.com)
ChatGPT威胁到科学基础方法的透明度
源自Tada Images/Shutterstock
近几年,人工智能拥有了产生流利语言的能力,并生产出越来越“类人脑”的句子。去年,Nature报道称,一些科学家已经在使用聊天机器人作为研究助手——帮助捋顺思维、反馈工作、协助编写代码和总结研究文献(Nature 611,192-193; 2022)。
而去年11月发布的人工智能聊天机器人ChatGPT将此类工具的功能(称为大型语言模型(LLMs))普及给了大众,也就是说即使非科研人员也可以轻松访问。目前,数以百万计的人在使用它,其结果是导致一场有趣的、有时令人恐惧的写作实验爆发,这些实验加剧了人们对这些工具的兴奋和恐慌。ChatGPT可以撰写精美的学生论文、总结研究论文、回答问题,并且答案能通过检测,以及生成有用的计算机代码。此外,它还可以写出足够优秀的研究摘要,以至于科学家们很难发现那是计算机写的。同时令人担忧的是,它可以随意生成垃圾邮件、勒索软件和其他恶意输出。尽管OpenAI试图为聊天机器人将要做的事情设置限制,但用户已经找到了绕过它们的方法。
Nature制定的两项准则,
已列入作者指南
对于研究界来说隐忧则是,学者可能将智能机器人撰写的文本伪装成自己的文本,或者生产不可靠的数据。
为此, Nature 与Springer Nature集团旗下所有期刊一起制定了以下两项原则,这些原则已添加到Nature现有的作者指南中。
首先,任何LLMs工具都不会被列为研究论文的署名作者。这是因为任何作者身份的归属都伴随着对工作的责任,而人工智能工具无法承担这种责任。
其次,使用LLMs工具的研究人员应在方法或致谢部分记录这种使用。如果论文不包括这些部分,则可以使用引言或其他适当的部分来记录LLMs的使用。
LLMs生成的文本,
真的可以被检测到吗?
有读者可能会想问,编辑和出版商可以检测到LLMs生成的文本吗?现在,答案是“有这种可能”。通过仔细观察,可以检测到ChatGPT 的原始输出,特别是当涉及多个段落,并且主题与科学工作有关时。这是因为LLMs基于其训练数据和统计、关联到它们看到的提示并产生单词模式,意味着它们的输出可能包含简单的错误。此外,它们还不能通过引用来源来记录自己的输出。
但在未来,人工智能研究人员也许能够解决这些问题。例如,已经有一些实验将聊天机器人与来源引用工具联系起来,还有一些实验利用科学文本数据去训练聊天机器人。
一些工具开发商承诺跟踪LLMs的输出(Springer Nature集团也是开发商之一)。人们希望LLMs的开发者能够以某种方式为他们工具的输出加水印,尽管即使这样在技术上也不是万无一失的。
一直以来,科学就通过提供方法和证据来保持开放和透明,无论使用哪种流行、前沿的技术。研究人员扪心自问,如果他们或同事使用根本不透明的工具进行工作,那么如何保证知识生产过程中所需要的透明度和可信度。
这就是为什么 Nature 提出了这些原则。研究必须在方法上具有透明度,以及作者永远要是完整且真实的。毕竟,这是科学进步的基础。
科学文字社由中国激光杂志社倡导成立,旨在共同学习科技期刊政策趋势,交流编辑工作心得经验。
END
科学文字社 微信公众号整理
如需转载,请关注本公众号
发送需求得到同意后转载,并注明出处
凝聚文字力量;
展示编辑价值。
敬请关注“科学文字社”微信公众号。