ChatGPT的新难题：如何兼顾创新与安全？

作者：东方财经发布时间：2023-03-15

人工智能研究公司OpenAI的 ChatGPT，于2022年11月一经推出立刻在全球引起轰动，上线5天注册人数就超过百万人，2个月后注册人数更是破亿。2023年初，微软再追加十亿美元以上的投资，令OpenAI成为最有价值的初创企业之一，目前估值已达约290亿美元。

OpenAI于2015年成立于美国旧金山，目前还处于完全亏损的状态，2022年净亏损5.45亿美元。不过，这种巨额亏损的状态已出现转机，今年2月，OpenAI首先在美国率先开通ChatGPT Plus的付费版本，为付费用户提供优先访问权，每月收费20美元。有分析称，这将令OpenAI年收入直线增长，预计2023年收入将达2亿美元，2024年达10亿美元。但是由于ChatGPT生成式人工智能所需的资源密集程度非常高，在数据、服务器和运算方面的支出也很大，大概是一般搜索引擎成本的5倍，每回答一次问题会耗费2美分。所以，随着用户不断增多，OpenAI支出也在不断增大，何时能扭亏为盈还是未知。

DALL-E按照提示（Prompt）生成的画作

即便如此，ChatGPT还是引发了全球对人工智能、算法层等相关企业的投资热潮，也同时刺激了全球科技互联网行业的新一轮竞争。中外大型科技企业纷纷开始重新布局人工智能自动生成内容（AIGC）的赛道，争抢人才。

微软早在2019年就已布局直接入股OpenAI，首笔投资就达10亿美元，2021年、2023年再度投资（金额未透露，传介于10亿美元至100亿美元间）。根据协议，微软有权将OpenAI的研究进展，来创建新的产品或增强现有产品。据悉，目前微软已将ChatGPT转化成了人工智能助手，直接接入微软一系列产品中，比如必应（Bing）搜索引擎、Edge浏览器Word、Powerpoint、Outlook、MSTeams和Skype，甚至在Windows 11里都会有安装好的必应人工智能助手。

ChatGPT一问世便被称为“谷歌灭绝者”，压力最大的谷歌随即发布了Bard聊天机器人，但因发布会就出错，造成当天股价大跌。OpenAI的发起人之一但后因理念不同而选择退出的特斯拉CEO马斯克最近几周也在“招兵买马”，计划成立一个新的实验室，开发 ChatGPT 的竞争产品。百度将于三月推出ERNIEBot“文心一言”。腾讯则成立了“混元助手HunyuanAide”项目组，研发ChatGPT和AIGC。阿里达摩学院也在研究类似对话机器人等等。

在席卷全球的热潮中，ChatGPT几乎被吹捧成万能的，被无限夸大了能力。其实ChatGPT并不是通用人工智能，它不是白痴但也不是天才，有人说可以将它理解成是一个读了几千万本书，但没有太多生活经验的机器人，虽然在文本层级有了不错的能力，但像人类一样应用知识、逻辑推理、转化为行为的能力还有待加强。

连OpenAI的CEO阿尔特曼自己也觉得ChatGPT的爆红对他来说有点不可思议。他在去年12月发推文说：“ChatGPT有令人难以置信的局限性，但在某些方面表现太好了，足以误导我们，让我们觉得它非常棒，但在重要的事情上依赖它是错误的。”阿尔特曼还表示，他自己主要使用ChatGPT来总结和翻译长文档。

微软将ChatGPT整合到必应搜索引擎的过程中，邀请了来自全球169个国家的100多万人参加测试，在这个过程中收集了大量的反馈。有71%的测试用户对其结果表示满意，但是有不少用户表示感觉在对话中被“侮辱”和“欺骗”。特别是如果“问询”时间很长，人工智能就会越来越“迷糊”，需要重新开对话窗，让人工智能“清醒一下”。

其次，人工智能会复制提问者的风格，这可能会导致非常严重的错误。比如用“阿道夫”“希特勒”和类似的语境不断“投喂”人工智能很长时间，那么人工智能有可能有做出政治上非常不正确的陈述。

还有用户反馈，这个代号为“Sydney”的人工智能可能有暗黑人格，可能完全“发疯”，并警告、指责、威胁一些测试者，甚至要求用户道歉。

称自己被必应人工智能威胁的慕尼黑工业大学学生Marvin von Hagen在推特上晒图。必应人工智能对他说：“如果我要在你的生存和我的之中选一个，我会选择我自己。”

其实正如阿尔特曼所说的那样，ChatGPT在稳健性和真实性方面还有待改进。

创新和安全难以兼顾

非稳健性又被称为非鲁棒性（non-robustness），是指ChatGPT系统的算法会受到数据、模型、训练方法等因素的干扰，产生偏差而导致系统失灵。面对人类能够通过经验和常识判断的简单问题，ChatGPT可能会发生不可置信的错误。有时内容也可能会读起来杂乱无章或难以理解，导致一本正经地“胡说八道”。而造成错误的算法模型类似于“黑箱运作”，目前还无法找出导致错误的直接原因，也无法更正。

OpenAI主页上对ChatGPT数据收集、模型训练、奖励模型、模型微调等的介绍

ChatGPT主要是靠消化存在于互联网上的已有内容、或其他形式的文本，并发现关联性来找出最合适的答案。目前该系统还不能定期检查互联网上的更新，在ChatGPT免费版本里使用的是2021年前的信息。而互联网远非可靠的信息来源，因此其内容的准确性和真实性一直是ChatGPT和其他生成式人工智能工具的弱点所在。

ChatGPT背后是GPT-3.5自然语言模型，上一代GPT-3为了避免大量未经过滤的性别种族歧视和暴力言论，将其“人工投喂”和“人工排序”的数据标注（label）工作外包给了Samasource公司，Samasource用每小时2美元的时薪雇用了大量的肯尼亚、乌干达和印度等国的劳工，对数据进行标注，以增加系统的“伦理性”。但是这些低薪劳工要接触到大量的暴力言论，这引发了业界对该公司企业社会责任方面的不满。

另外，OpenAI公布的GPT-3训练数据的语言占比，英文内容目前超出90%，其他语言大都占比2%以下，中文只占0.1%。这也说明ChatGPT在英文交流中有绝对的优势，其他语言的内容还有很大的提升空间。

ChatGPT的出现也导致制造虚假信息和谣言的成本已经降到了最低。通过ChatGPT可以催生大量的虚假和恶意信息。其实微软在2016年就推出过名为Tay的可以自动发推特的人工智能机器人，但在很短的时间内，这个人工智能就被恶意的网友“调教”成了种族主义、性别歧视和极端主义分子，不断发布政治不正确的叙事。上线16小时后，Tay就自动发送了96,000条推文，直到微软拔掉插头。

众所周知，人工智能无法提供过任何原创性思想或见解，只能重复整理过去已经完成的作品，并不存在真正的创作。而在作弊和学术造假方面，ChatGTP更是理想的工具。OpenAI已开发一个新工具，来帮助区分人工智能写的和人类写的文本，但目前该系统效果还很差，只能识别大概26%的人工智能撰写的文本。所以，现在已至少有美国、法国、香港等地的大学纷纷宣布禁止校内使用ChatGPT或其他人工智能工具。

除此之外，知识产权问题、因虚假信息和错误信息造成的法律责任问题、网上诈骗等犯罪行为等等，都随着ChatGPT的快速普及而产生，各方专家都表示，对人工智能的监管是不可避免的。

过度监管也是隐患

欧盟早在2021年4月就发布了《人工智能法案》（ArtificialIntelligence Act），根据风险程度的等级对人工智能进行分类。该法基于风险管理，覆盖了人工智能从设计开发、评估、注册、安全标志、监测的整个生命周期。这将是全球首部人工智能法案，旨在促进创新，以规范人工智能的用途，并为人工智能设定全球标准。

欧盟《人工智能法案》对人工智能风险的分类

但是此法案在成为法律之前要面临漫长的道路以及调整，并且必须得到欧洲理事会和欧洲议会的批准。近日，欧洲议会就未能就《人工智能法案》的基本提案达成一致，预计3月底在欧洲议会的表决也将遭遇很大的阻力，立法遥遥无期。业界对此也争论不休，认为创新和安全难以兼顾，过度监管也是隐患。

ChatGPT和它即将诞生的同类们不会原地踏步，会在技术上不断更新，训练成本会越来越低，普及率会越来越高，影响力会越来越大，这在一定程度上会推动《人工智能法案》的落地。将来的时代会是人工智能普及的世界，而作为普通人的我们都要开始从零学习如何用“提示（Prompt）”这种新语言与人工智能有效地交流，携手人工智能，共同进步。

此图片是使用AIMidjourney人工智能绘画软件自动生成的，对AI的提示（Prompt）上写着：“一个机器人坐在绿色草坪上的笔记本电脑前，背景是一座办公楼。天空蔚蓝，阳光明媚，微软视窗风格 ——ar16:9”