除隐私之外，ChatGPT的大问题是在经济学意义上可能根本不划算

作者：无贼天下发布时间：2023-06-20

眼下 ChatGPT 所要面临的问题显然不只是算力不足导致的服务问题：在最初的震撼逐渐平息之后，伴随 ChatGPT 一同诞生的数据隐私问题也逐渐被更多人所察觉：所谓的生成式人工智能，目前最常见的使用场景在于将网络中的相关信息快速聚合并有机总结。因此取代搜索引擎是目前被讨论最多的应用场景之一，更一直让 Google 紧张不已。

但在关键的「信息聚合」中，自然也诞生了各种信息所涉及到的隐私问题，尤其是 OpenAI 已经明确表示用户的所有回复内容都有成为 ChatGPT 训练语料的可能性，同时建议用户不要在对话中分享个人信息，但在许多用户眼里，ChatGPT 似乎已经成为了一个可以咨询任何问题的老师，因此失去防备，将自己乃至工作上的各种隐私数据和盘托出，交予 ChatGPT 寻求帮助。

据《Economist》报导，三星半导体员工疑似因使用 ChatGPT，导致在三起不同事件中泄露公司机密。调查原因皆因员工将公司机密资讯输入 ChatGPT 而导致。

在 OpenAI 发布的公告中：关于法规的看法，其中有这样一句话：

（ChatGPT）在现实中越来越多地运用，不仅促使着法规逐渐完善，同时也仍然需要允许技术带来许多有益用途。

用户隐私数据在伴随技术发展的这一过程中，注定要经历很长一段时间的互相博弈，才能获得逐渐完善的法规。但对于 ChatGPT 来讲，如今已经驶过最受瞩目的发展阶段，伴随而来的各种现实问题，对于后来者来讲，或许也会成为各种转折的契机。

但除了以上隐私问题，算力不足导致宕机、卡壳、事实错误、思考能力差和实时性不足（即便安装了传感器）等等，ChatGPT还有一个无法回避的问题就是，自然语言处理中（NPL）过分依赖人工标识（大量人工或工作量），社会总体上是否节省了人工，也是另一个维度的问题；

惯常认知里，AI模型的数据标注员是个低端的职业。制作一个猫狗分类器，标注员的主要工作就是对每一张图片包含了猫、还是狗进行一个分类，小学生都能做。然而，ChatGPT 模型里，它所能完成的工作甚至达到了，做高等数学题这种程度。模型输出的结果是否真实可靠，需要reward模型进行评价和反馈。高要求，也就意味着，评价困难。模型质量的提升也较为困难。

GPT-n 系列模型一代比一代大，从最早大家觉得几个亿的参数和几个G 的文本数据量就叫大模型。到了现在，GPT-3 和 3.5 里，模型参数达到了上千亿，数据量也达到了上万亿规模。“就像我们需要巨量的语料去完成机器翻译任务一样，reward模型换句话就是虚拟世界模型，也同样需要巨量的语料来拟合真实世界。这个代价是十分巨大的”，在经济学成本收益杠杆意义上可能根本不划算，这个游戏是否真的值得玩。

（以上分析半数来自知乎JoiNLP团队）

参考：

AIGC生成式人工智能 to be or not to be 这是个问题

大场悉数进入AIGC赛道