AI模型经济学探讨——不可忽视的不可靠性与训练数据的潜在成本

作者：蓝鲸泽维尔发布时间：2023-02-15

从阿尔法狗到ChatGPT，七年一个轮回，AI又一次打破了所有人的认知。现在铺天盖地都在讨论这东西了，大家好像用得也越来越多了，呵呵（还小众吗？）。之前用了好几天把AI生成模型背后的原理搞明白了（见我的置顶专栏），现在想聊聊怎么从经济学上看待它。

首先你得知道，现阶段的AI是什么。它不是人类用自己的知识体系一步一步推理计算构建出来的精密机器人，而是利用神经网络这种仿生学结构，对大量人类数据进行拟合之后得到的一种运算模型。

AI模型跟计算机软件、手机APP最大的区别就在于它的不可靠性——我们只是在让机器模仿人类某种思维而已，而不是真的从数学上找到了复制人类思维的办法，这一点非常重要（人工智能的符号主义与联结主义）。

而评价一个AI模型优劣的指标，是进行大量采样之后与真实人类数据的统计学误差比较。所以关键就在于，你是否能容忍那部分误差。

当我们在使用软件或APP产品时，都是希望尽量没有Bug或者能及时修复——但如果一个产品是基于AI模型的话，那它可能永远都会有那部分误差，永远都在产生Bug，而且无法解释和及时修复。

这样的产品，客户能接受吗？需要怎样的客户指导和教育，需要怎样设计其他辅助和配套组件，才能做到接近计算机软件和手机APP那样的效果呢？

现在换到另一个话题。为什么明明充满了错误，现在所有人却都对AI趋之若鹜呢？

第一，效率高。它确实干的比人快，即使只有60-80%的准确性，只要我能容忍它，或者我能找到修复那些错误的办法，不管是自动化的还是人工的，只要将AI模型整合到现有工作流之后能提高生产率，那它就是有用的。

第二，仿生程度突破性地提高了。接近于真人的交流反馈、绘画作曲确实是非常吸引眼球的。即使只是想浅尝一下，这样的需求都可以支撑很久。它的水平达不到很多专业人士眼里的业界标准又怎样？人类自己制造的劣质产品不也有大量市场么。

举个例子，如果你用过ChatGPT，还在某一方面有比一般人强的信息流的话，你肯定会明白，所有拿公开信息作整合加工的二手自媒体跟它比都是乐色。能看懂英文的人，可以去试试那些基于GPT API 的联网应用，比如 Perplexity.AI，看看这种实时更新的、所有内容都有信息来源可考的问答AI，是不是足以淘汰所有公众号。

等ChatGPT能提供图像和影音流了，自媒体时代也就该结束了。OpenAI的下一个大产品可不是GPT4.0哦。嘿嘿，当我没说。

第三，成本低。这一点大家都看到了，要么免费，要么只是几十美元一个月的会员费，就几乎可以无限地使用，还没有广告。但这都是表面现象。为什么一个花了数千万美元训练出来的突破性技术，要给你接近免费地使用？这是值得好好思考的问题。

一个AI模型的生产，需要数据集、训练算力和开发者劳力三种“要素”的投入。而生产基于这个模型的文本、语音、音乐、绘画作品，需要一个本地或云端的，比训练算力要小得多的算力、使用者劳力和使用者可能会提供的数据（Prompts、底图或自定义数据集）。

理论上讲，生成一张图片的成本，应该把模型的生产成本（数据使用费、训练算力、开发者薪酬）按某种办法平摊，再加上使用者需要的算力、数据和劳动力成本都加在一起才能计算出来。

而当前为使用者提供的AI技术服务定价，几乎仅仅是使用者需要的算力而已（甚至连这部分都不要了）。

那这时候，如果AI模型所生产出来的文本、语音、音乐、绘画作品直接或间接地流入市场，它们所造成的冲击就可想而知了。当它的质量接近甚至超过人类作品时，这就是一个必须要拿出来探讨的经济话题了。

一个很明显的事情，就是开发者付出的训练算力成本，要怎么收回呢？以显卡工时计算的话，这是一笔无法被无视的巨额开支。我能想到的解释，就是视作一种研发成本，或者营销费用。ChatGPT和Stable DIffusion的成功，给背后开发公司带来的技术优势和品牌效应，大概是可以让投资者和管理层认可的一种价值。

而开发者和使用者的劳动力成本，对AI模型的训练成本和生产成本来讲，倒是可以接近忽略的部分了。这些薪酬相比算力费用实在是太少了，而且技术本身又全是开源的，不存在知识产权问题。

剩下的就是最核心的问题所在了，因为当前AI生成技术最具有争议性的一部分，就是数据的使用费用。艺术家团体抵制AI，最主要的一个原因就是这部分成本被强行归零了。也就是数据集本身的版权成本，凭空消失了。

但是，我觉得数据的使用费，其实是一个比艺术家的版权更深刻的问题。

现在的AI模型，最重要的一个优势就在于可以直接利用非结构化数据。不是只有文学、音乐、绘画、摄影这些受到知识产权法律保护的数据，医疗处方、科研数据、人类行为记录——几乎地球上任何人类留下的痕迹都可以在不参考相关专业领域知识的前提下进行训练。这是一件细思恐极的事。不要只把ChatGPT当作一个信息整合性质的拟人问答式搜索引擎。它很可能有能力代替任何一个专业人士为你服务，而实际上并没有真的学习过相关的专业知识体系。

可想而知，当这样的AI模型以极低的成本、极高的效率去冲击市场时，被影响到的就不只是艺术家了，而是所有的专业人士，和他们背后的一整套经济生态。

截止到今天，对数据的定价，仍然只限于一般意义上的知识产权，文学、音乐、绘画。。。而实际上如果你去审视当今所有互联网公司，他们无一不在收集和利用用户的行为数据进行分析、训练以形成自己的商业模型。没人去提数据使用费的问题。用户协议说的好，为了更好地为您服务嘛。但是我并没有同意你拿它去训练推送广告的模型来赚钱吧？你赚的钱也没有分红给我啊？

而这个在上一个互联网周期被所有人忽视的问题，接下来一定会变得越来越尖锐的。没有这部分数据使用费，所有工作岗位和人工智能比起来可能都会逐渐变得不经济。

这也是为什么关于全民基本收入 UBI (Universal Basic Income）的探讨会变得越来越现实的原因。不要再觉得给所有人发钱是一件可笑的事情了，因为这是你应该索要的利益，这就是AI模型的生产成本中本来应该有的一部分（一种间接的支付方式）。这个话题有点大，可以以后慢慢地展开（如果真的有一篇AI经济学的文章，它一定是关于数据成本转移定价问题的）。

以现在的发展速度，未来对AI的讨论只会越来越热烈，我呢只是先发一些我觉得有点预见性的思考，看到的人可以过段时间再回来验证。开放性的使用、探索态度和任何基于机器学习原理的思考，都是我觉得值得提倡的。千万要远离那些两端的“噪音”，因为你未来肯定会遇到两种人，要么在不提可靠性和安全问题的情况下盲目推广，要么是没有务实精神的凭空“抵制”和嘲笑。虽然这些现在就存在，但AI发展得太快了，这些“噪音”还是相对较少的。以后商业化程度高了，会愈演愈烈的。

（完）

AI模型经济学探讨——不可忽视的不可靠性与训练数据的潜在成本

推荐体验

相关资讯

爆火的ChatGPT：不可忽视的环境成本与碳排放？

ChatGPT进入汽车是最好选择吗？一个潜在缺点不可忽视

AI大模型测评报告：数据隐私、技术可靠性为用户最大顾虑

chatgpt的经济学意义

OpenAI首席科学家：将一个模型从不可靠变得可靠是一件很酷的事，还有利于为未来准备

近期资讯

广汽集团总经理：我们与华为是全栈式合作

价值数百倍于黄金！我国首次搞定这一化学元素

韩失事客机下一航班为济州飞北京中国游客：打算坐船回国

宝骏旗舰轿车享境亮相：纯电/插混双动力明年上半年上市

谁分得清啊！AMD B850/B840、Intel B860主板同时登场

新里程碑达成！上汽通用五菱2024年第80万辆新能源车下线

人类思维的速度竟然只有每秒10比特！这么慢怎么活

猜猜他是谁！比亚迪官宣“夏”MPV形象代言人即将揭晓

奔驰车标供应商宣布破产：曾经历拿破仑入侵、两次世界大战

事故频发！加拿大航空一客机降落遇故障并起火

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响