英语的人工智能使用费比其他语言低15倍

作者：IT168企业级发布时间：2023-07-31

大语言模型（LLM）所使用的语言会对其成本产生巨大影响，并造成英语使用者与世界其他语言使用者之间的人工智能鸿沟。最近的一项研究表明，由于 OpenAI 等服务衡量和结算服务器成本的方式，英语输入和输出比其他语言的输入和输出要便宜得多，简体中文的成本大约是其他语言的两倍，西班牙语的成本是其他语言的 1.5 倍，而缅甸语的成本是其他语言的 15 倍。

推特用户迪伦-帕特尔（@dlan522p）分享了一张照片，这张照片引出了牛津大学的一项研究，该研究发现，要求一名语言学硕士处理一个缅甸语句子需要198个代币，而处理同一个英语句子只需要17个代币。代币代表通过 API（如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2）访问 LLM 的计算能力成本，这意味着缅甸语句子的服务成本是英语句子的 11 倍。

对于 GPT-4 和大多数其他常见 LLM 而言，LLM 推理的成本因语言而异。英语最便宜，中文是英语的 2 倍，掸语和缅甸语等语言的成本是英语的 15 倍。

标记化模型（人工智能公司将用户输入转化为计算成本）意味着，在一个不太理想的世界里，在英语语言窗口之外访问和训练模型的成本要高得多。这是因为中文等语言的结构（语法或字符数）与英语不同，也更复杂，这导致其标记化率更高。

例如，根据 OpenAI 的 GPT3 标记化器，给某人一个 "你的爱意 "的标记在英语中只需要两个标记，而在简体中文中却需要八个标记。即使简体中文文本只有 4 个字符（你的爱意），而英文文本有 14 个字符，情况也是如此。Aleksandar Petrov 等人的 "代币化公平性 "页面上有许多图表和工具，您可以用来查看语言之间的差异。

OpenAI 本身也有一个非常有用的页面，解释了它如何通过 ChatGPT 模型对 API 访问和使用进行货币化，其中甚至包括一个令牌化工具，你可以用它来测试每次提示的令牌成本。在这里，我们可以看到 1 个令牌在英语中约为 4 个字符，100 个令牌约等于 75 个英语单词。但正如 OpenAI 明确指出的那样，这种计算方法无法应用于任何其他语言。

在人工智能相关成本方面，英语的成本效益确实无法与之竞争；例如，就每次输出所需的代币而言，中文的成本是英语的两倍。但这只是反映了人工智能公司（到目前为止）用来训练模型的可用训练数据。如果说人工智能爆炸为世界带来了什么，那就是显示了高质量新兴数据（作为生活记录而产生的数据）的真正价值。

韩语与英语

牛津论文提供的标记化工具为我们提供了一个了解不同语言标记化成本的窗口。

标记化工具

俄语的标记化成本则从英语的 26 个增加到俄语的 59 个，几乎增加了 100%。(图片来源：埃克斯福德大学）

俄语与英语

牛津论文中提供的标记化工具为我们提供了一个了解不同语言标记化成本的窗口。

这个问题直接关系到人工智能公司实现递归训练的愿望，也就是在自己的输出上训练人工智能模型的能力。如果实现了这一点，那么未来的模型仍将显示，与其他语言相比，英语具有相同的成本效益，而其他语言的复杂性和基础训练数据的可用性更为有限。当这种情况发生时，我们需要面对的不仅仅是算法偏执的恶性循环，还有目前的研究表明，当人工智能网络在自己的输出（合成数据）上训练超过五次时，就会出现退化。

让问题更加复杂的是，其他量化成本的方法（除了标记化）似乎也会遇到同样的问题。无论是通过比特计算还是字符计算，显然没有哪种语言能胜过英语的实用性--由于其固有的较高 "可压缩性"，英语仍能以较低的标记数实现较低的成本。

如果我们考虑到实际推出大型语言模型（如 ChatGPT）或生成式图像网络（如 Midjourney）的公司大多位于美国，那么这个问题似乎是可以预见的。在某种程度上，较低的使用成本和较高的高质量数据可用性是必然的。

这种成本差异已经导致一些国家启动了自己的计划，培训和部署母语 LLM。中国和印度都已经这样做了，而且都声称了同一件事：他们的计划需要与基于英语的人工智能网络所允许的创新速度相匹配。而这一速度主要受限于访问和培训成本。

每个人都希望花尽可能少的钱买尽可能多的东西，这是很自然的；而这些动态因素会根据基础语言的不同直接影响到 LLM 培训和部署的成本。几乎可以说，人工智能这门生意是如此复杂，其后果又是如此深远，我们必须非常谨慎地走好每一小步。