成本差异铸成AI鸿沟？牛津：汉语训练费用是英语的2倍

作者：金融界发布时间：2023-07-31

如今的大型语言模型（LLM）可以理解世界上很多语言，甚至是一些记载较少的语言。不过，大模型处理不同语言之间时，其性能上存在很大的差异，这是由于模型成本与其所训练的语言紧密挂钩。

牛津大学最近进行的一项研究表明，从诸多语言模型的计费方式看，英语的输入和输出比其他语言的输入和输出要便宜得多。例如，西班牙语的成本约为英语的1.5倍，简体中文的价格约为2倍以上，缅甸掸语在15倍以上。

成本的差异也间接导致英语使用者和世界其他语言使用者之间形成AI鸿沟。

成本差异主要是因数据标记化所带来的。标记化就是将训练文本分解成更小的单元，这个更小的单元就是标记（Token）。这是一个人工智能（AI）公司将用户输入转换为计算成本的过程。

研究显示，使用英语以外的语言访问和训练模型的成本都更高。例如中文，无论是在语法上还是在字符数量上，都有更复杂的结构，从而导致更高的标记化（Token）率。

举例来看，基于OpenAI公司的GPT2模型，对于“国家不同，所得税的结构是不同的，税率和税率等级也有很大的差异”这句话的处理来看，在简体中文处理中运用到了66个Token，在英语处理中仅用到了24个Token，而在禅语处理中使用到了468个Token。

就每次输出所需的费用而言，汉语的成本是英语的两倍。所以在AI相关的费用中，英语的成本效益是最高的。

当涉及到语言模型时，设计者的主要目标是实现低成本和高效功能之间的平衡。随着AI领域的不断发展，科技公司必须仔细考虑语言选择对成本和可访问性的影响。

这种成本差异促使中国、印度等国家纷纷开发自己的母语LLM项目。

来源：金融界

相关资讯

AI 大模型的语言不平等：英语训练费用最便宜，汉语训练费用是英语的 2 倍

近日，X（原Twitter）用户@DylanPatel展示了一份来自牛津大学的研究：通过对GPT-4和大多数其他常见LLM的语言进行研究，研究发现LLM（大语言模型）推理的成本差异很大。其中英语输入和输出要比其他语言便宜得多，简体中文的成本大约是英语的2倍，西班牙语的成本是英语的1.5倍，而缅甸掸语则是英语的15倍。

GPT-4 大语言模型

爱范儿 2023-08-01

李峥：警惕“英语中心主义”加剧AI鸿沟

其他非英语国家的民众往往需要接受英语和相关文化教育才能融入国际社会，一些语言和文化或在“英语中心主义”的世界被边缘化。据估计，在当前最知名的生成式人工智能应用ChatGPT中，约90%的训练数据是由英文文本构成的。

教育人工智能 ChatGPT

环球网 2024-04-19

鞭牛士 2023-02-12

成本差异铸成AI鸿沟？牛津：汉语训练费用是英语的2倍

推荐体验

相关资讯

AI 大模型的语言不平等：英语训练费用最便宜，汉语训练费用是英语的 2 倍

李峥：警惕“英语中心主义”加剧AI鸿沟

AI绘画费用多少？AI绘画培训差异

用差异化打破英伟达“垄断”，d-Matrix将AI推理算力成本降低30倍

专家称中国版ChatGPT难度更高，因为汉语训练更复杂

近期资讯

中国厂商已量产DDR5 良率惊人的高！揭秘国产内存一哥

200元大额券手慢无：森马宽松潮流后背字母羽绒服到手99元

苹果历史第一次！iPhone 17标准版将支持高刷

小米SU7交付完成年度目标：智驾已破1亿公里跻身第一梯队

21岁考研小伙作息不规律进ICU：确诊糖尿病酮症酸中毒

《黑神话：悟空》再获大奖：年度玩家选择游戏

RTX 5080"天价"劝退：澳洲零售价高达12744元

5万人丢掉饭碗！巨头接连裁员：欧洲汽车工业迈入凛冬

省电高效！小米空调技术获节能减排科技进步二等奖

广州一公园被指将枯草喷涂成绿色真相曝光：肥料增绿剂

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响