FX168财经报社(北美)讯 周二(5月16日),谷歌公司最新宣布的新的大型语言模型使用了几乎比其2022年的前身多近五倍的训练数据,使其能够执行更高级的编码、数学和创造性写作任务。
谷歌的新通用大型语言模型(LLM)PaLM 2是在3.6万亿个标记上进行训练的。标记是单词字符串,对于训练语言模型来说是一个重要的构建块,因为它们教会模型预测序列中下一个出现的单词。
谷歌此前发布的PaLM(Pathways Language Model)的上一个版本于2022年发布,训练数据包含了7800亿个标记。
尽管谷歌一直急于展示其人工智能技术的强大能力,并将其嵌入到搜索、电子邮件、文字处理和电子表格等工具中,但该公司不愿公开其训练数据的规模或其他细节。微软支持的OpenAI也对其最新的大型语言模型GPT-4的具体细节保密。
这种保密的原因,据这些公司表示,是因为业务的竞争性质。谷歌和OpenAI都在争相吸引那些可能希望使用对话式聊天机器人而不是传统搜索引擎来搜索信息的用户。由于竞争激烈,它们选择保密训练数据的具体规模和其他细节。
随着人工智能竞赛的升温,研究界对于更大的透明度提出了更高的要求。
在发布PaLM 2之后,谷歌表示这个新模型比以前的大型语言模型更小,这一点非常重要,因为它意味着谷歌的技术在完成更复杂的任务时变得更加高效。根据内部文件,PaLM 2是在3400亿个参数上进行训练的,这表明该模型的复杂性。而最初的PaLM则是在5400亿个参数上进行训练的。
谷歌在关于PaLM 2的博客文章中提到,该模型使用了一种名为“compute-optimal scaling”的“新技术”。这使得LLM在整体上更加高效,并具有更好的性能,包括更快的推理速度、更少的参数需求以及更低的服务成本。
在宣布PaLM 2时,谷歌确认了该模型在100种语言上进行训练,并执行广泛的任务。它已经被用于推动25个功能和产品,包括谷歌的实验性聊天机器人Bard。它有四个不同的规模,从最小到最大分别是Gecko、Otter、Bison和Unicorn。
根据公开披露的信息,PaLM 2比现有的任何模型都更强大。Facebook的名为LLaMA的大型语言模型(LLM)在2022年2月宣布,其训练数据包含了1.4万亿个标记。OpenAI最后一次公开了ChatGPT的训练规模是在GPT-3时期,当时该公司表示其训练数据包含了3000亿个标记。OpenAI于2022年3月发布了GPT-4,并表示它在许多专业测试中表现出“与人类水平相当”的性能。
Google在两年前推出的对话型大型语言模型LaMDA以及今年2月与Bard一起宣传的LaMDA都是基于训练了1.5万亿个标记的数据。
随着新的人工智能应用迅速进入主流,围绕这一技术的争议也变得更加激烈。
谷歌研究科学家El Mahdi El Mhamdi于今年2月因公司缺乏透明度而辞职。上周二,OpenAI的首席执行官Sam Altman在参议院司法委员会隐私和技术小组的听证会上作证,并赞同立法者的观点,认为需要建立一个新的系统来处理人工智能。
Altman表示:“对于一种非常新的技术,我们需要一个新的框架。”他还说:“当然,像我们这样的公司对于我们推出的工具承担着很大的责任。”
]]>