谷歌发布“双子座”AI模型称其性能优于GPT-4和人类“专家”

作者：参考消息发布时间：2023-12-08

参考消息网12月8日报道 据英国《新科学家》周刊网站12月6日报道，谷歌推出了名为“双子座”(Gemini)的新人工智能(AI)模型，声称在一系列智能测试中，其表现可以超越美国开放人工智能研究中心(OpenAI)的GPT-4模型和人类“专家”。

该公司首席执行官孙达尔·皮柴今年5月在谷歌的一次大会上就透露了“双子座”的存在，尽管当时它还在训练阶段。但今天该公司宣布将向公众推出这一尖端模型。

根据用途不同，谷歌创建了三个版本的“双子座”模型，分别称为Nano、Pro和Ultra。谷歌拒绝回答有关Pro和Ultra的大小、包含的参数数量、训练数据的规模和来源等问题。但它设计的最小版本Nano，是为了在智能手机本地运行而生，实际有两款模型：一种用于速度较慢的手机，拥有18亿个参数，另一种用于功能更强大的设备，拥有32.5亿个参数。

这样去比较AI模型的能力，并非精确，但GPT-4据传包含高达1.7万亿个参数，元宇宙公司的LLAMA-2有700亿个参数。

谷歌称，中间的Pro版“双子座”击败了其他一些模型，例如OpenAI的GPT-3.5，但更强大的Ultra超过了所有现有AI模型的能力。

以作为行业标杆的大规模多任务语言理解(MMLU)为参照，该模型得分达到90%，而“专家级”人类的得分预计能达到89.8%。

这是AI首次在测试中击败人类，也是现有模型中得分最高的。该测试涉及范围广泛的一系列棘手问题：逻辑谬误、日常生活中的道德、医疗、经济和地理等。

在同样的测试中，GPT-4的得分为87%，LLAMA-2的得分为68%，Anthropic公司的“克劳德2”模型的得分为78.5%。在其他9项常见基准测试中，“双子座”在8项中击败了所有这些模型。

Pro版的“双子座”将整合到谷歌旗下的“巴德”中，这是谷歌今年3月推出的在线聊天机器人。

该公司说，另一款更为先进的“巴德”将于明年初推出，它将使用更大的Ultra版“双子座”模型。

从今天开始，170多个国家和地区上线新版“巴德”的英语版本，目前还没有其他语言版本，英国和欧洲甚至不会提供英语版本。

谷歌公司的萧茜茜说，延迟的原因是监管问题而非设计问题，“我们正在研究当地政策并与监管机构合作，以确保我们在其他地区启动前遵守当地法律和其他规定”。

谷歌“深层思维”公司的埃利·柯林斯说，“双子座”是公司最大、能力最强的模型，也是最通用的——这意味着它能够适应各种任务。与目前许多以文本为重点的AI模型不同，“双子座”接受了文本、图像和声音方面的训练，而且据称能够接受所有格式的输入并提供所有格式的输出。但是，目前的“巴德”将只允许人们使用文本提示词，该公司承诺“未来几个月”将允许使用音频和图像方式交流。

柯林斯说，“双子座”“在几乎所有领域都是最先进的”，目前谷歌仍在对它进行测试，以确定它在不同媒介、语言和应用领域的能力。他说：“我们仍在努力了解Ultra的所有潜在能力。”

在发布会上，没有任何型号“双子座”可供测试，但谷歌演示了这种AI解决家庭作业问题和处理实时视频输入的情况。

据称，“双子座”在开发软件方面也比以前的模型做得更好：去年，“深层思维”公司发布了一种由AI驱动的代码生成器，称为AlphaCode。

该公司说，它可以击败50%的人类开发人员，现在它还发布了由“双子座”驱动的升级版本，声称可以击败85%的人类码农。（编译/刘晓燕）