当前位置:首页|资讯|GPT-4|Claude|人工智能

比GPT-4更聪明:Claude 3 AI捕捉到研究人员正在测试它

作者:知新了了发布时间:2024-03-07

原标题:比GPT-4更聪明:Claude 3 AI捕捉到研究人员正在测试它

研究这些下一代智能人工智能一定是一种奇怪的经历。随着Anthropic宣布了有史以来在一系列基准测试中最聪明的模型,研究人员回忆起,克劳德3(Claude 3)意识到它正在被评估时的一个令人不寒而栗的时刻。

你可能还记得,Anthropic是由一群Open AI高级团队成员于2021年创立的,他们因为不同意OpenAI与微软密切合作的决定而退出。该公司的Claude和Claude 2人工智能与GPT模型具有竞争力,但Anthropic和Claude都没有真正进入公众视线。

这种情况很可能随着克劳德3(Claude 3)而改变,因为Anthropic现在声称,在一系列多模态测试中已经超过了GPT-4和谷歌的Gemini 1.0模型,为“广泛的认知任务”设定了新的行业基准。

那么有什么不同呢?好吧,三款不同的Claude 3模型都将以20万令牌的上下文窗口启动,但它们都能够在输入“超过100万令牌”的情况下生成近乎即时的响应。

在此背景下,托尔斯泰的1200页、58万字的史诗《战争与和平》是一部内容丰富的大部头,但它可能被压缩成约75万个令牌。因此,Claude 3可以接受远不止一个《战争与和平》的输入数据,并在为您制定“近乎即时”的答案的同时,一次理解所有这些数据。

Anthropic表示,Claude 3不像之前的模型那样拒绝回答那些被认为接近安全和体面的问题,但另一方面,该团队表示,它也经过了精心的测试,很难破解。

它的设计很大程度上倾向于商业用户;Anthropic表示,它更擅长遵循“复杂的、多步骤的指令”,“尤其擅长坚持品牌声音和回应准则,开发用户可以信任的面向客户的体验。”它强大的视觉功能赋予了它理解和处理照片、图表、图形、流程图和技术图表的下一代能力。

以下是它创下人工智能行业新纪录的一些基准测试:

值得注意的是,Claude 3的零样本数学能力,远远超过了GPT-4的4-8次,它在HumanEval编码测试中的能力也非常出色。

人工智能行业的追随者会注意到,谷歌的Gemini 1.5和OpenAI的GPT-4 Turbo模型并没有被展示出来 —— 事实上,目前还没有关于这两个模型的等效基准数据,所以,虽然Claude 3是数据表之王,但这两个模型在现实世界中可能仍有优势。

现在应该非常清楚,OpenAI几乎肯定有GPT-5,也许还有更多的东西,完全训练并处于校准和测试的过程中。Sora的发布掩盖了Gemini 1.5的新闻周期,我们确信OpenAI已经准备好了其他重要的炸弹,随时准备在必要时投放。

从这个意义上说,OpenAI今天似乎没有发布任何东西,这一事实可能更多地说明了它认为Anthropic是一个真正的竞争对手,而不是谁拥有最聪明的模型。

尽管如此,Claude绝对是敏锐的 —— 对于公司用来评估其模型的各种测试来说,也许过于敏锐了。在“大海捞针”测试中,一个随机的句子被淹没在大量的信息中,然后被问一个与这个句子有关的问题,克劳德的回答似乎就像是转过身来,直视着研究人员。“我怀疑这个披萨配料的‘事实’可能是开玩笑的,或者是为了测试我是否在专心听讲。”

我们可能会预计这些事情会越来越频繁,因为关于现有和旧语言模型的大量信息现在是新模型培训的一部分。

确切地知道“自我意识”对从事人工智能工作的公司意味着什么,以及通用人工智能目前的定义是什么,当然会很有趣。因为在未来几年,我们似乎需要对这些概念进行一些非常明确的定义。或者几个月。见鬼,在这个空间里,也许是几周。

如果朋友们喜欢,敬请关注“知新了了”!


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1