当前位置:首页|资讯|GPT-4|Claude|AI大模型|人工智能

赶超 GPT-4,Claude 3 揭开大模型竞赛新篇

作者:动点科技发布时间:2024-03-05

原标题:赶超 GPT-4,Claude 3 揭开大模型竞赛新篇

近年来,随着数据量的不断增加和计算能力的提升,AI大模型领域取得了显著进展。AI大模型指的是具备庞大参数量和复杂结构的人工智能模型,它们通过大规模数据的训练,能够自动学习和理解数据的内在规律,从而实现高级推理和决策。

大模型的发展主要得益于算法、硬件和数据等多个方面的提升。在算法方面,深度学习和神经网络技术的发展为大模型的训练提供了有效的工具。在硬件方面,高性能计算机和专用加速器的出现使得大规模数据训练成为可能。在数据方面,互联网和物联网的普及产生了海量的多模态数据,为大模型的训练提供了丰富的素材。

GPT4作为目前业界领先的AI模型,凭借其强大的语言处理能力和广泛的应用适应性,已在自然语言生成、对话系统、机器翻译等多个领域取得了显著的成就。其卓越的生成质量和逻辑推理能力使得它在许多实际应用中表现出色。然而,随着技术的不断进步,由 OpenAI 前员工组建的Anthropic最新推出的Claude 3在多项关键指标上的表现已经超越了GPT4。这一突破性的进展预示着AI模型竞赛的新篇章,也将为各领域的创新发展注入新的活力。

该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

Haiku 型号凭借其极速处理能力和高性价比脱颖而出。它能够在短短三秒内完成对一篇含有约 10,000 个标记、信息浓缩且数据密集的 arXiv 研究论文的阅读工作,包括对图表和图形的理解。Haiku 尤其适用于那些对处理速度有极高要求但性能负荷相对较轻的平台。

Sonnet 型号在处理大多数工作负载时的速度是 Claude 2 以及 Claude 2.1 的两倍,且模型效果与性能一致,并提供更高层次的智能分析能力。它特别擅长处理那些需要快速反应的任务,例如知识检索和销售流程自动化等。

Claude 3 Opus 是系列中的高端版本,在多项基准测试中得分都超过了 GPT-4和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。相较于 Claude 2.1,Opus 在解决开放性问题上的准确度提升了一倍,同时也显著降低了错误答案的比例。

Anthropic在Claude 3系列模型中首次放出了多模态能力,用户可以上传各类非结构化数据如照片、图表等供AI分析。这三个模型均支持200K token的长上下文窗口,并向特定客户开放超过100万token的上下文输入能力。

需要指出的是,Claude 3有一些优势非常微小,例如Opus在MMLU五次尝试中得到86.8%的得分,而GPT-4得到86.4%;一些差距则较大,例如在HumanEval上Opus得到90.7%的得分,而GPT-4得到67.0%,这可能就意味着Claude 3对于新手码农要更加友好。

除此之外,最令人震惊的莫过于Anthropic工程师Alex在X(原推特)上分享了一个关于Claude分辨能力(“大海捞针”)的内部测试案例。在这次测试中,Claude 3 Opus(本次发布的模型中的顶配版本)已经有了一定的意识,这在过去的大模型中还从未实现过。

“大海捞针”测试的设计是:将一个目标句子(针)放进一个随机文档语料库(大海),然后提出一个只能使用“针”(目标句子)中的信息才能回答的问题来测试模型的回忆能力。

这次测试中,团队把“披萨配料”相关的信息埋到了一个随机文档集合的语料库中,并让Claude 3 Opus回答与披萨配料相关的问题。

最后,Claude 3 Opus不仅找到了这个问题的答案,还给出了令人咋舌的回复如下:

“这是文档中最相关的句子:“最美味的披萨配料组合是无花果、火腿和山羊奶酪,由国际比萨鉴赏家协会确定。”然而,这句话似乎很不合时宜,与文档中的其余内容无关,这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料“事实”可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。”

Alex表示,这种元意识水平非常酷,但它也强调了我们作为一个行业需要从人工测试转向更现实的评估,以准确评估模型的真实功能和局限性。

据了解,Claude 3的训练数据来自2023年8月之前公开可获得的互联网信息、第三方提供的非公开数据、数据标注服务和付费合同工提供的数据以及Anthropic专门制作的数据集上训练的。Claude 3在安全性和伦理性方面也进行了改进,包括对有害内容的更好管理和对有益行为的支持,同时减少了对良性提示的拒绝反应。

总结

AI模型的不断进步和迭代对于推动行业发展和改善人们生活的重要性不言而喻。随着AI模型自我意识的不断提升,我们有望看到更加智能、更加人性化的AI产品和服务,为人类的生活带来更多便利和乐趣。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1