秒杀GPT-4,狙杀GPT-5,横空出世的Claude 3直接振奋了人心!
2024年第一季度才刚过半,AI领域就大动作不断,大家卯着劲的出新品,可谓卷出天际。
3月4日,Anthropic发布了最新的Claude 3系列模型,用Anthropic的话说,Claude 3的出现意味着打开了一个全新的世界,其系列模型在推理,数学,编码,多语言理解和视觉方面,都树立了全新的行业新基准。
也正是因为Claude 3的出现,全球最强AI模型一夜易主,曾经被认为不可一世的GPT-4被拉下神坛,Claude 3很可能对GPT-4实现全方位的碾压。
Anthropic发布3个模型,全方位实现Claude 3的超强性能。
据悉,本次Anthropic共发布了三个模型,按照性能从低到高,分别是Claude 3 Haiku,Claude 3 Sonnet,以及Claude 3 Opus,并发布了一份长达42页的技术报告。
值得一提的是,此次3个模型的命名是很有讲究的。依照功能的从低到高,它名字的翻译分别是绯句(Haiku),代表性价比之王;十四行诗(Sonnet),代表响应较快,是性能加强版;以及巨作(Opus),堪称性能顶配。
由此可见,Claude 3 Opus在本系列中性能最强大。该模型已在多项AI系统常用评估标准中领先业界LLM,如本科级别专业知识(MMLU),研究生级别专家推理(GPQA),基础数学(GSM8K)等。特别需要说明的是,Claude 3 Opus在处理复杂任务时,其理解和表达能力几乎接近于人类,这意味着人类在AI领域又迈进了一大步。
通过将Claude 3系列模型与同类产品进行对比,我们可以看到,Claude 3 Opus模型性能完全能够碾压GPT-4,以及Gemini 1.0 Ultra;Claude 3 Sonnet在部分基准上,诸如GSM8K,MATH等方面超越了GPT-4;Claude 3 Haiku也可以与Gemini 1.0 Pro相抗衡。
拥有三大核心优势傍身,Claude 3前途无量。
总结Claude 3所具有的优势,主要有以下三点:
性能无短板,擅长长文本优化,显著降低拒绝率。
先来说说性能方面。Claude 3的大语言模型全面赶超了GPT-4,多模态视觉任务处理性能力优秀,在回答复杂开放性问题时的准确率也翻倍提升。特别是当用户直接上传数学,物理这一类考验逻辑和准确度的理科题照片,或者细节丰富的图表时,Claude 3所回复的解题水平和准确率相较于先前版本提高了很多,甚至在一些细节描述上比GPT- 4更胜一筹。在多模态能力方面,Claude 3模型可以从视觉上识别物体,能用复杂的方式思考,既能理解物体的外观,也能理解它与数学等概念的联系。
Anthropic AI研究工程师Emmanuel Ameisen就晒出了一个测试示例:向Opus输入2小时13分钟视频原始文本,每隔5秒截取的屏幕截图等图文素材,它就能成功将其转换成一篇图文并茂的HTML格式博客文章。
在文本优化方面,Claude 3也交出了一份令人满意的答卷。要知道,先前的Claude 2.1版本常被吐槽长文本理解效果差,Claude 3便在这个方面做了重点改进,顶配Opus在200K tokens NIAH测试中准确率超过99%,展现了强大的召回能力(1K tokens相当于750个单词)。
此外,Claude 3还显著减少了拒绝回答问题的频率。很多大语言模型会频繁拒绝回答询问,Claude 3则显著改进了这一点,它能够更明确的辨别真正的风险问题,减少无故拒绝回答安全询问的情况。
“OpenAI叛军”完美制衡住了GPT-4,未来的AI王者将鹿死谁手?
Anthropic用一记绝杀将GPT-4拉下了神坛,很多人觉得这是AI新秀的一次胜利。但如果你了解过Anthropic与OpenAI之间潜藏的错综复杂关系的话,就会发现此次Claude 3的胜利,并非偶然。
Anthropic究竟是谁?有消息来源表示,Anthropic其实就是原OpenAI员工组建的公司,这些员工因为某些发展理念不合直接出走,并选择“反叛”,最终成为了OpenAI的最强劲敌。
2021年,多名OpenAI员工不满OpenAI在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。
这一干出走的员工之中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei。他在2016年进入OpenAI,离开前担任研究副总裁,这绝对是OpenAI的核心位置。离开时,Dario还带走了GPT-3首席工程师Tom Brown,以及担任安全与策略部门副总监的妹妹Daniela Amodei以及10多名心腹,可谓人才多多。这些人才,也最终成为了Anthropic的中流砥柱。
2023年1月,Claude开启内测,彼时很多网友在第一时间体验了Claude,并表示它比当时的GPT-3强太多。
除了拥有诸多人才,Anthropic如今也获得了强大的资本为其背书,截至目前,它已经获得了包括谷歌,亚马逊云科技在内的26个机构或个人的融资,总计融资金额达到了76亿美元。
毫无疑问的是,如今Anthropic的飞速发展和进步令更令业界十分振奋。这个仅诞生3年的大模型初创公司,不是手握顶级人才,更拥有了钞能力和雄厚的计算资源。这说明OpenAI在大模型技术上的领先身位并非遥不可及。坐拥Top级创始成员和精兵强将的创业团队,完全有能力做出与OpenAI风庭抗礼的产品,所消耗的人力,财力,算力资源却只会更少。
Claude 3的横空出世和巨大成功或许会给我们带来一些启发:或许,我们也是有机会和能力来做出超越GPT-4的产品的。
如果单论规模,Anthropic显然不及OpenAI,但它依旧取得了巨大的成功。每每提起AI赛道,我们总会认为这个赛道就是要无止尽的烧钱,卷人才,卷技术。不过,相较于耗费了多大的成本去卷,怎么卷,朝哪个方向卷显然是更重要的事情。毕竟,在AI领域,选择永远大于努力。
或许在不久的未来,OpenAI还会推出令人惊艳的GPT-5,但至少就目前而言,GPT不可战胜的神话已经破灭了。