GPT-4o一夜被赶超，Anthropic推出Claude 3.5，网友3分钟克隆马里奥游戏

作者：智东西发布时间：2024-06-21

Claude OpenAI

一夜之间，刚封神的GPT-4o被赶超了。

智东西6月21日报道，昨日晚间，Anthropic推出了新一代大模型Claude 3.5 Sonnet，在多项全球权威测评中一举超越了OpenAI的GPT-4o。

Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus，在研究生水平的推理（GPQA）、本科生水平的知识（MMLU）和编码能力（HumanEval）多方面，也都刷新了行业基准。

在速度和成本方面，Claude 3.5 Sonnet是Claude 3 Opus的两倍，加上优惠的价格，它很适合帮用户处理编程、联动程序等复杂任务。

目前，用户可以通过Claude网页和iOS程序免费试用Claude 3.5 Sonnet，付费用户能更高速访问。

同时，客户可通过Anthropic API、Amazon Bedrock和Google Cloud获取该模型。API的收费标准是3美元/每百万输入tokens，15美元/每百万输出tokens，支持200k tokens上下文窗口。

发布之后，Claude 3.5 Sonnet立马在AI圈引起轰动。有网友称，使用Claude 3.5 Sonnet编程比GPT-4o效率高10倍。

有网友3分钟完成了马里奥游戏的克隆版，称最疯狂的是基于最新Artifacs预览功能，一键看到编程应用的预览效果。

Anthropic被视为OpenAI最有力的竞争对手之一，本次Claude 3.5 Sonnet的发布可谓狙击GPT-4o。这是其Claude 3.5的中杯版本，Claude 3.5 Haiku和Claude 3.5 Opus计划今年晚些时候推出。

有一个有意思的细节，在Anthropic的演示视频中出现的演示用户是“Sam”，这似乎是在问候OpenAI的CEO Sam Altman。

官方地址：https://claude.ai/

01.生成2倍速，多项能力赶超GPT-4o

Claude 3.5 Sonnet在其公布的GPQA、MMLU、HumanEval等所有测评中，都超越了OpenAI的GPT-4o，仅数学能力得分略低于GPT-4o。

在AI搜索引擎创企Perplexity的试用评估中，Claude 3.5也获得了优于GPT-4o的表现。Claude 3.5 Sonnet现已在付费AI搜索引擎Perplexity Pro上推出。

在社交媒体X，不少第三方测评团队也给出了试用结论，相比于GPT-4o，Claude 3.5 Sonnet几乎成了推理、语言、编程、数据分析、数学和指令遵循方面的“六边形战士”。

Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus，在速度和成本方面，Claude 3.5 Sonnet也与Anthropic的中端型号Claude 3 Sonnet旗鼓相当——运行速度是Claude 3 Opus的两倍，成本仅1/5。

在内部代理编码评估中，Claude 3.5 Sonnet成功解决了64%的问题，表现优于仅解决了38%的Claude 3 Opus。在得到指导和相关工具后，Claude 3.5 Sonnet 能够独立编写、编辑和执行代码，并具备复杂的推理和故障排除能力。

有网友在社交平台X贴出使用体验，仅仅25秒，Claude 3.5 Sonnet帮他编写了一个功能整齐的游戏程序。

02.最强视觉模型，多测评超GPT-4o，图表识别能力炸场

Claude 3.5 Sonnet也是Anthropic目前最强大的视觉模型。

它在标准视觉基准测试中超越了Claude 3 Opus。对于需要视觉推理的任务，如解释图表和图形，这些改进尤为显著。此外，Claude 3.5 Sonnet还能准确地从质量不高的图像中转录文本。

如下图所示，在多项权威测评中Claude 3.5 Sonnet超过了GPT-4o，在所有测评中超越了Gemini 1.5 Pro。

如下图所示，Claude 3.5 Sonnet可以快速识别PDF文件内容并输出折线图。

当被继续要求生成网页演示内容，Claude 3.5 Sonnet也可以胜任。

03.颠覆对话式协作，交互升级，四步编程并渲染游戏

现在，Anthropic还将在Claude.ai上推出Artifacts这一新功能，相当于一个预览功能，用以丰富用户与Claude的互动方式。

当用户请求Claude生成代码片段、文本文档或网站设计等内容时，这些Artifacts将在一个专用窗口中与对话一同展示。这为用户提供了一个动态工作区，他们可以实时查看、编辑和构建Claude的创作，将AI生成的内容融入自己的项目和工作流程中。

这一功能的推出标志着Claude从对话式AI向协作式工作环境的进化。

如下图所示，如果要搭建一款游戏并预览效果，用户进需要四个步骤。

首先，输入文本让Claude 3.5 Sonnet生成一个特定大小和风格的角色。

然后，让Claude 3.5 Sonnet为类似风格的视觉要素编程。

紧接着，一个整体的游戏页面被搭建出来，用户可以随时看到代码的生成过程。

最后，就连游戏运行起来的效果，用户也可以通过Artifacts模式进行预览。

在社交媒体X上，有网友称“这太疯狂了”，认为工件+渲染窗口是最佳的编码方式。

作为Anthropic对安全和透明度的承诺，Anthropic最近已将Claude 3.5 Sonnet提供给英国人工智能安全研究所（UK AISI）进行部署前的安全评估，并与美国人工智能安全研究所（US AISI）分享了结果。

Anthropic称其模型开发的核心原则之一是保护隐私。除非用户明确允许，否则Anthropic不会使用用户提交的数据来训练生成模型。Anthropic称其到目前为止未使用任何用户数据来训练生成模型。

04.结语：OpenAI劲敌出手，追击GPT-4o

Anthropic被认为是OpenAI最强竞争对手之一，Claude 3.5 Sonnet是Claude 3.5系列首款产品，今年晚些时候推出的Claude 3.5 Haiku和Claude 3.5 Opus，是等待OpenAI的后招。

除了研发下一代模型系列，Anthropic还在开发支持企业应用的功能和模式，包括与企业应用程序的集成。Anthropic的团队还在探索诸如“记忆”这样的功能，让Claude能够记住用户的偏好和特定的交互历史，从而提供更加个性化和高效的用户体验。

本文来自微信公众号“智东西”（ID：zhidxcom），作者：李水青，编辑：心缘，36氪经授权发布。

近期资讯

Artec Leo与Artec RayII强强联手创建逼真文物数字孪生-沪敖3D

挑战：荷兰的一支翻修队在Hagha教堂破旧木地板下意外寻得墓碑。原计划仅是更换地板加固教堂，现需确保这些珍贵发现能让公众一睹真容。团队采用3D扫描技术，细致捕获整个教堂及其隐藏的历史遗迹，成功应对挑战。解决方案：Artec Leo、Artec Ray II、Artec Studio 效果：每块墓碑都经过Artec Leo的详尽扫描，生成精准的3D模型。Artec Ray II助力团队处理扫描教堂整个地板的海量数据。随着项目接近尾声，这座具有重要历史意义的教堂也焕然一新。透过VR眼镜即可虚拟漫步其中，细赏

沪敖3D 2024-12-26

李於菟22 2024-12-27

即将走马上任的美国当选总统特朗普，再次抛出“惊人之语”，让美国媒体惊呼：“特朗普似乎正在考虑美国领土扩张”，“向巴拿马、格陵兰和加拿大扩张”。也让法国媒体出言讽刺，“这位美国当选总统在距离重返椭圆形办公室还有四周之际，对华盛顿一些最亲密盟友的主权发起挑战，凸显他作为‘全球首席颠覆者’的资质”。而12月25日，参考消息援引此消息的标题，则更耐人寻味，标题内容为：特朗普等不及了！美网友：好尴尬……尴尬啥？尴尬是他们用选票将其重新推上总统宝座的特朗普，还没上台，就接二连三、毫不掩饰地提出了对外领土要求，将霸权主

俞洁讲武堂 2024-12-27

乳胶再生胶生产橡胶减震垫配方，保证质量降低原料成本

橡胶减震垫是一种广泛应用于汽车、机械、建筑等领域的重要零部件，其主要作用是减少震动和噪音，保护设备和结构的稳定性和安全性。然而传统的橡胶减震垫生产过程中，使用的原材料成本较高，而且生产过程中会产生大量的废弃物，对环境造成不良影响。为了解决这些问题，使用乳胶再生胶生产橡胶减震垫配方成为了一种新的解决方案。乳胶再生胶是一种由废旧天然橡胶制品经过加工处理后得到的再生橡胶，其具有良好的物理性能和化学稳定性，可以广泛应用于橡胶制品的生产中。HONG~YUN乳胶再生胶生产橡胶减震垫配方的优势在于，可以降低原

鸿运再生胶 2024-12-27

认知战认知作战：解读2000年小布什戈尔总统选举争议的策略博弈

[链接] 认知战认知作战：解读2000年小布什戈尔总统选举争议的策略博弈认知战认知作战：解读2000年小布什戈尔总统选举争议的策略博弈关键词：认知作战,新质生产力,人类命运共同体,认知战,认知域,认知战研究中心,认知战争,认知战战术,认知战战略,认知域作战研究,认知作战,认知控制,战略思想,Cognitive Warfare,Cognitive Domain,Cognitive Control,认知域作战,认知战,认知战,认知作战,布什,戈尔,2000年总统选举,选票争议,悬挂选票,空心选票,媒体操

认知作战壳吉桔 2024-12-27

GPT-4o一夜被赶超，Anthropic推出Claude 3.5，网友3分钟克隆马里奥游戏

01.生成2倍速，多项能力赶超GPT-4o

02.最强视觉模型，多测评超GPT-4o，图表识别能力炸场

03.颠覆对话式协作，交互升级，四步编程并渲染游戏

04.结语：OpenAI劲敌出手，追击GPT-4o

推荐体验

相关资讯

Anthropic推出Claude 3.5，力压GPT-4o和Gemini 1.5 Pro

新火种AI|Claude 3.5一夜封王超越GPT-4o！留给OpenAI的时间不多

与“超级马里奥”一起强化学习

“OpenAI劲敌”Anthropic发布Claude 3.5——史上最强AI大模型、吊打GPT-4o、免费可用

全球最强模型一夜易主？Anthropic声称新模型Claude 3性能超越GPT-4接近人类

近期资讯

Artec Leo与Artec RayII强强联手创建逼真文物数字孪生-沪敖3D

挂靠国企的私企相对不挂靠的有什么优势？

Phoslock®锁磷剂：高效治愈大型湖泊水库富营养化

你就是东方圣人　山林子自然道德智慧教育慧商

250年前东归中国的土尔扈特人，现在怎么样了

赫鲁晓夫的泥潭：1953-1964年的苏维埃政权 4-3A

从唐诗看科举一：画眉如何识深浅——公平竞争背后的博弈

特朗普等不及了……

乳胶再生胶生产橡胶减震垫配方，保证质量降低原料成本

认知战认知作战：解读2000年小布什戈尔总统选举争议的策略博弈

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响