Claude 3.5 Sonnet编程和数学等能力强大，网友见证“魔法时刻”

作者：多知网发布时间：2024-06-22

来源|多知

作者|Penny

6月20日晚，OpenAI的竞争对手Anthropic在周四宣布了其迄今为止最强大的人工智能模型Claude 3.5 Sonnet。据介绍，Claude 3.5 Sonnet比其之前的模型Claude 3 Opus快两倍，价格只有五分之一。

Claude 3.5 Sonnet是Anthropic新推出的Claude 3.5系列中的第一个模型，可以说是下一代版本的中间版本。

Anthropic还推出“Artifacts预览版”，用户能从中编辑和迭代AI模型生成的内容，无缝集成到自己的项目和工作流程中。

根据Anthropic介绍，Claude 3.5Sonnet在覆盖阅读、编程、数学和视觉等领域的多项性能测试中性能略胜一筹，超过GPT-4o等一众竞争对手的AI模型，且优于自家旗舰模型Claude 3 Opus。

Anthropic称，在得到指导和相关工具后，Claude 3.5 Sonnet 可以独立编写、编辑和执行代码，并具有复杂的推理和故障排除功能。它可以轻松处理代码转换，使其特别适合更新旧版应用程序和迁移代码库。

全球网友开始试用Claude 3.5 Sonnet，可以看到，其最强大的能力是编程能力。

比如网友Allie K.Miller利用Claude 3.5 Sonnet 编写曼卡拉数学游戏。

她说：“这太疯狂了。在短短 25 秒内，Claude 3.5 Sonnet 就为我编写了一个功能齐全的曼卡拉游戏应用程序，我只提供了游戏说明的一张屏幕截图。

它完成了其余的工作：- 编写了整个游戏 - 预览了游戏，以便我可以测试 - 提供了游戏规则。”

不过，Allie K.Miller很快发现有代码错误，然后告诉了Claude 3.5 Sonnet 修复它。Claude 3.5 Sonnet 在几秒钟内就修复了。

曼卡拉是古老的数学棋盘游戏，可能起源于公元前6000年的约旦，至今仍在全球各地流行。这个游戏由石头组成，玩家在木制游戏板上移动石头，将所有石头放入棋盘末端的最后一个坑中是游戏的关键。

来看看Claude 3.5 Sonnet的设计效果：

网友João Montenegro用Claude 3.5 Sonnet 制作了一个 threejs+cannonjs 3d 太阳系，其中包含物理和碰撞。

来看看实际效果：

网友Janet认为，Claud呃推出的 Artifact过于强大，可瞬间写完一个网站，速度非常快，简直是“神圣的魔法时刻”。

网友calix huang用Claude 3.5 Sonnet生成了一张芯片制作过程的图。

可以看到，Claude 3.5 Sonnet视觉能力比较强，不仅清晰制作出各种静态图片，利用工具还能制作动图、动画。

网友Timothy B. Lee让Claude 3.5Sonnet判断“100便士和三个25美分硬币，谁更有价值?”

Claude3.5Sonnet首先给出答案是“三个25美分硬币更有价值”。

后来通过解析：100便士 = 1美元，三个25美分 = 0.75美元

最终认为：“0.75美元小于1美元，所以100便士比三个25美分更有价值。”

很明显，Claude3.5Sonnet给出了两个截然相反的答案。

Timothy B. Lee说“你自相矛盾”。Claude3.5Sonnet马上道歉，说“自己错了”，然后经过推导，最后才得出结论“100便士更有价值”，并再次致歉。

可以看到，Claude 3.5 在一些数学问题上可以解答出来，但是它可能并不知道自己给出答案的底层逻辑，以至于“思维混乱”。

Timothy B. Lee总结说：“到目前为止，Claude3.5总体上给我留下了深刻的印象，但它有时仍然会犯一些愚蠢的错误。”

总体而言，Claude 3.5 Sonnet有很大的进步，但是幻觉问题依然存在。

Claude的运营公司Anthropic被认为是OpenAI最大的竞争对手，由前OpenAI研究高管创立，曾得到了包括Google、Salesforce和Amazon在内的投资者支持。在过去一年中，Anthropic完成了五笔不同的融资交易，总计约73亿美元。

相关资讯

Claude 3.5 Sonnet 更新后是编程领域的王者

Claude 3.5 Sonnet 更新后在编程领域是目前世界上最好的模型！在SWE-bench验证测试中的表现从33.4%提高到了49%（SWE-bench 一个专门用于测试大模型解决实际GitHub问题能力的数据集）,超过了所有公开模型,包括OpenAI的O1 Preview,并在编程能力创下新纪录，提高到了93.7%,超过了GPT-4o [图片] 上面的基准测试不包含 OpenAI的O1 Preview。 Claude Sonnet 3.5 对比 OpenAI的 O1 Preview 在某些基准测

Claude GitHub 编程 OpenAI

浩叔_AI应用开发指南 2024-10-25

Claude 3.5 Sonnet升级发布

大家期待已久的Claude3.5更新啦，更新内容：推出升级版 Claude 3.5 Sonnet 和新型号 Claude 3.5 Haiku，还有在测试版中引入了一项新功能：计算机使用。一、中转api介绍由于 OpenAI 、Google等对国内用户做了限制，导致国内用户很难轻松使用 ChatGPT 类服务，很多基于 ChatGPT 的聊天软件，国内的网络状况都不允许直连 api.openai.com （OpenAI 的 API 地址）。同时大模型开发使用的 langchain、llamainde

Claude Claude3 ChatGPT OpenAI 谷歌

feifei6667 2024-10-27

如何快速接入最新的 Claude 3.5 sonnet？

一、中转api介绍由于 OpenAI 对国内用户做了限制，导致国内用户很难轻松使用 ChatGPT 类服务，很多基于 ChatGPT 的聊天软件，国内的网络状况都不允许直连 api.openai.com （OpenAI 的 API 地址）。同时大模型开发使用的 langchain、llamaindex 等库，往往需要用户传入 OpenAI API Key，因此中转api key应运而生。无论商用或者自用皆可！请不要以为中转api 是翻版，中转api调用的也是官方真实模型，不是随便找个模型来对接。通

Claude ChatGPT OpenAI

bili_32654276308 2024-08-20

Claude 3.5 Sonnet编程和数学等能力强大，网友见证“魔法时刻”

推荐体验

相关资讯

Claude 3.5 Sonnet 更新后是编程领域的王者

Claude 3.5 Sonnet升级发布

如何快速接入最新的 Claude 3.5 sonnet？

最新Claude 3.5 sonnet api，官方计价，稳定快速

国内如果轻松快速用上Claude 3.5 Sonnet

近期资讯

突然换帅，新领导能“振兴”王老吉吗？

国产「替代 iPhone」暗战：四大果味手机，谁让苹果焦虑？

互联网30年破灭的6个神话

28个品牌88次高管调动，美妆人事大地震

从赚超40%到亏损10%，百亿私募希瓦资产业绩为何“翻车”？

苹果的2024：产品乏善可陈，AI命途多舛，生态墙正加速瓦解

厦门杀出超级IPO：年入3.68亿，中国第一，打破垄断

2024，影视文娱九大趋势

这届年轻人爱上“老年模式”：数字生活极简化的一条蹊径？

2025年A股展望：红利股微盘股谁是“大主流”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响