Claude 3.5 Sonnet 更新后在编程领域是目前世界上最好的模型! 在SWE-bench验证测试中的表现从33.4%提高到了49%(SWE-bench 一个专门用于测试大模型解决实际GitHub问题能力的数据集),超过了所有公开模型,包括OpenAI的O1 Preview,并在编程能力创下新纪录,提高到了93.7%,超过了GPT-4o [图片] 上面的基准测试不包含 OpenAI的O1 Preview。 Claude Sonnet 3.5 对比 OpenAI的 O1 Preview 在某些基准测...【查看原文】