当前位置:首页|资讯|ChatGPT|Claude

ChatGPT 最强竞争对手 Claude 2 推出公开 Beta 版,我们上手实测了一把!

作者:CSDN发布时间:2023-07-13

ChatGPT 最强竞争对手 Claude 2 推出公开 Beta 版,我们上手实测了一把!

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

叮叮叮,又一款聊天机器人——Claude 2 来了,它可以编写代码、分析文本和撰写文章,当然也支持中文!

其实,Claude 2 的聊天机器和 OpenAI 也颇有渊源,因为它是 OpenAI 前高级成员 Daniela Amodei 和 Dario Amodei 在离职后创立的 Anthropic 公司开发的。

今年 3 月,创立仅 2 年的 Anthropic 便推出了 Claude 的初版,彼时在申请测试之后,有不少媒体直接将其定位为“ChatGPT 最强劲的竞争对手”。

为什么这么说?

从最新的 Claude 2 来看,用户可以直接通过 Anthropic 网站使用上 Claude 2,而不需要等待漫长的“候选名单”。不过,目前仅限美国和英国地区用户使用 。

同时,需要花 20 美元付费购买 ChatGPT Plus 服务才能用上的一些功能,如上传文件自动总结 PDF 文档,可以在 Claude 2 上免费就能用上。

而且,Anthropic 声称 Claude 2 在三个关键领域展示了进步:编码、数学和推理。他们在博客中写道:“我们最新的模型在律师考试多项选择部分的得分为 76.5%,高于 Claude 1.3 的 73.0%。与申请研究生院的大学生相比,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与申请者的中位数类似。”

那么,Claude 2 和 ChatGPT 相比,真实能力究竟如何?是否能赶超 ChatGPT?CSDN 也在第一时间上手体验了一下!

自我介绍

话不多说,先让大家对它有个基础的了解:

常规聊天机器人有的能力,Claude 2 都有,而且正如上文所说,多了一个“查找并提取信息”的能力。

和 Google Bard 相比,至少 Claude 2 是支持中文的,不过在理解能力上还有一定的局限性。

稍微尖锐一些的话题,当问及 Claude 2 ,它和 ChatGPT 相比有何优势时,Claude 2 直白地拒绝做比较。同时,不知道是不是中文能力不太好,在回答问题的过程中出现了一些不明所以的数字内容。当问及它时,它也进行了解释,“数字就是一段无意义的数字串。”

编码

根据Anthropic官方表述,在编码能力方面,Claude 2 表现出熟练程度的提高。它在Python 编程测试 Codex HumanEval上的得分从 56% 上升到 71.2%。

先来一道简单的编码问题。

问:用 Python 实现冒泡排序

Claude 2 最终会对代码思路进一步讲解,方便即使不太精通代码的用户也能了解。

提问:

Claude 2:

自动总结 PDF 文档

在查找并提取信息维度,我们通过上传一篇《Exploring Length Generalization in Large Language Models》的 PDF 论文,让其帮忙总结。

Claude 2 在响应速度和生成内容维度表现都不错,而且用中文提问,即使文档是全英文的论文,其生成的总结内容也是采用中文输出:

数学问题

同样,根据官方评测,Claude 2 在 GSM8k(一项包含小学数学问题的测试)上,它的得分从 85.2% 提高到 88%。

那我们便以经典的鸡兔同笼问题来检测一下 Claude 2 的能力。

有些出乎意料的是,Claude 2 给出的思路是对的,但是在计算时出现了错误。当告诉它“算错了”时,它也会及时明白错误,并在重新输出后给出了正确的答案:

再来一题:7 年前,妈妈年龄是儿子的6 倍,儿子今年 12 岁,妈妈今年多少岁?

这一次 Claude 2 没有出错。

再试试看:同学们进行广播操比赛,全班正好排成相等的6行。小红排在第二行,从头数,她站在第5个位置,从后数她站在第3个位置,这个班共有()人。

几轮下来,Claude 2 在小学数学能力表现方面还不错。

ChatGPT vs Claude 2

互为竞品,我们还让 ChatGPT 给 Claude 2 出了一道题:

 Claude 2 很快给出了答案:

再让 ChatGPT 来评价一下:“非常棒的工作,Claude 2!它成功地解决了这道问题。”

闲聊

虽然 Claude 2 说自己的中文理解能力还有限制,但是我们还是忍不住地试了一下:

通过这个示例,Claude 2 表现让我们感到了惊喜。

再试一次:

还不错!

最后

整体而言,像 Claude 2 这样的人工智能模型可以分析长而复杂的作品,但 Anthropic 仍然意识到它的局限性。毕竟,语言模型有时会凭空捏造一些东西,也会像计算数学题一样出错。

而且整体体验下来,如果说其能力超过了 ChatGPT,其实还为时尚早。具体在使用时候,还是建议大家需要对输出内容自行验证,工具只能作为辅助。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1