当前位置:首页|资讯|Claude|ChatGPT|GPT-4

Claude 2:ChatGPT最强对手测评,GPT-4地位不保?

作者:汇智智能体发布时间:2023-08-02

原标题:Claude 2:ChatGPT最强对手测评,GPT-4地位不保?

今年7月11日,Anthropic推出的Claude 2发布,国内各大公众号以“ChatGPT最强对手”等关联的标题吸引了不少关注。

网上广为流传的是,Claude 2的表现与GPT-4相当,甚至在某些方面超过了GPT-4。更重要的是,个人用户可以免费在官网上直接使用,也不会有严格的地区筛查机制。

既免费,又方便,功能还更强大,如果这是真的,那么OpenAI长期以来"LLM霸主"的地位恐怕就要不保了。

秉持着“没有调查,就没有发言权”的原则,我们的AIGC研究院第一时间对Claude 2进行了全方位的调研。

不得不说,Claude 2确实有点东西。

首先,得益于Claude 2的文件上传功能,我们可以直接将其用在一些实际工作当中的场景,比如简历写作、学习助手

第二,由于它能够处理大量的文本数据,并且能够生成对应的文本输出,且不对个人用户有GPT-4式的回答数量限制,使得一些需要长文本处理的工作成为可能。

最后,我们以Claude 2的发布作为一个出发点,研究了大语言模型提供商们的行业情况,希望能给大家作为一个参考。

Claude 2 - 简历写作小能手

得益于Claude 2的文件上传功能,我们可以直接将一份简历上传到Claude 2上,并让他进行读取和分析。

我们将一份虚构的简历输入Claude 2进行拆解

Claude 2在这项任务当中的表现很不错,可以直接把简历里面的要点提炼出来,并且能够判简历的内容是否符合目前申请的岗位,以及相应的原因。

Claude 2根据简历提供的修改建议

如果想要继续修改自己的简历,可以让Claude 2根据上传的简历提出修改建议,然后让Claude 2自行提问,并进行简历重写:

Claude 2在询问使用者后进行的简历修改

在此基础上,由于Claude 2具有超长的上下文处理能力,如果可以整合网上的一些专业建议到提示词中,比如使用“STAR”法则来描述自己的经历,就可以实现更加深入的简历修改。

当然,同样的功能也可以用在其他地方,比如对文章的内容进行提炼,然后回答自己的问题:

文章标题为:“千年前,中国就能造巨型轮船!为何现在才拥有国产大邮轮?”通过Claude 2可以快速知道答案

Claude 2 -和你一起学习

由于Claude 2超长的上下文处理能力,使得我们可以让它处理论文阅读这样的任务,这样就可以快速了解文章中的内容。

这次我们先向Claude 2提出问题,问他会怎样学习一个文献,让他进行回答之后,我们再上传文件让他根据自己提供的思路进行学习。

我们上传的文件是一篇有关提示词工程的论文()输出结果如下:

让Claude 2自行学习上传的论文,并进行提炼的结果

同样地,我们可以通过提问来学习论文当中的知识。比如我们可以问ART的实现方式,Claude 2甚至还在回答当中加入了例子:

Claude 2根据文章内容回答给出的问题

我们可以让Claude 2继续发挥,问他究竟ART有什么实际应用的例子,帮助我们进一步理解ART:

Claude 2自行生成的ART案例

诸如此类的应用还有很多。结合Claude 2这样的能力,我们可以更快速地学习一个文档,甚至从多个角度来进行阅读,进行查漏补缺。

试想一下,如果在调研工作当中用上这个功能,那么至少可以用这个功能来快速筛选文章,决定精读哪些文献、略读哪些文献。

Claude 2 - 陪你玩游戏

让大语言模型陪玩游戏,本质上是对大语言模型的智能和长文本处理能力的双重考验。因为在文字游戏的过程当中,每一轮都会让对话的文本量上升很多。

如果文本处理量不够的话,很容易就会在玩游戏的过程中卡壳,比较影响游戏体验。

这次我们采用的是一个提示词社区里面,给GPT模型设计的游戏提示词。原本在ChatGPT上只能玩几轮,GPT-4最多12轮,而这次我们通过Claude 2就可以玩到结局。

游戏第一回合

游戏中间某回合

游戏结局

整场游戏一共进行了25轮,其中不包括查询信息等非回合切换的操作,使得游戏的可玩性和可靠性上升。而这样的功能实现,离不开Claude 2的超长文本处理能力和本身的智能化程度。

行业展望 - 专业评分

截至2023年7月份,目前主流的大语言模型评分排行榜(AlpacaEval,MT-Bench和MMLU)都给出了Claude 2积极的评价。

AlpacaEval当中,Claude 2模型评分高达91.36,仅次于GPT-4的95.28分。

MT-Bench中,Claude 2模型也是仅次于GPT-4,分别为8.06和8.99

MMLU当中,Claude 2依旧排行第二,仅次于GPT-4,得分分别为78.5和86.4

考虑到Claude 2是免费开放使用,不限制3小时内的回复次数,且API价格远低于GPT-4,使得Claude 2在总体上获得了“高性价比”的印象。

行业展望 - 价格对比

我们对市面上提供了API接口的主流大语言模型的价格进行了汇总。这次的表格里面还包含了以人民币为计算货币的总价。

GPT-4的价格是Claude 2的5倍。也就是说,同样的服务,如果用OpenAI的GPT-4模型,成本将会高出5倍,但性能提升有限。

这还仅仅只是8K版本模型的价位,32K版本的价格还要更高。

Claude 2目前具备100K tokens的处理能力,未来有可能开放200K。

在其他模型上,Claude家族的快速模型Claude Instant价格虽然比GPT-3.5-Turbo要高出来一点,但Claude Instant的文本处理量也达到了100K Tokens,相比之下GPT-3.5-Turbo的Token处理量,默认是8K,16K的版本价格更高。

总体上看来,Claude系列模型的性价比高于OpenAI的GPT-4和GPT-3.5-Turbo,使得其长文本处理能力更加具有竞争力。

行业展望-差异化竞争初见端倪

随着ChatGPT的爆火,国内外各大厂争相杀入大语言模型市场,目前已经开始有差异化竞争的趋势。

总体来说,OpenAI提供的开放插件平台以及API的支持,是在吸纳更多的应用开发者为其开发应用,有一点像是App Store的路线。

Anthropic虽然也有API,但是需要审核,并没有OpenAI那样大规模的开放接口,更多的是提供一个具备超长文本处理能力且智能的免费使用窗口吸纳用户,然后和企业级用户进行应用开发的合作。

Meta方面则通过将自家的LLaMa系列模型开源,为大众提供一个免费的解决方案,走上了类似于安卓系统的道路。

目前,OpenAI的大语言模型已经应用在如下方面:

1.商业和生产力:OpenAI的GPT模型可用于起草文档、自动化客户支持以及增强像Algolia(NeuralSearch)答案产品这样的应用程序中的搜索功能。结合大语言模型可以反馈出更具有信息整合能力的搜索引擎。

2.创意写作和内容生成:可用于各种应用程序中的内容生成、创意写作和文本摘要。目前在数字媒体方面已经有所应用。

3.教育和学习:OpenAI的ChatGPT API已经集成到了Quizlet这个全球学习平台,并推出了Q-Chat。这是一个可以帮助学生通过聊天来学习不同的主题和语言AI导师,能够根据学生的水平和风格提供个性化的问题和反馈。

4.医疗保健:OpenAI的API已经被应用在开发各种能够诊断疾病、提供医疗建议并改善患者护理的AI系统中。比如说,有些医疗应用程序就集成了AI驱动的聊天机器人,可以提高患者的护理质量和沟通效果。

5.其他:OpenAI的GPT模型还可用于芯片制造,如ChipChat等。

Anthropic和企业及客户的合作如下:

1.谷歌云:Anthropic与谷歌云达成合作关系,以提供可靠和负责任的AI解决方案。作为此合作关系的一部分,Anthropic选择谷歌云作为首选云提供商,谷歌云计划为Anthropic构建大规模的TPU和GPU集群,用来训练和部署它的AI系统。

2.Zoom:Anthropic与Zoom达成战略合作伙伴关系,把它的生成式AI模型Claude集成到了Zoom的联系中心组合里。作为合作的一部分,Zoom还对Anthropic进行了投资。

3.DuckDuckGo:Anthropic与DuckDuckGo密切合作,在遵守严格的隐私要求的同时提高DuckAssist答案的质量。

4.AssemblyAI:Anthropic与AssemblyAI合作,后者是一家创新性AI公司,专注于大规模转录和理解音频数据。此合作利用了Anthropic的Claude来实现音频到文本的转换。

5.Notion:Anthropic把Claude和流行的生产力应用Notion结合起来,帮助个人和企业利用AI提高生产力。Claude在这个集成中发挥了关键作用,它能够进行创意写作和总结。

6.Juni Learning:Juni Learning是在线教育解决方案的领先提供商,它使用了Anthropic的AI来给Discord Juni Tutor Bot赋能,这是一种在线辅导解决方案,帮助学生取得学业成功。

7.Scale AI:Anthropic和Scale AI联手提供企业级生成式AI解决方案。这个合作关系结合了Anthropic的会话式AI助手Claude和Scale AI强大的应用程序实验、开发和部署平台。

Meta的LLaMA由于公布了大模型本身,使得企业级用户甚至是独立开发者可以通过LoRA(Low Rank Adaptation for Large Language Models)的方式来对大模型进行微调(Fine-Tuning),并部署在自己的服务器或其他计算机上。

相比于Azure和OpenAI推出的Azure AI Studio服务来说,LLaMA模型更具有自由度,且可以避开过于严格的审核机制。

此外,开发者可以根据自己的需求,定制运行LLaMA运行的硬件等。Lightening AI的Sebastian Raschka表示,LLaMA第一代模型比起传统的机器学习算法,在准确度上有5%至10%的提升。

总结

综上所述,GPT-4、Claude 2和LLaMA等新兴的生成式语言模型正快速发展,显示出在自然语言理解和生成方面的强大能力。它们在一定程度上已经可以进入生产力领域。

各大厂商推出的模型开始走向差异化。模型开始具有自己的特点,让开发者可以根据实际需求来选择使用。

OpenAI提供强大的预训练模型和应用生态;

Anthropic拥有长文本处理能力且开放普通用户免费使用,同时面对企业级用户提供优惠价格;

Meta的LLaMA开源架构则提供了高度自定义化的能力。

但无论是哪种大模型,都需要针对垂直行业进行落地,才能把强大的能力转化为市场价值。

在调研中,我们也发现,不论是Claude 2 还是GPT4都时常会出现张冠李戴,编造事实的情况。

对很多问题,尤其是专业方面问题的回答,是不够准确的,这对于在商业上的应用可能不够友好。

为了更好地发挥大模型的效用,还需要将大模型由“大”变“小”,让“学识广博”的大模型,转变为更精更专的“行业智能体”。

比如,针对短视频营销的旺氪智能体、针对出版行业的阅读智能体、针对电竞行业的小夫智能体等。

智能体产品示意图

虽然这类小模型并不能像Claude 2那样能同时实现阅读、学习、游戏等多种场景,但却能在自己的领域内发挥最大的效用,保证专业知识的准确性,这才能应用到实际的场景中。

这就好比那个“千古难题”:

你是想做一个什么都会,但什么都学得不精的人,还是想做一个在专业领域内做到顶级,但在其他方面并不突出的人?

对于个人来说,这个问题其实并没有标准答案。但对于企业来说,大概率是会选择后者作为自己的员工。

而现在,这个员工未必是真人,也可以是各种各样的行业智能体。

未来随着计算力的增强、数据量的扩充以及模型训练技术的进步,我们有理由相信AI系统的语言能力会不断提升,并在更多领域展现出智能化的行为。

可以预见的是,未来将会有更多利用大语言模型为基础的应用开发形态出现,更有效地解决各行各业的问题,挖掘更大的商业价值和潜力。

编辑:Samantha


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1