鞭牛士报道,11月23日消息,OpenAI的闹剧吸引了大部分注意力,但其由前员工离职创办的挑战者Anthropic趁机发布了其功能强大的聊天机器人的最新版本。
Anthropic 刚刚发布了Claude 2.1,这是一种大型语言模型 (LLM),提供 200,000 个令牌上下文窗口,这一功能超过了OpenAI最近宣布的GPT-4 Turbo的 120K 上下文。这一战略版本带来的上下文处理能力几乎是其最接近的竞争对手的两倍,并且是与谷歌长期合作的成果,使这家初创公司能够使用其最先进的张量处理单元。
Anthropic 在今天早些时候的一条推文中表示:我们的新模型 Claude 2.1 提供了业界领先的 200K 代币上下文窗口,幻觉率、系统提示、工具使用和更新的定价降低了 2 倍。
Claude 2.1 的推出满足了人们对能够精确处理和分析长篇文档的人工智能不断增长的需求。这一新的升级意味着 Claude 用户现在可以处理与整个代码库或经典文学史诗一样广泛的文档,从而释放从法律分析到文学批评的各种应用程序的潜力。
这种扩展到 200K 令牌窗口的扩展不仅仅是增量更新:如果 Claude 2.1 和 GPT-4 Turbo 之间的检索率(从长提示中准确掌握信息的能力)成正比,那么 Claude 2.1 将能够处理 GPT-4 Turbo的提示比OpenAI的模型更准确。
AI 研究员 Greg Kamradt 很快对 Claude 2.1 模型进行了测试。
「从大约 90K 代币开始,文档底部的召回性能开始变得越来越差,」他总结道。他的调查发现 GPT -4 Turbo 的退化水平类似,大约有 65K 个代币。「我是 Anthropic 的忠实粉丝——他们正在帮助突破法学硕士的表现并为世界创造强大的工具,」他写道。Anthropic 对减少 AI 错误的承诺在 Claude 2.1 的准确性提高中显而易见,声称幻觉率降低了 50%。与 Claude 2.0 相比,这意味着真实性增加了一倍。这些改进针对一组旨在挑战当前模型局限性的复杂、事实性问题进行了严格测试。正如Decrypt之前报道的那样,幻觉是克劳德的弱点之一。准确率的如此大幅提高将使 LLM 与 GPT-4 的竞争更加激烈。
通过引入 API 工具使用功能,Claude 2.1 还可以更无缝地集成到高级用户的工作流程中,展示其协调各种功能、搜索网络以及从私有数据库中提取数据的能力。虽然仍处于测试阶段,但此功能有望将 Claude 的实用性扩展到一系列操作,从复杂的数字推理到提出产品推荐。
此外,Anthropic 的 Claude 2.1 还具有系统提示功能,旨在提升用户与人工智能之间的交互。这些提示允许用户通过指定角色、目标或风格来为克劳德的任务做好准备,从而增强克劳德在角色扮演场景中保持性格、遵守规则和个性化响应的能力。这与 OpenAI 的自定义指令相当,但在上下文方面更广泛。
例如,用户可以指示 Claude 在总结财务报告时采用技术分析师的语气,确保输出符合专业标准。这种通过系统提示进行的定制可以提高准确性,减少幻觉,并通过使交互更加精确和上下文相关来提高作品的整体质量。
然而,具有 200K 令牌上下文窗口的 Claude 2.1 的全部潜力是为 Claude Pro 用户保留的,因此免费用户将不得不坚持使用具有 100K 令牌且准确度排名在 GPT 3.5 和 GPT-4 之间的 Claude 2。
Claude 2.1 发布的连锁反应将影响人工智能行业的动态。随着企业和用户评估他们的人工智能选项,Claude 2.1 的增强功能为那些寻求利用人工智能的精确性和适应性的人带来了新的考虑。