新V观海外：国产Kimi与海外GPT-4和Claude-3的体验差异

作者：经济观察报发布时间：2024-04-01

陈沛/文 在日常办公和生活中，我有经常使用Kimi、GPT-4、Claude-3等多个AI助手的习惯。久而久之，就逐步摸出了各个AI助手的特性以及对应的适用场景。

Kimi对长文档中的数字细节抓的更准

在日常办公中，使用AI助手快速总结长报告的核心结论和关键数字是高频使用场景。特别是一些机器学习领域的专业论文，关键研究成果通常是AI系统在某项测试基准上达成的得分或性能提升的百分比。

这时，能否从长达几十页的研究论文中准确、快速找到结论以及对应的具体数字，对于AI助手的使用体验有着至关重要的作用。

在这方面，GPT-4在总结的结果中，往往会包括原文结论中最明显的一项数字，再加上其它几条相对宽泛的描述。这种做法虽然能最大程度上避免生成错误内容，但实际的用户使用体验相对一般。

Claude-3虽然宣称输入上下文窗口的长度很长，但在实际使用中会受制于相对有限的文档上传处理能力。即便是人工转成长文本输入，但它总结的关键数字的准确性并不理想。

而Kimi不仅能直接给出长文档中的多条核心结论以及准确数字，还能在用户追问解释某一项数字的上下文背景时，继续给出准确的文档位置和内容解释。除了这种准确抓住数字细节的能力，Kimi的文档上传处理能力也能很好满足日常使用需求，还能进一步给出基于中文网页的追问建议。

因此，如果主要使用场景是处理总结各类专业长文档并输出中文内容，那么Kimi在绝大多数情况下都将是最佳选择。

Claude-3的强化推理能力超出预期

Claude-3一经面世，便由于出色的测试结果而广受关注。但是由于实际产品不支持互联网搜索功能，且实际使用中的文档处理情况并不出色，因此我一开始并没有持续频繁使用。

然而，直到最近，我尝试用海外流行的思维推理题“两根电线杆之间悬挂80米长电缆”对Claude-3、GPT-4、Kimi进行测试。这个问题需要跳出思维限制，就算普通人类用户也很难在第一时间就给出正确答案。

在这三个AI助手的测试结果中，只有Claude-3在第一次就直接给出了完全正确的推理结果。

而GPT-4和Kimi都没能得出正确结果。就算我继续给出一次提示和一次正确结果建议后，Kimi调整了结果但依然不正确，GPT-4则陷入了错误推理方向，调用专业数学插件Wolfram也没能给出结果。

GPT-4的产品化程度仍处于领先

如今，大语言模型之间的差距在缩小，模型在单一指标和单一测试基准方面的优势很难带来决定性的优势，而产品化程度和商业化方向正成为实现长久发展的关键因素，这种趋势也能从最近Inflection AI、Stability AI等热门AI公司出现的动荡中得到验证。

在产品化程度方面，GPT-4相对具有先发优势。GPT-4中的GPTs商店正式上线至今已经初具规模，形成了绘图、写作、办公、研究、编程、教育、生活等众多类别的定制化应用。

特别是在最近，GPT-4在生成内容中大量增加了需要用户二选一的比例，通过数据标记加速构建数据飞轮。

相比之下，尽管Kimi和Claude-3分别在追问建议、安全体验等方面优化了产品体验，但总体体验上仍处于起步阶段。

总结以上使用体验，我会选择继续付费使用GPT-4，而Claude-3则不会。目前免费使用的Kimi如果后续推出付费版本，我也会进行选择。

新V观海外：国产Kimi与海外GPT-4和Claude-3的体验差异

推荐体验

相关资讯

新V观海外：ChatGPT搜索出现功能重叠

新V观海外：OpenAI Sora模型背后的架构创新

新V观海外：生成式AI走入“大”和“小”的分岔口

新V观海外：o1模型的开源复现和智商测试

新V观海外：Anthropic警示AI破坏力

近期资讯

FormCreate低代码表单设计器 v3.2.9 版本发布，新增10多种功能

Flutter鸿蒙化在鸿蒙应用中添加Flutter页面

不为人知的iOS KVO潜力

鸿蒙List组件使用，添加头组件

Deno JSR包管理简单了解下

关于 Electron webview 通信问题

Flutter应用开发：返回列表刷新并保持原始操作位置

android高德地图开发如何限制绘制物显示区域

Kotlin的inline内联

vue3中ref到底在干什么

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响