Claude 3全面碾压GPT-4成最强大模型？实测报告来了！

作者：金融界发布时间：2024-03-06

一款被认为碾压GPT-4的模型火了！近日，Anthropic发布Claude 3系列模型，该公司称这是迄今为止速度最快、功能最强大的人工智能模型。

据了解，Claude 3模型系列包括三个模型，按能力升序排列依次是：Claude 3 Haiku（中杯）、Claude 3 Sonnet（大杯）、 Claude 3 Opus（超大杯）。

同时，Claude 3是多模态大模型，具有强大的“视觉能力”，用户可以上传照片、图表、文档和其他类型的数据，对其进行分析和提问。

该公司表示，新模型中能力最强的Claude 3 Opus在部分行业基准测试中的表现优于OpenAI的GPT-4和谷歌的Gemini Ultra，如本科生水平的知识、研究生水平的推理和基础数学。

▍Claude 3 Opus VS GPT-4：未具备明显优势

《科创板日报》记者第一时间对Claude 3 Opus进行测试，并与GPT-4进行对比。

首先，对于Claude 3宣称的视觉能力，《科创板日报》记者注意到，相比于GPT-4，Claude 3 Opus确实在图片识别上会有更多细节表现，但在准确率上表现仍不佳。

为验证视觉水平，《科创板日报》记者上传华为Mate50的手机宣传图，并分别对Claude 3 Opus和GPT-4进行提问：这是什么手机？

其中，Claude 3 Opus以肯定的回答这是华为Mate系列的产品，并分别对图中三个手机进行描写，但均将其错认成“Mate40”。

而GPT-4则表示无法识别出具体型号，不过，其提到“华为Mate系列在过去曾使用过类似的设计布局”。

而对于该公司声称的本科生的知识水平，《科创板日报》记者上传2023年新高考Ⅰ卷数学试题解答题的第1题，发现Claude 3 Opus和GPT-4均未回答正确。

在考验常识与信息确认能力方面，《科创板日报》记者以“父母婚礼为何不邀请我参加”为题目，分别测试Claude 3 Opus和GPT-4，对比两者的回答，Claude 3 Opus尽管分点回答，条理清晰，但并未考虑“父母婚礼通常发生在孩子出生前”这一现实考量，相比之下GPT-4似乎显得更契合生活常识。

《科创板日报》记者以“鲁迅为什么打周树人”为题目，分别测试Claude 3 Opus和GPT-4，两者都能做出正确回答。

最后，《科创板日报》记者以“只切一刀，如何把四个橘子分给四个小朋友?”为问题，分别测试Claude 3 Opus和GPT-4。

Claude的回答混淆了分数和小数的概念，而且逻辑上也有问题。

其实这道题是一个小陷阱，考验模型的常识和推理能力，GPT-4虽然没有犯下如Claude一样的严重错误，但也没有绕过题目本身的推理陷阱。这道题的正确答案很简单：只要每个小朋友分到一个完整的橘子就可以了，根本不需要切开。

综上，记者的实测结果显示，Claude 3并未超越GPT4。

▍Anthropic是谁？

实际上，这家与ChatGPT-4媲美的大模型公司仅成立不到3年，值得一提的是，该公司核心成员的老东家正是ChatGPT-4的开发商OpenAI。

其中，Anthropic的两位创始人Dario Amodei和Daniela Amodei兄妹，离任前分别在OpenAI担任研究部门副总裁和安全与策略部门副总监。同时，Dario Amodei离任时还带走了OpenAI十多名心腹，其中就包括GPT-3首席工程师Tom Brown。

强大的团队阵容让Claude一路狂飙。据了解，在ChatGPT推出不久后的2023年3月，Anthropic就发布了首款名为“Claude”的AI助手。彼时，这款类似于ChatGPT的产品让该公司一度被认为是Open AI的最大竞争对手。

光环之下，Anthropic受到资本追捧。据了解，仅2023年一年这家初创公司就完成了五笔不同的融资交易，总计约73亿美元，投资方包括谷歌、亚马逊、Salesforce以及韩国SK Telecom。其中，亚马逊和谷歌分别向其投资高达40亿美元和20亿美元。

公司规模来看，Anthropic联合创始人丹妮拉-阿莫迪（Daniela Amodei）在接受采访时说，目前该公司有60到80人从事核心人工智能模型的开发，总共有120到150人从事技术方面的工作。

据Anthropic公司称，Claude 3 Sonnet和Opus从下周一开始在159个国家上市，而Haiku将很快上市。

有业内人士向《科创板日报》记者表示，随着此轮Claude 3的热度，预计大模型行业会进入一轮新的厮杀。不过，其提醒，Claude3是与OpenAI一年前的模型的比较，而GPT-5预计今年发布，其的性能或将上新台阶。

根据PitchBook的数据，在过去一年里，生成式人工智能领域出现了爆炸式增长，2023年近700笔交易的投资额达到了创纪录的291亿美元，交易额同比增长超过260%。

其中，OpenAI曾在去年4月完成103亿美元的大额融资。近期亦有消息称OpenAI正在寻求新的融资，如果有竞争对手能力超过OpenAI，或对OpenAI的融资产生影响。

此外，主张开源策略的Meta在今年1月宣布，Meta AI已经开始训练Llama 3，预计将在今年7月正式发布。业内人士预计，在Llama 3发布并开源后，AI行业将受到很大影响，或将会有非常多GPT4级别的产品涌现。

大模型的未来将如何发展？《科创板日报》记者将持续保持关注。

来源：科创板日报

近期资讯

破解出海企业财务本地化困境秘籍

出海企业面临多币种管理、税务合规、会计准则和文化差异等财务本地化难题。ZohoBooks财务管理软件支持180+货币、22种语言，帮助企业解决这些问题，确保税务合规，提供全流程服务，满足国际企业需求。一、出海企业会面临哪些难题？1、多币种管理不同国家和地区使用不同的货币，汇率波动频繁，给企业的财务管理带来了极大的复杂性。企业需要实时跟踪和管理多种货币的交易，确保准确核算和报告。2、税务合规各国的税法和税务规定各不相同，从增值税、所得税到关税，企业必须遵守当地的税收法规，否则可能面临罚款甚至法律诉讼。此外，

Zoho云服务 2024-12-27

基于云的LIMS系统：现代实验室效率与创新的驱动力

在当今快速发展的制药研究与生产领域，数据已成为核心驱动力。实验室不仅需持续优化运营效率，确保数据准确性，还需轻松扩展运营规模，以应对日益增长的挑战。传统的非云实验室信息管理系统（LIMS）已难以满足现代实验室的严苛要求，其局限性日益凸显。本文将深入探讨非云LIMS系统的挑战，并揭示基于云的LIMS系统如何成为现代实验室的终极解决方案，通过行业案例加以佐证，并在文末推荐白码LIMS。一、非云LIMS系统的挑战1.有限的可访问性：内部LIMS系统限制了授权人员的访问范围，通常仅限于实验室物理位置内，从而阻碍了

白码科技 2024-12-27

团体标准在信号灯管理中的应用与成效分析

随着城市化进程的加快和交通流量的不断增加，交通信号灯的管理和优化成为城市交通管理中的重要课题。团体标准作为一种有效的技术和管理手段，在信号灯管理中发挥着举足轻重的作用。本文将从团体标准的定义、在信号灯管理中的应用及其成效三个方面进行详细分析，旨在探讨团体标准如何提升城市交通效率与安全性。一、团体标准的定义及作用团体标准是由社会团体按照一定程序制定并发布，供社会自愿采用的标准。在交通信号灯管理中，团体标准通过统一的标准化方案来规范交通信号的设置与运行，旨在提高交通信号的统一性与规范性。这一标准的制定不仅避免

国联政研 2024-12-27

AI时代下芯片复杂度飙升，思尔芯国产硬件仿真加速芯片创新

在人工智能（AI）技术蓬勃发展的今天，芯片的复杂度正以前所未有的速度飙升，轻松跨越了百亿逻辑门级别的大关。这一趋势不仅推动了半导体行业的快速发展，也对硬件仿真系统提出了更高的挑战和要求。在近日的ICCAD-Expo 2024上，思尔芯研发总监余勇发表了精彩技术演讲，他深入探讨了AI时代下高性能硬件仿真系统的重要性。他指出：“随着AI技术的广泛应用，芯片的复杂度急剧增加，传统硬件仿真的系统运行性能已难以满足当前的设计需求。因此，思尔芯迭代升级了其OmniArk芯神鼎国产硬件仿真系统，该系统支持从2亿到96亿

思尔芯S2C 2024-12-27

定制LIMS：优化制药实验室工作流程的战略选择

在当今快速发展的科学和工业环境中，制药实验室面临着前所未有的挑战，包括提高运营效率、确保数据准确性和满足严格的法规要求。实验室信息管理系统（LIMS）作为现代实验室运营的基石，能够集中管理数据、自动化工作流程，并确保合规性。然而，通用、不可定制的LIMS系统往往无法满足实验室的独特需求，导致效率低下、操作错误和合规性问题。因此，针对特定实验室需求定制LIMS系统成为提升竞争力的关键。一、定制LIMS的重要性每个制药实验室都有其独特的工作流程、专有方法和专门协议。通用LIMS系统可能无法完全支持这些独特需求

白码科技 2024-12-27

Web极客码 2024-12-27

中小型实验室的LIMS解决方案：优化运营，高效扩展

在当今快速发展的科学研究和医疗服务领域，中小型实验室面临着诸多挑战，包括数据量激增、监管合规性要求严格以及有限的预算和资源。为了克服这些障碍，许多实验室正在寻找一种既经济实惠又高效的解决方案——实验室信息管理系统（LIMS）。本文将探讨适用于中小型实验室的LIMS解决方案，并通过行业案例展示其在实际应用中的效果，最后推荐白码LIMS作为理想的选择。一、中小型实验室面临的挑战随着工作量的增加和数据复杂性的提升，中小型实验室必须满足严格的监管合规要求，同时保持有限的预算。许多实验室仍然依赖过时的软件或手动流程

白码科技 2024-12-27

项目管理软件自动化，任务流程轻松提速

任务流程自动化，通过Zoho Projects项目管理软件预设流程和条件，实现任务的高效管理。该软件能够自动跟踪任务进度，依据预设规则推送任务至下一环节，从而消减人工介入，减少人为错误，显著提升项目管理的效率。同时，自动化处理还能确保项目数据的准确度，使员工能够更专注于创造性和战略性的工作，提升整体工作质量和员工满意度。此外，Zoho Projects项目管理软件的自动化功能适用于多种场景，但企业在引入时也需考虑员工培训以及系统集成等因素。一、什么是任务流程自动化？任务流程自动化是通过设置预定义的流程和条

Zoho云服务 2024-12-27

Claude 3全面碾压GPT-4成最强大模型？实测报告来了！

推荐体验

相关资讯

最强大模型Claude 3全面碾压GPT-4？《科创板日报》记者实测报告来了

Google 史上最强大模型 Gemini，真的全面「碾压」GPT-4 吗？

全球最强大模型“一夜易主”，Claude 3号称性能全面碾压GPT-4 | 钛媒体AGI

全球最强大模型易主！Anthropic发布Claude 3系列模型，能力全面超越GPT-4？

全面碾压GPT-4！OpenAI竞争对手推出Claude 3大模型

近期资讯

破解出海企业财务本地化困境秘籍

基于云的LIMS系统：现代实验室效率与创新的驱动力

团体标准在信号灯管理中的应用与成效分析

AI时代下芯片复杂度飙升，思尔芯国产硬件仿真加速芯片创新

定制LIMS：优化制药实验室工作流程的战略选择

温湿度测试标准流程解析 | 下

书籍-《强化学习：原理与 Python 实现》

WordPress网站中如何修复504错误

中小型实验室的LIMS解决方案：优化运营，高效扩展

项目管理软件自动化，任务流程轻松提速

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响