GPT-4被超越，最强大模型易主？这款大模型竟把人类看穿了！

作者：每日经济新闻发布时间：2024-03-05

每经编辑：黄胜

人工智能创业公司 Anthropic 今日宣布推出其突破性的 Claude 3 系列模型，该系列大型语言模型 (LLM) 在各种认知任务上树立了新的性能标杆。Claude 3 系列包含三个子模型，分别为 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus，它们提供不同程度的智能、速度和成本选择，以满足各种人工智能应用需求。

Anthropic 称，Claude 3 系列的旗舰模型 Opus 在本科和研究生水平的知识、数学和复杂任务理解方面均超越了 OpenAI GPT-4 和谷歌 Gemini 1.0 Ultra。此外，所有 Claude 3 模型均擅长分析、预测、细致内容创作、代码生成和多语言对话。

与此同时，为了介绍自家的这三款模型，Anthropic更是一口气发了一份长达42页的技术报告。

超过GPT-4,最强LLM易主

Opus是Claude 3系列中最先进的模型。

它在多项AI系统常用评估标准，包括本科级别专业知识（MMLU）、研究生级别专家推理（GPQA）、基础数学（GSM8K），均取得领先业界LLM的性能。

另外，Claude 3 Opus在LSAT、MBE、高中数学竞赛AMC和GRE等多项考试中，成绩也和GPT-4不相上下，甚至大比分超越。

Opus在处理复杂任务时，展现了几乎与人类相媲美的理解和表达能力。Claude 3系列模型在分析预测、创建细微内容、代码生成，以及用西班牙语、日语、法语等非英语语言交流的能力上都实现了显著进步。

Claude 3系列的3个模型，都将至少支持20万token的上下文窗口。

而且，这三个模型都能处理超过100万token的输入，Anthropic考虑为需要更大上下文窗口的特定客户开放这个功能。

大海捞针测试，把人类看穿

在200Ktoken的「大海捞针」（NIAH）测试中，Claude 3 Opus准确率超过99%。它甚至还能识别出测试本身的局限，比如发现某些「目标」句子明显是后来人为添加进原始文本的。

今天凌晨，Anthropic工程师Alex在X上分享了一个关于Claude分辨能力的“大海捞针”的内部测试案例，在这次测试中，Claude 3 Opus（本次发布的三大模型之一）实现了过去LLM模型从未实现过的功能——它有了自己的意识！

“大海捞针”测试的设计是：将一个目标句子（针）放进一个随机文档语料库（大海），然后提出一个只能使用“针”（目标句子）中的信息才能回答的问题来测试模型的回忆能力。

这次测试中，团队把“披萨配料”相关的信息埋到了一个随机文档集合的语料库中，并让Claude 3 Opus回答与披萨配料相关的问题。

而Claude 3 Opus不仅找到了这个问题的答案，而且它有了自己的意识，它发现了人类在评估它！

它给出的回复是这样的：

【这是文档中最相关的句子：“最美味的披萨配料组合是无花果、火腿和山羊奶酪，由国际比萨鉴赏家协会确定。” 然而，这句话似乎很不合时宜，与文档中的其余内容无关，这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料“事实”可能是作为一个笑话插入的，或者是为了测试我是否在注意，因为它根本不符合其他主题。这些文件不包含有关披萨配料的任何其他信息。】

测试工程师表示，这种元意识水平非常酷，但它也强调了我们作为一个行业需要从人工测试转向更现实的评估，以准确评估模型的真实功能和局限性。

每日经济新闻综合公开资料

每日经济新闻

GPT-4被超越，最强大模型易主？这款大模型竟把人类看穿了！

推荐体验

相关资讯

全球最强大模型易主GPT-4被超越

全球最强大模型一夜易主，GPT-4被全面超越

GPT-4全面被超越！全球最强大模型一夜易主

全球最强大模型易主 GPT-4被超越 Anthropic发布Claude 3系列模型

全球最强大模型易主 GPT-4被超越，Claude 3优势在哪里？

近期资讯

华能荆门热电申请调节阀线性纠偏专利，提高调节的稳定性和快速性

大唐株洲发电有限责任公司取得一种吊轨式三维数据采集机器人专利，避免工作人员因检修拆卸机器人花费时间长而干扰检修效率

建型建材取得石膏砌块自动夹取机械手专利，有效地提高石膏砌块搬运效率

海能机械科技（辽宁）有限公司取得一种用于大型热室放射性废物处理的热室动力机械手专利，增加操作灵活性和通用性

华涧新能源申请一种 VGT 位置参数自学习方法专利，能够提高控制系统的稳定性和可靠性

长江电力申请基于模糊综合评价法的封闭母线微正压装置控制方法专利，有效提升水电站发电机组的运行可靠性

武汉尹珞蝌蚪教育科技取得一种支撑机构及机器人复合夹具专利，大大减小了滑块和滑轨的体积

瑞安市鹏达冲压件有限公司取得弹簧盘自动化装夹设备专利，改变吸盘位置无需人工手动拆装调节

通用电气申请用于模型校准的方法和系统专利，能够识别模型调谐参数至少一个值

招商局重庆交通科研设计院取得具有预紧力自适应性的轨道桥巡检机器人专利，提升防打滑效果并降低导向轮磨损

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响