3 月 5 日凌晨,OpenAI 的竞争对手、得到谷歌和亚马逊投资支持的 Anthropic 公司发布了最新的 Claude 3 系列模型,其多个领域的性能超越了 OpenAI 的 GPT-4。
Claude 3 系列模型包括 Haiku、Sonnet 与 Opus 三款,恰如其名,这些文学名字都暗示了每个模型的能力,Opus 是最强大的,Haiku 是最轻快的。在推理、数学、编码、多语言理解和视觉等领域的 20 项测试中,Claude 3 Opus 在 14 项性能指标上超越了 GPT-4 和谷歌 Gemini 等一系列模型。
Opus 和 Sonnet 现可在 claude.ai 和 Claude API 中使用,Haiku 也将于不久后推出。亚马逊也第一时间宣布新模型登陆了 Amazon Bedrock。
无论是 2023 年 3 月推出的 Claude,还是同年 7 月推出的 Claude 2,Anthropic 推出的模型似乎每次都稍微落后于 OpenAI 的最佳模型。但 Claude 3 的发布,Anthropic 也许终于在性能上赶上了 OpenAI 发布的模型,尽管专家们还没有达成共识,但跑分结果显示,Claude 3 的确在多项指标上优于 ChatGPT 和 Gemini。
更强的理解和分析能力
如图所示,Claude 3 在推理、数学、编码、多语言理解和视觉方面展现了卓越的性能。尽管在大型语言模型中,「知道」与「推理」之间的区别尚无共识,但人工智能研究界通常采用这些术语。Anthropic 声称,Opus 模型是三个模型中最为强大的,它在处理复杂任务时展现出了接近人类水平的理解力和流畅性。
这种说法虽然令人振奋,但需要更细致的分析。Opus 在某些特定基准测试中可能接近人类的水平,但这并不意味着它具备了人类的普遍智能——例如,袖珍计算器在数学计算上也超越了人类。因此,这种说法可能是为了吸引注意而故意夸大的。
据 Anthropic 称,Claude 3 Opus 在 10 项人工智能基准测试中超越了 GPT-4,这些测试包括 MMLU(大学本科生水平的知识)、GSM8K(小学数学)、HumanEval(编码)以及被称为 HellaSwag 的彩色常识测试。在这些测试中,Opus 的胜出率有的非常接近,如在 MMLU 测试中 Opus 的 86.8%对 GPT-4 的 86.4%,而有的差距则较大,如在 HumanEval 测试中 Opus 的 84.9%对 GPT-4 的 67.0%。然而,这些成绩对客户来说具体意味着什么,目前还不太明确。
人工智能领域学者西蒙-威利森(Simon Willison)在接受《Ars》采访时谈到,「Claude 3 在基准测试中的表现并不能说明这个模型的使用体验是超越以往人工智能模型的,但这仍然是一件大事——没有其他模型能像这样在一系列广泛的基准测试中击败 GPT-4。」
更优秀的视觉功能
与前代产品相比,Claude 3 型号在分析、预测、内容创建、代码生成和多语言对话等方面都比 Claude 2 有所改进。同时,这些模型还具有强大的视觉功能,可以处理照片、图表和图解等可视化格式,类似于 GPT-4V(ChatGPT 的订阅版本)和谷歌的 Gemini。
Anthropic 公司强调,与前几代产品和竞争对手相比,Claude 3 的三个模型在速度和成本效益方面都有显著提升,与之而来的是高定价。能力最强的 Claude 3 Opus 比 GPT-4 Turbo 要贵得多:GPT-4 Turbo 每百万 token 输入/输出收费为 10/30 美元 ;而 Claude 3 Opus 为 15/75 美元。Claude 3 Sonnet 则是 3 美元/15 美元,Claude 3 Haiku 是 0.25 美元/1.25 美元。
当被问及对 Claude 3 性能的看法时,威利森表示他还没有亲身体验,但各种型号的 API 定价已经引起了他的注意。威利森说:「尚未发布的最便宜型号看起来非常有竞争力。而性能最好的型号则非常昂贵。」
更好的长上下文和近乎完美的召回能力
Claude3 也延续了长上下文窗口的强项,其初始阶段支持 200K token 上下文窗口,Anthropic 考虑为需要更大上下文窗口的特定客户开放 100 万 token 的输入。在 200K token 的「大海捞针」(NIAH)测试中,Claude 3 Opus 准确率超过 99%。
Claude 3 型号据说可以为定制客户处理多达 100 万个 token(类似于 Gemini Pro 1.5),Anthropic 声称 Opus 型号在一个基准测试中,在如此大的上下文规模下实现了近乎完美的召回率,准确率超过 99%。此外,该公司还表示,Claude 3 模型不太可能拒绝无害的提示,并在减少错误答案的同时表现出更高的准确性。
Anthropic 计划在未来几个月内持续发布 Claude 3 模型系列的更新,以及工具使用、交互式编码和「高级代理能力」等新功能。该公司表示,它将继续致力于确保安全措施与人工智能性能的进步保持同步,Claude 3 型号「目前带来灾难性风险的可能性微乎其微」。
Opus 和 Sonnet 模型现在可以通过 Anthropic 的 API 获得,Haiku 也将很快推出。Sonnet 也可以通过亚马逊 Bedrock 访问,并在谷歌云的 Vertex AI Model Garden 上进行私人预览。
在 Anthropic 的技术报告中提到,团队增添了一项更具人性化的实践环节,邀请了金融、法律、医学和哲学等领域的专家与 Claude 3 进行一对一的问答对话,并在对话结束后由这些专家对模型的表现进行评分。结果显示,与之前的几代 Claude 模型相比,新模型在性能上取得了显著的进步。
此外,Anthropic 于社交媒体平台分享了三个应用 demo,分别展示了 Claude 3 Opus 扮演经济分析师,Claude 3 Haiku 转换数据,以及 Claude 3 Sonnet 作为语言学习伙伴的使用过程和使用结果。
(视频地址:https://www.youtube.com/watch?v=sjL6Gl6ZIqs)
(视频地址:https://www.youtube.com/watch?v=UdMdFE36dog )
(视频地址:https://www.youtube.com/watch?v=JTLLe6_6opk)
例如,向 Claude 3 Opus 展示一张描绘了美国过去二十多年 GDP 变化的图表,并要求它预测未来几年美国经济的可能趋势。在短短几秒钟内,它不仅迅速生成了预测结果,还提供了多种不同的经济走向预测。
在探索人工智能的未来时,Claude 3 模型家族的推出无疑是一个重要的里程碑。近年来,西方发达国家的一些工业界和学术界人士声称:人工智能将在未来十年提高效率一千倍,就是效率百分之十万的提高。而且,任何一个企业和组织在未来十年的年均效益提升如果低于 20%,将大概率落后甚至被淘汰。因此,当智能技术成熟和普及之后,相对于新的社会知识基础设施,届时何谓知识?如何树人?教育如何实现「AI+」的纵深发展?
1.人机共生时代,教育大模型的机会长存
以通用大模型为基础、以垂直行业为主体的大模型发展模式初现,并在多个重点领域快速发展。无论是专注人工智能搜索的 PerplexityAI,还是基于 GPT-4 技术的法律人工智能工具 Harvey,抑或是基于 ChatGPT 做药物研发的平台……他们的出现都揭示一个道理——应用场景至关重要。
AI 伴学、编程教育、语言教学……教育行业有垂类大模型应用有待开发。例如:
智能教育助手:通过语音或文本与学生进行交互,提供个性化的学习建议和答疑解惑;
智能作文批改助手:分析学生的语法、拼写、逻辑和表达能力,对学生的作文进行自动评估和批改;
虚拟实验室模型:通过虚拟现实和模拟技术,提供真实的实验环境和体验,提高学生实验技能和科学思维能力;
智能学习评估模型:通过分析学生的学习行为和表现,进行自动化的学习评估和反馈;
智能导师模型:模拟人类导师的角色,与学生进行一对一的互动和辅导,针对学生的问题和需求,提供详细的解答和指导……
2.「后真相」时代,辨别力尤为重要
人工智能时代给教育最大挑战,是如何在人机共生环境下培养学生自己发现问题、自己组织信息、形成自我认知能力。技术允许人们搜索和获取的知识越多,对知识的深刻理解与处理模棱两可信息的能力就越重要。
在「后真相」时代,那些看似正确但实际上缺乏证据的断言往往会被误认为是事实。算法通过构建基于我们兴趣的「社交媒体回声室」,加强了这些观点的影响力,使我们与那些可能挑战我们信仰的相反观点保持距离。
未来教育改革的方向应当是培养学生的高阶思维能力,而非仅仅关注基础技能。无论是学生还是教师,未来所需的能力将超越职业技能和文本模式知识,他们还需要具备评估和运用自动化工具所需的计算思维、创造性思维以及批判性思维。
3.智能教育,实现以人为核心的「AI+」
从长期趋势看,各行各业对掌握人工智能基本技能的人力需求正急剧增长,加强人工智能领域人才培养,将成为我国产业持续升级的关键因素。
就在今年的两会,全国人大代表、小米集团董事长兼 CEO 雷军也带来了《关于加强培养人工智能人才满足科技变革需求的建议》,他建议将人工智能纳入教育培养体系,一方面从义务教育阶段普及人工智能素养教育,九年义务教育阶段设置人工智能通识课程,同时将相关内容纳入中小学社会实践活动;另一方面大力推进高校人工智能相关专业的建设,加大对高校人工智能学科建设的投入,加强与世界一流科研机构的合作交流,扩大教学力量,拓展更多专业,提供实习实践机会,培养理论与实践相融合的综合型人才。
此外,雷军还提出,鼓励大型科技企业和社会教培机构开展人工智能应用型人才培训,以适应人工智能领域技术快速迭代、人才需求量大、应用广泛的特征。结合人工智能人才的供需情况,灵活培养多元化人工智能人才,满足当前各领域对人工智能应用型需求。
从教育垂类大模型研发,到教育目标更新,再到推动智能教育,在通用模型越来越强的当下,教育行业的发展关键便是找到小切口,推动「AI+」的纵深发展。
本文来自微信公众号“多鲸”(ID:DJEDUINNO),作者:多鲸编译,36氪经授权发布。