2024卷疯了!在我们都在拭目以待GPT-5时,最强大模型又一夜易主了,那到底效果如何就让大家跟随genji一起来看看呗!
你可能对Anthropic公司不太熟悉,我简单盘一下它和OpenAI的爱恨情仇——
Anthropic创始团队是GPT的早期开发者,二者因为理念分歧而分道扬镳。OpenAI后期无限放大商业成功和AGI野心,而Anthropic团队希望构建一套可靠、可解释、可控的“以人类(利益)为中心”的人工智能系统。
Claude体验网站: http://claude.ai
Claude 3系列模型按能力由弱到强分别是Opus、Sonnet 和Haiku,在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准。
免费版用户可以使用 Sonnet 模型,而付费用户将能体验最强的 Opus 模型。
Haiku:速度最快、最轻量、最具性价比的选择
Sonnet:反应速度与性能比较均衡
Opus:智能度max,最接近人类理解力
Anthropic表示, Opus 拥有人类本科生水平的知识。在知识测试 MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中,能力最强的 Opus 多次超过了 GPT-4 和 Gemini 1.0 Ultra,
和去年年底发布的GPT-4 Turbo相比,Claude 3 Sonnet和Haiku还是差很多,而Opus几乎不相上下。
Claude 3系列模型能支持实时用户交流、自动完成和数据提取等任务。
在市面同类模型中,Haiku是当前响应速度最快、且性价比最高的大模型。性能水平介于 GPT-4 和 GPT-3.5 之间,而在成本效益上,性价比远超 GPT-4。
Haiku可以在不到3秒时间,快速消化arXiv上长达10k token的数据密集型的研究论文及其图表信息。
Claude 3系列模型具备非常棒的多模态视觉能力,能快速识别、分析与处理照片、图表、图形和技术绘图等视觉文件。
Anthropic以Haiku为例,演示如何处理与分析海量参差不齐的手稿扫描文档,并进行结构化转录,转化为具有明确关键信息的数据库。
这一功能能帮助传统出版商、医疗服务商和法律公司这些公司处理庞大的档案与工作资料。
Claude 3可以生成带有元数据的结构化JSON输出,如标题、日期、关键词,甚至主动想一些创意idea,自己判断这个故事和角色要怎样构成一部引人入胜的纪录片。
Anthropic官方以西班牙语为例,演示了怎样把Claude 3打造为一个学习语言助手:
首先要求Sonnet消化理解并不完美的西班牙语消息,并翻译成它理解所要表达的英语,然后用更标准的西班牙语重新表达自己发的这段话,并用西班牙语来继续对话。
Sonnet的表现非常棒,不仅能准确翻译与指导语言,还会纠正语法错误,并主动开始基础的日常对话。如果有不会的西班牙词语,只需要用代方括号的英文单词来代替即可。
还可以要求Sonnet根据你们的对话内容,生成一段小测试。
Anthropic官方演示了用Opus来分析全球经济,分析美国GDP走势并以Markdown形式记录观察分析结果。
Opus绘制了2000-2021美国GDP的数据图,并用Python写代码,渲染出图像方便查看,并且添加了可爱的提示动画,用来标记过去几十年来美国经济的峰值。
将Opus绘制的数据与实际数据对比,偏差值仅仅在5%以内。要强调的是。Opus并不是“抄袭”了互联网上已知的信息,官方又编造了几组GDP数据给它测试,偏差值都在11%以内。
Opus还能预测接下来十年左右的美国GDP发展,可能落在哪个范围之内。
再进一步,让Opus分析全球最大经济体的GDP会怎样变化,模型可以自主调用工具,将问题拆解为多个子问题(一个子代理模型完成一个独立经济体的任务),并为其他子模型编写提示,共同协作完成更复杂的任务,最终它们共同绘制了2030年和2020年世界经济对比图。
虽然在一系列基准测试中,Opus 多次超过了 GPT-4 ,但也有人表示,实际体验不如 GPT-4。
是骡子是马,拉出来溜溜,实际体验到底如何,我们一起看看~(想体验的同学,地址往前翻翻)
先来一个简单的小学生数学(当家长的有福了,哪里不会点哪里):
再来一个简单的初中物理:
再再来一个你可能看不懂的医学诊疗,是的,AI问诊已经是新常态了(没有不尊重线下医生的意思((求生欲很强 :D
去餐厅吃到一盘击中心巴的菜肴,想回家自己复刻一下?拍照上传就可以帮你搞定菜谱:
看图说话的天花板,这个功能用的一般也能帮助提高语文,用的好就完全能当一个知识区、科普区、学习区、禅修区(?)的图文博主了……
新闻报道也不在话下,学习传媒的同学可以认真考虑一下这个用法:
留给OpenAI的时间不多了!可能只有GPT-5发布,才能灭一灭Claude 3的势头了!
网友已经按耐不住了,做了各种meme
2024,谁能赢到最后?让我们拭目以待!
如果GPT-5或是其他厉害的大模型横空出世,我也会第一时间为同学们上手实测~