原创 | 文BFT机器人
美国当地时间3月14日,让数亿ChatGPT用户燥候已久的GPT-4终于生出来了!
它对比现有的大型语言模型,包括下一代(SOTA,State Of The Arts)模型而言,可以用“完胜”两个字来形容。用OpenAI官方自己的话来说,“GPT-4是我们迄今为止最强大、对齐最好的模型”。
这次的宣发,OpenAI官方在GPT-4的介绍性网页中,直接给用户投送了“说明书大礼包”:
网页地址:https://openai.com/waitlist/gpt-4-api
GPT-4技术报告
https://cdn.openai.com/papers/gpt-4.pdf
System card
https://cdn.openai.com/papers/gpt-4-system-card.pdf
ChatGPT Plus 体验
https://chat.openai.com/chat
GPT-4的API waitlist
https://openai.com/waitlist/gpt-4-api
GPT-4 demo视频
https://www.youtube.com/watch?v=outcGtbnMuQ
GPT-4背后的开源评估框架Evals
https://github.com/openai/evals
总之,其内容之全是生怕你看不懂,更怕你看懂了不用。
GPT-4和GPT-3.5的区别在哪里?
从官网给出的三项不同的能力直观对比来看
推理能力:GPT-4>Default=Legacy
速度:Default>GPT-4=Legacy
语言精炼:GPT-4>Default>Legacy
Logo的变化
为了更加清晰的展示GPT-4对比GPT-3.5的“进化”,OpenAI官方做了一系列的基础测试,让模型们考试,甚至直接考人类的试。
语言能力
作为一款语言模型,为了考验其除了英语以外的其他语种的表现,OpenAI官方安排了一场考试,使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。
结果显示,GPT-4在测试的26种语言中,有24种的都优于对比的其他语言模型(Chinchilla,PaLM),不仅仅限于英语,甚至是拉脱维亚语、威尔士语和斯瓦希里语等低资源语言GPT-4也成功拿下。
高级推理能力
而为了更好的展现GPT-4在推理能力上质的飞跃,OpenAI扒出了最新公开的奥林匹克竞赛题、AP自由答题等试题,甚至于加上了2022-2023年版的模拟考试题,以增进对这两种模型的理解。
测试的结果也显而易见,GPT-4赢麻了。在律师模拟考试中,GPT-3排列末位10%左右,而GPT-4挤进了前10%左右。可以说对比GPT-4这个过于耀眼的优等生,连曾经的“顶流”GPT-3.5都显得有些黯然失色了。
功能增加
而对于月活九位数的ChatGPT用户们而言,最关心的当然还是新功能的增加。
最大的改变就是不再只接受文本了!GPT-4具备处理文本和图像的能力,用户可指定各种视觉或语言任务。
它可根据由文本和图像交替组成的输入,生成自然语言、代码等文本输出。在生成带文本和图片的文档、图表或截图方面,GPT-4与纯文本输入一样出色,甚至还可利用测试时技术(如少量标注数据和思维链提示)提高性能。目前,就官网上给予的7个视觉输入的例子展示来看,图像输入仍在研究预览阶段,未来可能会有更大的提升。
此外,GPT-4不仅可以处理更长的字符长度,其长度限制已提升至32K tokens,即能处理超过25000个单词的文本,还能够支持长格式内容的创建、扩展对话、文档搜索和分析等应用。
安全性提升
在安全性方面,为了确保GPT-4回答的准确性和安全性,OpenAI公司与医学、地缘政治等敏感领域的50余位专家合作,并改进了监控框架。
与GPT-3.5相比,GPT-4的安全特性得到了显著的改善,其缓解措施使模型响应禁止内容请求的可能性降低了82%。此外,根据OpenAI的政策,GPT-4对敏感请求(如医疗建议和自我伤害)的响应频率提高了29%。
多项任务并行优势突出
如果只是简单的对话,GPT-3.5和GPT-4之间的差别可能不太明显,但当任务的复杂性达到一定阈值时,就能看出它们之间的区别。与GPT-3.5相比,GPT-4更可靠、更具创造力,并且可以处理更多微妙的指令差异。
如何使用GPT-4?
第一种方式:ChatGPT Plus用户付费使用
在用户端,目前只开放给了ChatGPT Plus用户,顾名思义不支持免费使用,如果想要一睹为快,请先支付给官方每月20美元获取高级访问权限。即便付费后,提问也受到了一定的限制,每4小时内不能发送超过100条信息。
第二种方式:开发者加入waitlist
开发者可以可以申请GPT-4 API获取访问权,待候补名单通过后,可以把 AI 集成到自己的应用程序中,同时 OpenAI 将对约 750 个单词的提示收取约 3 美分,对约 750 个单词的回复收取 6 美分。
第三种方式:参与OpenAI Evals
在OpenAI开源的用于自动评估AI模型性能的框架OpenAI Evals中,提供了高质量贡献,官方会给予你GPT-4的访问权。
更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。