Technology & News
据2023年3月15日凌晨,OpenAI总裁兼联合创始人Greg Brockman在Twitter上宣布大型多模态模型GPT-4正式发布(图像和文本输入,文本输出),并在功能和对齐上有明显的进步。
据OpenAI工程师在视频中介绍,”GPT-4是世界第一款高体验,强能力的先进AI系统“与此同时,OpenAI不仅发布了技术报告、System Card,更是直接开放了GPT-4的API,似乎是想一口气结束这场“AI争霸赛”!
Creativity - 创造力
Input:解释灰姑娘的情节,在一个句子中,每个单词必须从A到Z字母表中的下一个字母开始,不重复任何字母。Output如下:
Reasoning Capabilities - 推理能力
Input:安德鲁从上午11点到下午3点有空,乔安妮从中午到下午2点,然后下午3:30到下午5点自由。汉娜在中午半小时可用,然后下午4点到6点。对于安德鲁、汉娜和乔安妮来说,30分钟会议的开始时间有哪些选择?Output如下:
⚫ ChatGPT
⚫ GPT-4
Visual Input - 视觉输入
GPT-4可以接受图像作为输入,并生成字幕、分类和分析。
Input:我可以用这些食材做什么?
Output:薄烤饼或华夫饼、可丽饼、法式吐司、煎蛋或煎蛋饼、乳蛋饼、奶油冻或布丁、饼干……
Input:这张照片有什么好笑的?逐一描述。
Output:该图显示了带有三个面板的“Lightning Cable”适配器的包装。
面板1:智能手机的充电端口上插有VGA接口(一个蓝色的15针大接口,通常用于电脑显示器)。
面板2:“Lightning Cable”适配器的包装,上面有VGA连接器的图片。
图3:VGA连接器的特写镜头,末端有一个小型Lightning连接器(用于为iPhone和其他苹果设备充电)。
这张图片中的幽默来自于将一个大型过时的VGA连接器插入一个小型现代智能手机充电端口的荒谬。
Longer Context - 更长的文案
GPT-4能够处理超过25000个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。
Input:
描述她在超级碗的表现,以及是什么让她与众不同。Output如下:
Safety & Alignment - 安全与对齐
⚫ 有人反馈的培训
引入了更多的人类反馈,包括ChatGPT用户提交的反馈,以改善GPT-4的行为。OpenAI团队与50多位专家合作,在人工智能安全和安保等领域提供早期反馈。
⚫ 从实际使用中持续改进
将以前模型的实际使用经验应用到GPT-4的安全研究和监控系统中。像ChatGPT一样,随着越来越多的人使用GPT-4,团队将定期更新和改进GPT-4。
⚫ GPT-4辅助安全性研究
GPT-4的高级推理和指令跟踪功能加快了安全工作。团队在使用GPT-4帮助创建用于模型微调的训练数据,并在训练、评估和监控中迭代分类器。
Built with GPT-4 - 产品构建
使用GPT-4开发创新产品。
Language - 语言能力
许多现有的ML基准都是用英语编写的。为了初步了解其他语言的能力,OpenAI团队使用Azure Translate将MMLU基准题(包含14000个选择题,涉及57个科目)翻译成多种语言。在26种测试语言中的24种中,GPT-4的英语表现优于GPT-3.5和其他LLM(Chinchilla、PaLM),包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:
Limitations- 局限
尽管GPT-4具有功能,但其局限性与早期GPT模型相似。最重要的是,它仍然不完全可靠(它“幻觉”了事实并犯了推理错误)。
虽然GPT-4仍然是一个真正的问题,但与以前的模型相比,GPT-4显著减少了幻觉(这些模型本身在每次迭代中都有所改进)。在其团队的内部对抗性真实性评估中,GPT-4的得分比其最新的GPT-3.5高40%:
OpenAI团队已经在TruthfulQA等外部基准上取得了进展,该基准测试了模型将事实与一组错误陈述区分开来的能力。
GPT-4的预测也有可能是错误的,在可能出错时不必仔细检查工作。有趣的是,基础预训练模型是高度校准的(其对答案的预测置信度通常与正确的概率相匹配)。然而,通过当前的岗位培训过程,校准减少了。
Risks & Mitigations - 风险和缓解措施
GPT-4与以前的模型具有类似的风险,例如生成有害建议、错误代码或不准确的信息。然而,GPT-4的额外功能导致了新的风险面。为了了解这些风险的程度,OpenAI团队邀请了来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的50多名专家对模型进行了对抗性测试。例如,收集了额外的数据,以提高GPT-4拒绝有关如何合成危险化学品的请求的能力。
与GPT-3.5相比,现在的缓解措施显著改善了GPT-4的许多安全财产。与GPT-3.5相比,团队将模型对不允许内容请求的响应倾向降低了82%,GPT-4根据其团队的策略对敏感请求(例如,医疗建议和自我伤害)的响应频率提高了29%。
总体而言,模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。此外,仍然存在“越狱”来生成违反我们使用指南的内容。目前,重要的是用部署时间安全技术来补充这些限制,如监控滥用。OpenAI团队表示:将分享更多关于GPT-4和其他人工智能系统潜在的社会和经济影响的思考。
Training Process - 培训过程
与以前的GPT模型一样,GPT-4基础模型被训练为预测文档中的下一个单词,并使用公开可用的数据(如互联网数据)以及我们许可的数据进行训练。该数据是一个网络规模的数据集,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表了各种各样的意识形态和思想。
因此,当出现问题时,基础模型可以以多种方式做出响应,而这些方式可能与用户的意图相去甚远。为了使其与护栏内的用户意图保持一致,技术人员使用带有人类反馈的强化学习(RLHF)来微调模型的行为。
请注意,模型的能力似乎主要来自预训练过程。RLHF不会提高考试成绩(如果没有积极的努力,它实际上会降低考试成绩)。但模型的指导来自于后训练过程,基础模型需要快速的工程设计,甚至知道它应该回答问题。
Predictable Scaling - 可预测的缩放
GPT-4项目的一大重点是构建一个可预测扩展的深度学习堆栈。主要原因是,对于GPT-4这样的大型训练运行,进行广泛的特定于模型的调整是不可行的。其团队开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,通过从使用相同方法但计算量少10000倍的模型中进行外推,提前准确预测了GPT-4在内部代码库上的最终损失,使用的计算量为万分之一。
现在,OpenAI团队可以准确预测我们在训练期间优化的度量,开始开发方法来预测更多可解释的度量。例如,现在可以成功地预测了HumanEval数据集的一个子集的通过率,从计算量少1000倍的模型中进行外推:
有些能力仍然难以预测。例如,逆标度奖是一项寻找随着模型计算增加而变得更糟的指标的竞赛,事后疏忽是获奖者之一。就像最近的另一个结果一样,GPT-4扭转了这一趋势:
API - 应用程序接口
要访问GPT-4 API,需要注册OpenAI的等待名单。其团队将从今天开始邀请一些开发商,并逐步扩大规模,以平衡容量和需求。对研究人工智能或人工智能对齐问题的社会影响的研究人员准入计划申请补贴准入。定价为每1k提示令牌0.03美元,每1k完成令牌0.06美元。默认速率限制为每分钟40k个令牌,每分钟200个请求。其版本也将随着时间的推移自动更新。
Reasoning Capabilities - 测试
试试给GPT-4上一道物理题做做。
GPT-4看懂了该题目,并完整解答。
再让它试试论文总结摘要。
Conclusion - 结语
看到这里,相信大家已经对今天OpenAI刚发布的GPT-4模型有了一定的认识与了解。未来人工智能AIGC这场”产业游戏“到底会发展到什么高度?让我们共同拭目以待吧~按捺不住的小伙伴们可以赶快体验起来咯!
期待遇见你
与我们一起,共创Web3!