,OpenAI在扩展深度学习方面取得了重大进展。他们的新产品GPT-4是一个大规模的多模态模型,能够将图像和图像作为输入,并输出图像作为输入。虽然它在许多现实世界场景中的表现不及人类,但它在几个专业和学术基准上已经达到了人类水平的表现。
例如,GPT-4成功模拟律师考试,得分在前10%,而GPT-3.5得分在后10%左右。
视觉输入支持:
GPT-4的一个独特之处在于其多模态输入能力,用户可以通过提供文本和图像提示来执行视觉和口头任务。它能够接受由交替的文本和图像组成的输入,并生成自然语言和代码等文本输出。GPT-4在多个领域展示了与纯Yao输入类似的功能,例如使用Yao和图像处理文档、图表和屏幕截图:
例如:
敏捷更新:
例如,提出以下问题:
限制更新:
尽管GPT-4非常强大,但它仍然具有与以前的GPT模型相同的限性。它最大的限在于它仍然不够可靠,易受事实“错觉”和推理错误的影响。使用语言模型输出时应格外小心,尤其是在需要使用与特定用例相对应的确切协议的高风险上下文中(例如,人类判断、基于附加上下文的基础,或避免完全使用赌注很高)。)
风险和缓解更新:
OpenAI不断提升GPT-4的安全性和一致性,包括预训练数据选择和过滤、专家评审和参与、模型安全改进以及监控和执行。虽然GPT-4仍然存在一些风险,例如生成恶意建议、错误代码或不准确的信息,但已采取措施减轻这些风险。
并聘请了50多位专家针对GPT-4进行了相互冲突的测试,以了解新的风险面。来自这些专家的反馈和数据被用于改进模型,并收集了额外的数据以更好地使GPT-4能够拒绝有关合成危险化学品的请求。在RLHF训练期间还包括一个额外的安全奖励信号,以通过训练模型拒绝对此类内容的请求来减少恶意输出。
与GPT-3.5相比,这些措施显着提高了GPT-4的安全性。将模型响应不允许内容请求的倾向降低了82%,并且GPT-4根据我们的政策将响应敏感请求(例如,医疗建议和自我伤害)的频率提高了29%。将努力提高GPT-4的安全性和一致性,以确保模型在各种情况下可靠地工作。
可预测的缩放:
GPT-4项目的一大重点是构建可预测扩展的深度学习堆栈。主要原因是对于像GPT-4这样的非常大的训练运行,广泛的模型特定调整是不可行的。开发的基础设施和优化在多个尺度上具有非常可预测的行为。为了测试这种可扩展性,我们准确地预测了GPT-4在我们的内部代码库(不是训练集的一部分)上的最终损失,方法是从使用相同方法训练的模型中导出它,但计算量减少了10,000倍。