当前位置:首页|资讯|GPT-4|ChatGPT|OpenAI

张红超_GPT-4,看看发布以后的哪些新功能

作者:云朵慕斯发布时间:2023-03-16

原标题:张红超_GPT-4,看看发布以后的哪些新功能

今天一大早OpenAI就发布NLP大作GPT-4。咖啡师把杯子放在茶几上,并给她倒了一杯水。当前,ChatGPT用户Plus已能够使用GPT-4订阅,还有一些用户则需排队进行内测申请。那么这款产品在今年的表现究竟如何呢?我们以GPT-4正式给出的技术文档为基础,一起来了解一下都发生了什么改变。

本文将根据OpenAI GPT-4的技术报告,对GPT-4的特点及训练信息作一介绍。

GPT-4属于多模态的大规模语言模型,也就是支持图像与文本的输入,输出为文本形式;扩写能力提高,能够处理25000个字以上的课文;更有创造力并能应对更微妙的命令。

我们在官方网站上看到ChatGPT与GPT-4演示,成效似乎已明显拉开。孰优孰劣,一目了然.

问:

Andrew:上午11点-下午3点有空

Joanne:中午-下午2点有空,下午3点半-下午5点有空

Hannah:中午有半个小时,下午4-6点有空

为仨安排一个30分钟会,还有什么选?

答:

ChatGPT:下午4点可以开始开会

GPT-4:会议可在中午12点开始

指出GPT-4进展情况,大范围的、建立了多模态,它能接受图像与文本的输入,以及生成文本输出。这个系统具有强大的计算能力,能够处理复杂的问题并且有良好的交互性能。尽管在现实世界很多情景下,能力都比不上人类,但是在各专业及学术基准中显示人类水平。如通过律师模拟考试,分数在应试者的前10%左右;与之相比,GPT-3.5得分约为最后10%。

GPT-4是一个基于Transformer的模型,经事先培训,可对文档进行下一标记预测。该算法在使用了新的信息素更新规则和动态改变权值时也能保持较好的性能。经过培训,调整进程提高了遵守事实程度。

该项目的中心内容之一,就是发展基础设施,优化方法,使这些办法具有可预测行为的广泛性。为了实现这一目标,需要使用基于机器学习技术来构建用于预测性能的神经网络模型。这使得我们可以准确地预测GPT-4在某些方面的性能,它以计算量不大于GPT-4计算量的1/1000为依据训练出的模型。

简介

技术报告介绍了GPT-4,大尺度多模态模型的建立等,能对图像及文本输入进行处理,生成文本输出。该模型可以在计算机上模拟人与机器之间的交互过程以及对用户进行评估。此类模型为一重要研究方向,由于它们在广泛应用方面具有潜在的潜力,例如,对话系统,文本总结,机器翻译等。在过去几年里,随着计算机视觉、语音识别、自然语言理解等方面的发展,这些技术也得到了迅速的进步。所以,近年来,它们成为人们关注的对象,且有较大发展。这些成果已经在多个方面得到了应用。近几年来,它们成为人们关注的焦点。

发展这类模型的一个重要目的就是增强它们对自然语言文本的理解能力与生成能力,尤其在一些比较复杂,微妙的场合。本文介绍一种基于语言知识的计算机模拟方法,以支持这一目的。以检验它在此条件下是否胜任,GPT-4是在当初设计给人类的多种测试中被评价出来的。该测试程序被用来检验一个人对英语写作部分的掌握程度以及他对词汇、句法及篇章方面知识的掌握情况。在上述评价中,其成绩是可观的,并且经常超过绝大多数人类应试者的分数。

以模拟律师资格考试为例,GPT-4在考生中排名前10%位。这与GPT-3.5形成鲜明对比,GPT-3.5成绩排在最后10%位。

一组常规NLP基准测试时,GPT-4的性能超过了以往的大型语言模型和大多数最先进的系统(这类系统一般都具有具体基准训练或者手工工程)。

进行MMLU基准测试时,GPT-4在英语考试中不但具有比已有模型更多的可观优点,并在其他语言中显示出强大的表现力。

该报告也论及项目所面临的一项重要挑战,也就是发展深度学习的基础设施与优化方法,这些办法显示了广泛意义上的可预见性。通过使用一种新的神经网络技术——机器学习模型来帮助解决这个问题,该网络可以自动地产生大量数据样本。这使得我们可以预测GPT-4的预期性能(建立在用相似方法进行培训的小型运行基础上)。通过将该系统部署到真实的硬件环境中,以及使用机器学习算法,我们可以确定其是否满足所期望的性能要求。这使得我们可以预测GPT-4预期的性能(在相似训练方式基础上进行小操作),并且配合最后操作做了检验,为了提高我们培训的自信心。

尽管有这样的能力,GPT-4和早期GPT模型相比具有相似局限性:这并不完全可靠(例如,可能出现"幻觉"),上下文窗口有限,并且没有习得经验。这些缺陷限制了其应用范围,尤其是用于测试系统时。采用GPT-4输出时,要慎重,尤其当可靠性要求较高时。

GPT-4容量大,局限性大,导致效果显着、新安全挑战,我们认为,考虑到它可能产生的经济和社会影响,认真研究这些难题,是个很有意义的领域。本文收录了大量系统卡,阐述了几种我们预见到的风险。它提供了一种评估和预测的框架,以帮助我们更好地理解和应对这些问题。围绕偏见,虚假信息,过度依赖,隐私,网络安全等问题、扩散和其他预见的危险。我们对这一过程给出了简要分析。同时也介绍了我们为了缓解GPT-4部署可能带来的危害而进行的干预。在这个项目中,我们使用了一套完整的安全策略来帮助客户降低这些潜在威胁。其中包括邀请领域专家参加对抗性测试,及一模型协助安全管道。

技术报告及其局限性

本文主要研究GPT-4容量、局限与安全性能。该项目旨在研究如何从海量文本信息中自动发现潜在语义关系以及利用这些知识来帮助人们更好地理解和分析文档内容。GPT-4是一个基于Transformer的模型,是事先经过培训的,以便对文档进行下一步标注预测,利用公开的数据(如互联网数据)和第三方供应商授权的数据。

然后利用人类反馈的强化学习(RLHF)对模型进行微调。在实验阶段,我们将所提出的算法与其他一些现有的基于机器学习的方法相比较并评估其性能。针对GPT-4等大型模型竞争情况及安全影响,该报告没有包括相关的架构(包括模型大小),硬件和训练计算、对数据集构建,训练方法或者相似内容等做进一步详细说明。

OpenAI承诺独立审计技术,并就这方面的一些初步措施和设想进行了交流。并且打算将更多技术细节介绍给第三方,他们可对如何平衡这些竞争与安全考虑因素与科学价值之间的关系提出建议。

可预测扩展

在GPT-4计划中,有一个很大的焦点就是构建可预测扩展深度学习栈。主要是针对GPT-4等大型培训操作,需要进行大量的以模型为对象的调整,这是行不通的。

针对这一问题,我们发展基础设施,并提出优化方法,在许多尺度下都具有很可预见的表现。我们对算法进行了许多改进以提高其精度。这些改进使得我们可以可靠地从用1,000倍-10,000倍计算量来训练的更小的模型来预测GPT-4在一些方面的表现。

3.1损失预测等

对大型语言模型进行适当训练,其最终丢失情况认为可由训练模型用计算量幂律更好逼近训练模型用计算量律。

以证明OpenAI优化基础设施具有可扩展性,OpenAI对GPT-4最后亏损进行预测,在OpenAI的内部代码库(不属于训练集)上预测GPT-4的最终丢失,其方法是用不可减少损失项的比例律(如Henighan等人的做法)拟合:L(C)=aCb+c,从采用同样方式训练得到的模型中,但是,所用计算量与GPT-4相比,最多只能达到10,000倍。

这一预测在业务启动不久就作出了,未利用其中的一部分成果。因此我们认为这只是一个假设。拟合出的比例法对GPT-4最终丢失具有较高精度。

3.2在HumanEval上扩展能力

在培训之前了解模型的容量,可提高关于调整的决定,保障和部署水平。

在对最后的亏损进行预测的同时,我们也制定了一些方法,以增加可解释性指标,以提高预测能力,指标之一为HumanEval数据集通过率。

OpenAI在HumanEval数据集一个子集中成功预测通过率,其方法是从训练的模型中推断出来的训练出来的模型进行推断,它的计算量最多可降低1,000倍。

关于HumanEval的个别问题,性能可随尺度增大偶有恶化。这意味着在某些情况下不能用传统的方法处理这个大规模的系统。尽管面临着上述挑战,我们发现一个近似的幂律关系--EP[log(pass_rate(C))]=α∗C-k。

认为,精确地预测将来的能力对于安全来说是至关重要的。该研究项目将有助于提高机器学习算法的准确性和安全性。放眼未来,OpenAI的规划将先于大规模模型训练,对上述方法进行改进,对各容量进行性能预估记录。并且,OpenAI希望这成为该领域的一个共同目标。

才能

真是考试的小能手

GPT-4典型的成绩包括:

SAT(美国高考):1410/1600(前6%)。

美国统一律师资格考试(MBE+MEE+MPT):298/400(前10%)。

AP(美国大学预科考试):生物学,微积分、宏观经济学,心理学、统计与历史大学预科高中考试:100%(5/5)。

OpenAI测试GPT-4以一系列不同基准,包括对原本针对人类而设的测验进行仿真。这些测试程序基于一个通用框架开发出来并被用于评估各种语言能力。考试题目由多项选择题与自由回答题组成,通过多项选择题与自由回答题得分组合,确定综合得分,GPT-4的成绩可以媲美人类水平,适用于多数专业及学术考试。该系统还可以帮助考生提高其分析能力。值得一提的是,通过律师统一考试模拟版,成绩在考生中排名前10%位。

从检验结果看,GPT-4模型的测试能力看来主要是由预训练过程产生,不受RLHF显着影响。就多选题而言,基本GPT-4模型与RLHF模型性能不相上下。

OpenAI也对事先培训过的基本GPT-4模型进行了基于传统基准的评估,这些基准用于评价语言模型。

从考试测试成绩看,GPT-4比已有语言模型表现得更加出色,和之前最为先进的制度,这类系统一般都具有所面向的基准,或者附加训练协议。

鉴于目前已有很多机器学习基准测试均使用英语进行,很难反映到别的语言所能表达出来,以便对GPT-4在其他语言中的作用有一个初步的了解,他们也将一套涵盖57个主题的多项选择题的基准测试,利用有关应用程序将其转化为其他语言,并加以检验,最后结果表明,GPT-4比GPT 3.5以及已有语言模型在所测试多数语言上都具有更好的性能,包括低资源的语言。

能看懂几张图片的笑点

GPT-4与以往模型相比,对用户意图理解能力得到了显着提高。

GPT-4的图梗应该说已能读懂,不再只是一个对话助手。它还具备了强大的语音识别和图像识别能力,可以把图像转换成文字或者声音来进行播放,这也算是对视频功能的一大突破吧!当然,距离人们所期望的视频观看理解,还存在一定距离。不过这款相机还能让我们用它来拍摄出更多有趣的照片哦!现在可以看到照片上的笑点了,就像照片上一样.

左一:一台iPhone插上了带有VGA的连接器

右一:“Lightning Cable”适配器包装上印有VGA连接器

右二:VGA连接器特写镜头,VGA连接器照片在上,不过能看出来,头部为Lightning.

笑点在于将VGA端口插在iPhone上的荒谬...很冷吧...搞机圈博主们的压力大不大...

4.1视觉输入方面

对于GPT-4来说,培训后对齐(Alignment)对于提升性能、增强体验至关重要。为了使用户能更有效地进行对齐操作,需要从算法上改进现有对齐策略。严格地说,人的反馈强化学习(RLHF)的微调仍然是GPT-4的重点。鉴于LLM领域存在竞争格局,以及GPT-4这类大型模型存在安全隐患,OpenAI暂不发布GPT-4模型架构,模型规模,训练技术等。

这张图片:GPT-4相信不寻常之处就是一个人在驾驶着一辆出租车顶棚上熨衣.

又如此,它究竟是不是鸡块呢?或者是地图?或鸡块拼世界地图?

GPT-4从图像与文本中接收提示,它和纯文本的设定是并行的,允许用户规定任意的视觉和语言任务。这种处理方式允许用户从不同视角观察文本并进行选择。具体而言,模型所产生的文本输出给了一个包含任意错开文本与图像的输入。这种处理可以允许用户从一个简单的输入开始执行多个复杂任务。从一系列方面来看,包括有文字,图片等文档、图表或者屏幕截图,GPT-4显示了和纯文本输入相似的功能。

针对语言模型开发的标准测试时间技术(比如少量的提示,思维链),在使用图像和文本时同样有效。

通过GPT-4博客,可获得一套较窄学术视觉基准下的最初发现,计划随后进一步公布GPT-4视觉能力。

局限性等

尽管GPT-4功能强大,但是和早期的GPT模型相同,具有类似局限性。这些局限使之不能在某些方面提供更多有用的信息和帮助。更重要的是,它仍不完全可靠(有了“幻觉”的事实,出现了推理错误),应非常慎重。

当语言模型的输出被利用,尤其适用于高风险背景,采用精确的协议(如人工审查、额外上下文、或者完全回避高风险的使用等)来满足特定应用的需要。

GPT-4是TruthfulQA和其他公共基准方面的一个进步,对这种基准测试模型进行检验,可以使事实与一套错误的说法分开,匹配统计吸引人的事实性错误回答。这使得它可以帮助我们更好地理解语言和文化之间的关系,并对语言进行分析。GPT-4的基本模式是,在这一使命中,它仅稍优于GPT-3.5。在过去几年里,许多研究人员已经对其进行过评估,并且证明它可以帮助人们理解那些被广泛接受的谚语。不过经过RLHF的培训,与GPT-3.5相比得到了较大提高,GPT-4抵制选几个普通谚语,但是还是漏掉了某些细微的细节。

GPT-4在简单推理中有时可能产生误差,看来与如此众多方面的才能不相称,或轻信使用者表面虚假陈述等。这些情况都是由程序自身的缺陷引起的,而不是来自外部。它也许会和人一样,在棘手的事情中败下阵来,比如,将安全漏洞导入到生成代码。

GPT-4在预测时还会容易出错,有可能出错时,不要注意反复核对。另外,本文还对该算法进行了一些改进,使得预测结果更加准确。尽管预训练后模型高度标定,但是在以后的培训中,校准度下降。

GPT-4的输出出现了各种各样的偏差,OpenAI已开始尝试改正,不过,那还得花些工夫,他们的目标是使GPT-4同我们建立的其他系统一样,存在理性默认行为,为了体现广大使用者的价值,使这些系统能够在某些宽泛的领域中被定制,以及取得大众对于上述范围内的看法。

风险与缓解措施

GPT-4存在着和小型语言模型相似的危险,比如,会生成危害严重的提案,会出现瑕疵的编码或者是不精确的数据。

请领域专家测试对抗性:要想知道这些危险的大小,OpenAI聘请长期从事人工智能(AI)校准风险、网络安全的专家、来自生物风险与国际安全领域50余名专家对模型进行了对抗性测试。通过使用这些专家所提出的意见,研究人员得出了一些关于如何减少风险或提高安全性的结论,并将其应用于具体实践中去。在这些专家中搜集到的意见和训练数据,可供OpenAI在制订缓解措施以及完善模型时借鉴。

在安全管道中采用了模型辅助:与之前的GPT模型一样,OpenAI使用来自人类反馈的强化学习(RLHF)来微调模型的行为,为了生成更加满足用户意向的响应。经过RLHF处理后,模型对于非安全输入仍处于弱势状态,并且有时在安全输入和不安全输入上都表现出不受欢迎的行为。为了避免这种情况发生,该模型需要使用一种新的策略来提高其鲁棒性。另外,这种模式对安全输入可能会过于小心。

安全指标提升:OpenAI缓解措施使GPT-4在很多安全性能上都有很大提升。该公司还提供了一种用于处理非授权内容的系统和方法。与GPT-3.5相比,这家公司把GPT-4回应不被允许内容请求的趋势减少82%,GPT-4则按照OpenAI政策,敏感请求响应频率增加29%。

OpenAI正和外部的研究人员一起工作,为了提高对它的认识,并对潜在影响进行评价的方法,和确立将来系统可能发生危险的能力评价。该公司已经开始测试一些新技术,以便更好地理解人工智能如何影响人们的生活。公司即将就社会上可采取的措施出台提案,为了迎接人工智能带来的冲击。在发布有关社会针对人工智能冲击可采取措施的提案同时,这家公司也即将发布对人工智能潜在经济影响进行预测的最初设想。

GPT-4相关能力的综述

-支持多模式输入:GPT-4的API可以接收图像,并生成相应的字幕,对图像进行分析。

-在BAR考试中取得优异成绩:GPT-4取得了BAR 90分(满分一百),同时,获生物奥林匹克竞赛视觉题99分,它的推理能力比ChatGPT更强。

-超大上下文:GPT-4支持25,000个单词的上下文,可以使完整的文档适合在一个提示符内。

--更有创意及协作性——与用户合作产生,编辑及迭代撰写任务,创意及协作性更强。

-多个合作伙伴正在测试GPT-4:Duolingo、Be My Eyes、Stripe、摩根士丹利、可汗学院等,就连冰岛政府也不例外。

小结

GPT-4作为一种大规模多模态模型,在一些难度较大的职业及学术基准下,都有人类水平的性能。本文描述了其设计思想、主要特点及应用情况。在系列NLP任务中,其性能比已有大型语言模型更好,并超越了绝大部分已经报道过的最先进系统(这类系统一般都包含对具体任务进行微调)。

GPT-4因其性能得到改善,也面临着新的危害,OpenAI的研究小组对其中的部分方法与成果进行了探讨,为了认识并改善它们的安全性与一致性。在这些研究中,有一个项目取得了突破性进展——开发出一种基于机器学习技术的新型入侵检测模型。尽管仍有许多事情需要去完成,但是,GPT-4代表着向广泛有用和安全部署的人工智能系统迈出了重要一步。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1