当前位置:首页|资讯|医疗|ChatGPT|OpenAI|人工智能

SpringBoot2.X+Vue+UniAPP,全栈开发医疗小程序-古来圣贤皆寂寞

作者:bili_68802470155发布时间:2023-03-28


从制造者那里理解到ChatGPT是如何树立的内部故事

SpringBoot2.X+Vue+UniAPP,全栈开发医疗小程序

download:https://www.zxit666.com/5589/

2022年11月底,OpenAI在没有任何宣传的状况下发布了ChatGPT,这家总部位于旧金山的人工智能公司对此并无太多希冀。当然,OpenAI内部的人也没有准备好迎接病毒式的超级抢手。自那时以来,该公司不断在努力踌躇不前,并努力应用这一胜利。

OpenAI的政策工作者Sandhini Agarwal表示,公司内部将其视为“研讨预览”,这是对两年前技术的愈加成熟的版本,更重要的是,它试图经过搜集公众的反应来消弭其中的一些缺陷。在OpenAI工作的科学家Liam Fedus表示:“我们不想把它吹嘘成一个严重的根本停顿。”

为了理解这个聊天机器人背后的内情故事——它是如何制造的,自发布以来OpenAI如何更新它,以及其制造者对其胜利的见地——我与四位协助构建这个成为有史以来最受欢送的互联网应用之一的人交谈。除了Agarwal和Fedus,我还与OpenAI的结合开创人John Schulman和OpenAI对齐团队的担任人Jan Leike交谈,该团队努力于处理让AI依照用户的意愿去做事(而不是别的)的问题。

我得出的结论是,OpenAI对其研讨预览的胜利依然感到困惑,但已抓住时机推进这项技术的开展,察看数百万人如何运用它,并努力处理呈现的最严重问题。

自11月以来,OpenAI曾经屡次更新了ChatGPT。研讨人员正在运用一种名为对立性锻炼的技术来阻止ChatGPT让用户诱导它表现恶劣(称为越狱)。这项工作让多个聊天机器人相互对立:一个聊天机器人充任对手并经过生成文本攻击另一个聊天机器人,迫使其打破通常的约束并产生不需求的回应。胜利的攻击将被添加到ChatGPT的锻炼数据中,希望它学会疏忽它们。


OpenAI与微软签署了一项数十亿美圆的协议,并宣布与全球管理咨询公司贝恩结盟。贝恩方案在其客户(包括可口可乐公司)的营销活动中运用OpenAI的生成式AI模型1[3]。在OpenAI之外,关于ChatGPT的热议引发了全球大型言语模型的又一次热潮,各地的公司和投资者纷繁参加。

短短三个月内,这惹起了很大的关注。ChatGPT从何而来?OpenAI采取了哪些措施确保产品发布前做好准备?他们接下来会走向哪里?

Jan Leike:实话说,这让我们有点手足无措。我们感到诧异,我们不断在努力踌躇不前。

John Schulman:发布之后的几天,我不断在亲密关注Twitter,那段时间推特上充满着ChatGPT截图。我原以为它会很契合人们的直觉,并会取得一定的关注,但我没料到它会到达如此普遍的主流提高度。

Sandhini Agarwal:我以为我们都没有料到人们会如此热衷于运用它。我们如此专注于这些模型,以致于有时遗忘了它们对外界来说是多么惊人。

Liam Fedus:我们的确对它遭到的热烈欢送感到诧异。之前有很屡次通用聊天机器人的尝试,我晓得我们面临的应战不小。但是,我们的私人测试让我们置信,我们可能真的做出了一款人们喜欢的产品。

Jan Leike:我想更好地理解驱动这一切的缘由——推进其病毒式传播的缘由。说实话,我们不理解。我们不晓得。


团队的困惑局部源于ChatGPT内部的大局部技术并不是新的。ChatGPT是GPT-3.5的一个优化版本,而GPT-3.5是OpenAI在发布聊天机器人之前几个月发布的大型言语模型家族。GPT-3.5自身是2020年呈现的GPT-3的更新版本1。OpenAI经过将这些模型作为应用程序编程接口(API)提供在其网站上,让其他软件开发人员能够轻松地将模型嵌入到他们本人的代码中。2022年1月,OpenAI还发布了一种名为InstructGPT的GPT-3.5的优化版本。但是这些先前的技术版本都没有向公众推行。

Liam Fedus表示,ChatGPT模型是从与InstructGPT相同的言语模型中微调而来的,他们运用了相似的微调办法。他们添加了一些对话数据并对锻炼过程停止了调整,因而不希望将其过度宣传为严重的根本进步。事实证明,对话数据对ChatGPT产生了很大的积极影响。

John Schulman表示,虽然从规范基准来评价这些模型的原始技术才能并没有本质性的差别,但ChatGPT更易于访问和运用。

Jan Leike解释说,从某种意义上说,ChatGPT能够被了解为我们曾经有的AI系统的一个版本。它并不比以前的模型具有更强大的功用。在ChatGPT问世前的一年里,相同的根本模型曾经在API上可用。另一方面,他们使其更契合人们想要用它做的事情。它以对话的方式与您交流,易于在聊天界面中访问,努力提供协助。这是令人惊叹的进步,人们正在认识到这一点。

John Schulman指出,ChatGPT更容易推断出用户的企图,而且用户能够经过重复对话来取得他们想要的内容。

ChatGPT 的锻炼方式与 InstructGPT 十分类似,采用了一种称为基于人类反应的强化学习(RLHF)的技术。这是 ChatGPT 的机密武器。根本思绪是采用一个倾向于随意输出内容的大型言语模型——在这种状况下是 GPT-3.5——并经过教它人类用户实践更喜欢的回应类型来停止调优。

Jan Leike:我们让一大群人阅读 ChatGPT 的提示和回应,然后说出哪个回应比另一个回应更可取。一切这些数据随后兼并到一个锻炼运转中。很多内容与我们在 InstructGPT 中做的事情相同。你希望它能提供协助,要真实,要无毒。然后还有一些特定于产生对话和成为助手的事情:比方,假如用户的查询不分明,它应该提出后续问题。它还应该廓清本人是一个 AI 系统。它不应该假定本人没有的身份,不应该宣称具有它所没有的才能,当用户请求它执行不应该执行的任务时,它必需写出回绝信息。在这次培训中呈现的一句话是:“作为一个由 OpenAI 锻炼的言语模型……”这并非是成心放进去的,但它是人类评价者高度评价的事物之一。

Sandhini Agarwal:是的,我以为这就是发作的事情。人类评价者必需依据各种规范对模型停止排名,比方真实性。但是他们也开端更喜欢他们以为是良好理论的事物,比方不伪装是你不是的东西。

由于 ChatGPT 是运用与 OpenAI 之前运用的相同技术构建的,因而在准备将此模型发布给公众时,团队并未采取任何不同的做法。他们以为之前模型的规范曾经足够了。

Sandhini Agarwal:在准备发布时,我们并没有将此模型视为一个全新的风险。GPT-3.5 曾经在世界上存在,我们晓得它曾经足够平安。经过 ChatGPT 对人类偏好的培训,模型自动学会了回绝行为,回绝了很多恳求。

Jan Leike:我们的确为 ChatGPT 停止了一些额外的“红队”测试,OpenAI 的每个人都坐下来尝试破解模型。我们还有外部团队做同样的事情。我们还有一个早期访问方案,信任的用户会提供反应。

Sandhini Agarwal:我们的确发现它产生了一些不需求的输出,但这些都是 GPT-3.5 也会产生的东西。因而在风险方面,作为一个研讨预览——由于这是它最初的目的——觉得还不错。

John Schulman:你不能等到你的系统白璧无瑕才发布。我们曾经对早期版本停止了几个月的测试,测试人员对产品给予了积极的评价。我们最大的担忧是关于事实性的问题,由于模型喜欢捏造事实。但 InstructGPT 和其他大型言语模型曾经在那里了,所以我们以为,只需 ChatGPT 在事实性和其他平安问题上优于那些模型,它就应该能够运用。在发布前,我们确认了依据我们有限的评价,这些模型似乎比其他模型在事实性和平安性方面更强一些,所以我们决议继续发布。

自 ChatGPT 发布以来,OpenAI 不断在察看人们如何运用它,这是第一次看到一款大型言语模型在数千万可能试图测试其极限和发现其缺陷的用户手中如何表现。团队试图关注 ChatGPT 产生的最具问题性的例子——从关于神对强奸神父之爱的歌曲到窃取信誉卡号的歹意代码——并用它们来约束模型的将来版本。

Sandhini Agarwal:我们有很多下一步要做的事情。我的确以为 ChatGPT 的病毒式传播使我们晓得的很多问题变得十分突出,并变得十分关键——这些都是我们希望尽快处理的问题。比方,我们晓得模型依然存在很大的成见。是的,ChatGPT 很擅长回绝不良恳求,但编写提示让模型不回绝我们希望它回绝的内容也相当容易。

Liam Fedus:看到用户多样化和富有创意的应用令人振奋,但我们一直专注于需求改良的范畴。我们以为经过部署、获取反应和优化的迭代过程,我们能够消费出最契合需求和最有才能的技术。随着我们的技术不时开展,新问题不可防止地会呈现。

Sandhini Agarwal:发布后的几周里,我们查看了一些人们发现的最糟糕的例子,这些都是人们在理想中看到的最糟糕的事情。我们对这些例子停止了评价,讨论了如何处理这些问题。

Jan Leike:有时分是由于在 Twitter 上病毒式传播的内容,但我们也有一些人悄然地与我们获得联络。

Sandhini Agarwal:我们发现的很多问题都是越狱行为,这绝对是我们需求处理的问题。但由于用户必需尝试这些复杂的办法来让模型说出一些不好的东西,这并不是我们完整无视了的问题,或者对我们来说十分令人诧异的事情。但是,我们如今正在积极处理这个问题。当我们发现越狱行为时,我们会将它们添加到我们的锻炼和测试数据中。我们看到的一切数据都会输入到将来的模型中。

Jan Leike:每次我们有了更好的模型,我们都希望将其投放进来并停止测试。我们十分悲观地以为,一些针对性的对立性锻炼能够大大改善越狱问题。虽然不分明这些问题能否会完整消逝,但我们以为我们能够使越狱行为变得愈加艰难。再次强调,在发布之前,我们并不是不晓得越狱是可能的。我以为,在部署这些系统后,真正预测这些系统会呈现的平安问题十分艰难。所以我们十分注重监测人们运用系统的目的,察看发作了什么,然后对此做出反响。这并不是说我们不应该在预见到平安问题时主动停止缓解。但的确,预见系统进入理想世界时实践发作的一切十分艰难。

1月份,微软发布了名为 Bing Chat 的搜索聊天机器人,许多人猜想这是 OpenAI 尚未正式宣布的 GPT-4 的一个版本。(OpenAI 表示:“Bing 是由微软特地为搜索定制的我们的下一代模型之一驱动的。它分离了 ChatGPT 和 GPT-3.5 的技术进步。”)技术巨头们为了维护数十亿美圆的名誉而运用聊天机器人,这为担任构建底层模型的人们带来了新的应战。

Sandhini Agarwal:如今的风险肯定比六个月前要高得多,但依然低于一年后可能的程度。很明显,这些模型的运用环境对它们的重要性十分大。就像 Google 和 Microsoft,即便是一件事实不清的事情,也由于它们被以为是搜索引擎而成为了一个大问题。用于搜索等场景的大型言语模型所需的行为与仅仅是一个兴趣聊天机器人的请求十分不同。我们需求弄分明如何在一切这些不同的用处之间找到均衡,为人们发明出在一系列场景中有用的东西,其中所需的行为可能真的有很大差异。这增加了更多的压力。由于我们如今晓得,我们正在构建这些模型,以便它们能够变成产品。ChatGPT 如今是一个产品,由于我们有了 API。我们正在构建这种通用技术,我们需求确保它在一切方面都能运作良好。这是我们目前面临的关键应战之一。

John Schulman:我低估了人们在探测和关怀 ChatGPT 政治方面的水平。在搜集锻炼数据时,我们本能够做出一些更好的决策,从而减轻这个问题。我们如今正在处理这个问题。

Jan Leike:从我的角度来看,ChatGPT 失败很多——还有很多事情要做。我们并没有处理这些问题。我们都必需十分分明地认识到本人和他人的技术局限性。我的意义是,言语模型曾经存在了一段时间,但如今依然是初期阶段。我们晓得它们存在的一切问题。我以为我们只需求十分坦率空中对,管理希冀,并明白这不是一个废品。

总结

本文引见了 ChatGPT 是如何由 OpenAI 团队开发出来的。ChatGPT 是一个大型的言语模型,它能够依据用户的输入生成自然言语响应。自 ChatGPT 推出以来,OpenAI 不断在关注用户的运用状况,以理解大量言语模型在成千上万的用户手中的表现。

文章中提到,开发团队在构建 ChatGPT 时遇到了许多应战,例如如何让模型更好天文解言语、如何在处置大量数据时坚持稳定性等。他们采取了一些创新的办法来处理这些问题,例如运用无监视的学习办法和对立性锻炼。

此外,文章还提到了一些关于言语模型将来开展的见地,包括模型的加强、模型的可解释性以及模型与人类言语才能之间的关系。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1