OpenAI 终于发布了 GPT-4,这是其下一代大型语言模型,2022 年持续至今的谣传终于得以验证为真。这家总部位于旧金山的初创公司,才推出 ChatGPT 上一个出人意料的成功产品没多久,现在它又让驱动这个聊天机器人的语言模型变得更大、更强。
(来源:STEPHANIE ARNETT/MITTR | ENVATO)
然而,OpenAI 没打算告诉人们,GPT-4 更好的原因是什么。GPT-4 是该公司有史以来最神秘的新成果发布,这标志着其从非营利性研究实验室向营利性科技公司的全面过渡。
GPT-4 发布之后,我与其开发团队进行视频电话时,OpenAI 的首席科学家伊利亚·苏斯克弗(Ilya Sutskever)表示:“你知道,有些事我们现在还不能评论。外面到处都是竞争对手。”
GPT-4 是一种多模态的大型语言模型,这意味着它可以同时对文本和图像给出回应。比如你打开冰箱,照张相然后发给它,问它你能做什么菜,GPT-4 会尝试用图片上的食材制作食谱。它也很擅长解释笑话,苏斯克弗说:“如果你给它看一个表情包,它能向你解释里面有什么有趣的梗。”
目前 GPT-4 仅开放给 ChatGPT Plus 的付费用户,或者用户要以 API 开发者的身份加入等待名单,但所有用户都只能使用文本模式。
艾伦人工智能研究所的奥伦·埃齐奥尼(Oren Etzioni)说:“它在许多方面的持续改进都是显著的。GPT-4 现在是评估所有基础模型的标准。”
“一个好的多模态模型,一直是许多大型技术实验室所追求的目标,”托马斯·沃尔夫(Thomas Wolf)说,他是开源大语言模型 BLOOM 背后的联合创始人。“但它仍然难遥不可及。”
理论上,文本和图像的结合可以让多模态模型更好地理解世界。“它或许能够解决传统语言模型的弱点,比如空间推理,”沃尔夫说。
目前还不清楚 GPT-4 是否是如此。OpenAI 的新模型似乎比 ChatGPT 更擅长一些基本的推理,它可以解决一些简单的谜题,比如用以相同字母开头的单词总结文本。在电话会议的现场演示上,我看到 GPT-4 总结了 OpenAI 网站上的一段简介,所有单词都以 g 开头:GPT-4, groundbreaking generational growth, gains greater grades,Guardrails, guidance, and gains garnered,Gigantic, groundbreaking, and globally gifted。
在另一个演示中,GPT-4 接受了一份关于税务的文件,并回答了有关税务的问题,并给出了每个回答背后的理由。
在人类考试中,它也超过了 ChatGPT,包括律师考试(GPT-4 排在第 90 百分位,ChatGPT 排在第 10 百分位)和生物奥林匹克竞赛(GPT-4 排在第 99 百分位,ChatGPT 排在第 31 百分位)。沃尔夫说:“看到针对模型的评估已经开始用上人类对自己使用的测试,这很令人兴奋。”但他补充说,在没有看到技术细节的情况下,很难判断这些结果到底有多令人印象深刻。
根据 OpenAI 的说法,之所以 GPT-4 比 ChatGPT 表现更好(ChatGPT 基于 GPT-3.5),是因为它是一个更大的模型,有更多的参数。这是该公司在之前的模型迭代中发现的一个重要趋势。
GPT-3 的性能优于 GPT-2,因为它的参数数量是后者的 100 多倍,即 1750 亿参数 VS 15 亿参数。GPT-4 的开发者之一雅库布·帕乔基(Jakub Pachocki)说:“这个基本公式多年来并没有发生太大的改变。但这就像建造一艘宇宙飞船,你需要把所有小部件都做好,并确保没有一个会损坏。”
但 OpenAI 这次选择不透露 GPT-4 到底有多大。而且与之前发布的 GPT 版本不同,该公司并没有透露 GPT-4 是如何构建的——也没有透露数据、算力或训练方式。“OpenAI 现在成了一家完全封闭的公司,所做的科学交流也越来越类似新产品的新闻稿,”沃尔夫说。
OpenAI 表示,它花了 6 个月的时间来让 GPT-4 更安全、更准确。根据该公司的数据,GPT-4 响应 OpenAI 不允许的内容请求的可能性比 GPT-3.5 低 82%,编造内容的可能性也低 60%。
OpenAI 表示,它使用与 ChatGPT 相同的方法实现了这些结果,使用通过人类反馈的强化学习。这包括要求人类评分者对来自模型的不同反应进行评分,并使用这些分数来提高未来输出的质量。
该团队甚至使用 GPT-4 来自我改进,要求它产生可能导致偏见、不准确或攻击性回复的输入(提示),然后再修复模型,使它在未来拒绝这种输入。
GPT-4 可能是迄今为止最好的多模态大语言模型。但它并不像 GPT-3 在 2020 年首次出现时那样,属于独一无二的类型。在过去的三年里发生了很多事情。今天,GPT-4 与其他多模态模型共存,包括来自 DeepMind 的 Flamingo。沃尔夫说,Hugging Face 正在开发一种开源的多模态模型,未来将免费供其他人使用。
面对这样的竞争环境,OpenAI 将 GPT-4 更多地看作是一个新产品的试水,而不是一个最新研究成果。GPT-4 的早期版本已经与 OpenAI 的一些合作伙伴共享,包括微软证实它使用了 GPT-4 版本来构建新版 Bing 搜索。OpenAI 现在还在与 Stripe、多邻国、摩根士丹利和冰岛政府(使用 GPT-4 来帮助保护冰岛语)等组织合作。
许多其他公司也在排队等候。投资公司 Tola Capital 的联合创始人希拉·古拉蒂(Sheila Gulati)说:“对大多数公司来说,创建类似规模的模型的成本是无法承受的,但 OpenAI 采用的方法使得初创公司非常容易接入大型语言模型。这将促进在 GPT-4 之上的巨大创新。”
强大的人工智能新技术从未如此之快地从实验室发展到面向消费者的产品。同一天,谷歌宣布将向第三方开发者提供自己的大型语言模型 PaLM,并在谷歌文档和 Gmail 中推出聊天机器人功能;人工智能公司 Anthropic 宣布了一种名为 Claude 的新大型语言模型,已经被 Notion 和 Quora 等公司试用。
然而,大语言模型仍然存在根本上的缺陷。GPT-4 仍然可以产生有偏见、虚假和充满仇恨的内容;它仍然可以被越狱,躲开 OpenAI 设置的保护措施。虽然 OpenAI 改进了它,但还算不上 100% 成功解决。该公司声称,其安全测试已经足以让 GPT-4 用于第三方应用程序,但它也已经准备好迎接突发事件了。
“安全不是一个二进制的东西;这是一个过程。”苏斯克弗说,“只要你解锁了新能力,事情就会变得复杂。这些能力中的很多现在已经被摸清了,但我相信其中仍藏着一些令人惊讶的东西。”
就连苏斯克弗自己也认为,放慢发布速度可能会更好:“如果一个公司想出某种流程,允许拥有这些前所未有能力的模型更慢地发布,这将是非常可取的一件事。”
支持:Ren
原文:
https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/