神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:算法和模型对于人工智能来说确实很重要。在这方面,谷歌很有优势,而且也是先驱。但是规模对人工智能来说也同样重要。在这方面,身为业界巨头的谷歌和微软此前因为害怕声誉受损而畏首畏脚,而在这一点上,身为初创企业的 OpenAI 却没有包袱。通过迅速将自己的产品推向大众市场,OpenAI 引爆了人工智能业迄今为止最火的一波狂潮。在这背后,离不开一位女性 CTO 的功劳。文章来自编译。
OpenAI首席技术官Mira Murati
那是一个阳光明媚的星期一,ChatGPT 背后的六人领导团队正聚在一起,召开每周例会。作为有史以来最先进的、面向大众部署的人工智能聊天机器人,ChatGPT 已经为人所熟知。
会议在 OpenAI 位于旧金山的总部举行。这里以前是一家工厂,现在已经成为负责创造突破性技术的 375 名研究人员、工程师以及政策专家的大本营。走进总部大楼雄伟的大门,穿过棕榈树环绕的庭院,经过一道鹅卵石喷泉,然后穿过大厅,手里拿着笔记本电脑的团队成员终于到达了一间舒适的会议室。
OpenAI 首席技术官 Mira Murati 在桌子中央就座。冬日的阳光穿越了一排平开窗以及一簇悬挂的植物照射进来。Murati 很随意地扎了个马尾辫,喝了一杯绿茶,然后翻开黄色便笺本的新一页,示意 ChatGPT 团队开始汇报。要说的有很多。
自推出以来,围绕着 ChatGPT 的讨论已经从兴奋变成了喧嚣。国会议员、记者、科技内幕人士以及早期采用者对这项服务的潜力体会五味杂陈,敬畏、焦虑,甚至恐惧都有,用户输入关键字或短语(“总结一下美国最高法院的裁决”,“用苏斯博士的风格”)经常就能收到令人兴奋的好结果。美国最大的学区已禁止使用 ChatGPT。各大播客主持摇身一变成为了 AI“专家”,称其重要性堪比 iPhone。就在那天早上,此前曾给这家成立近 8 年的初创公司投资了 10 亿多美元的微软宣布,自己将进一步将 OpenAI 的工具集成到自家产品里(编者注:现在集成了 ChatGPT 的新 Bing 已经推出测试版),同时据报道又将向该公司注资 100 亿美元。与此同时, ChatGPT 的领导层在去年秋天匆忙发布该产品之后,正努力应付这突如其来的巨大成功。根据分析公司 Similarweb 的数据,专为研究目的而设计的 ChatGPT 现已拥有超过 1 亿的用户——但部分局限性也开始显现。(OpenAI 并未透露具体用户数量。)
团队会议的第一项议程是“胡说八道”——或者,准确地说,团队在 ChatGPT 如何对响应的准确性与创造性做出平衡方面的发现。ChatGPT 不是去检索预先确定的答案,而是对每个用户提示生成一个新的答复——这就是为什么它被称为生成式 AI 的原因,也是它的聪明所在。但旨在即时生成内容的技术最终可能会造成 AI 的所谓“幻觉”。说得通俗一点:ChatGPT 在“胡说八道”。
Murati 率先发言,询问团队对 ChatGPT 的准确性与其想象力之间是否存在任何相关性有多少了解。她问道:“我们知道事实性平衡与创造力评估之间的关系吗?”一身黑色行头的她在探讨聊天机器人的可靠性问题时表现出了深思熟虑与专业性——除了在这间房里的人以外,各大专栏文章以及 Twitter 上对这个问题都争得不可开交。
Murati负责监督将OpenAI产品商业化并通过人类反馈来改进它们的工作。
研究员 Liam Fedus 之前曾是粒子物理学家以及 Google Brain 的科学家,他挑了挑眉毛,承认自己不能完全理解 ChatGPT 里面事实与虚构之间存在什么关系。他告诉 Murati :“可能存在一点奇怪的紧张关系,只是可能。”
Murati 鼓励道:“我认为这种紧张肯定存在”。ChatGPT 是 OpenAI 自己的创造物,是对 AI 研究人员所谓的大型语言模型的创新改进,但他们的团队仍在发现和塑造这个 AI 的能力。她点头示意他继续。
他说:“我们看到有越来越多的证据表明我们的基础模型在创意写作方面具备这种才华”。并指出他们一直在打磨 AI,进一步强化提供正确答案的能力。但他指出,由于 OpenAI “在一定程度上转向了一个更为有用的模型,也许我们已经失去了部分能力,你知道的,也就是非常出色的写作能力。”
Murati 一边在笔记本上写着,一边不断点头:“嗯,嗯,嗯”,这个温柔的鼓励将在未来几周推动一场新实验的展开——他们要通过这场实验测试一下准确性与创造力的关系。数十亿美元,数百万个工作岗位有可能要取决于这项调查的结果;如果不能证明 ChatGPT 是可信的话,OpenAI 作为硅谷几十年来最有前途技术的典型代表的地位也许将岌岌可危,这家公司的工具之后只会沦为新奇产品而已。不过,Murati 的沉着冷静仿佛自己在主持一场研究生级别的研讨会。
不到一年前,OpenAI 还是一家尽管备受推崇但却相当安静的组织,其明确的使命是“确保 AGI(通用人工智能)——我们指的是高度自治的系统,在最具经济价值的工作中的表现优于人类——并让全人类受益。”很多公司都在利用人工智能,消费者每次在 TikTok 上滑动或在 Facebook 上分享时都会与它互动。而 OpenAI 一直在朝着一个更宏伟的方向发展:要做出一个对这个世界具备常识的系统,可以直接解决几乎无限数量的问题。据《麻省理工学院技术评论》报道,尽管该公司有一半的员工猜测 AGI 的实现还需要 15 年时间,但 OpenAI 的现有模型具备了非常广泛的能力。随着去年 9 月图像生成工具 Dall-E 2 以及 11 月 ChatGPT 的发布, OpenAI 唤醒了整个世界,让人们认识到它的技术可以给当今世界带来非凡的经济价值。
Murati 是在 2022 年 5 月晋升为首席技术官的,此前 OpenAI 工具的公测策略一直由她负责。十年来,尽管研究人员在 AI 领域已经取得了显著进步,在理解文本(自然语言处理)与图像(计算机视觉)方面的进步尤其巨大,但大部分行动仍被锁定在像谷歌这样的科技巨头的臭鼬工作之中,多年来,他们的注意力更多放在让 AI 研究人员发表学术论文上,而不是推出开创性的商业产品。
OpenAI 却走了一条不一样的路线。它也大肆招揽顶尖学术人才,但却引导他们把工作投入到打造精良产品、部署到大众市场上。想象一下,当你既有一屋子的博士,同时又有着企业销售人员的那种能量时,你就会明白为什么 OpenAI 会是第一家激发公众对 AI 产生广泛兴趣的企业了。除了备受瞩目的 ChatGPT 之外,还有数百万人试用了 Dall-E——它会根据用户提示生成图像(比如,“一幅中世纪的人玩匹克球的画”)。以及有公司在利用音频转录工具 Whisper 以及将自然语言提示转换为代码的 Codex 等产品。许多人付费将 OpenAI 的 API 整合到他们的软件里面,并且已经与 OpenAI 签订合同,向后者发送用户反馈。这些反馈将是改进该组织研究核心的基础模型(即“大脑”)的素材。
这些模型的变革潜力再怎么强调也不为过。Betaworks 创始人兼首席执行官 John Borthwick 表示,与移动等过去的技术平台相关的创新已经“达到极限”。Betaworks 是一家早期阶段风投企业,自 2016 年以来一直在运营着一系列以 AI 为重点的加速器计划。“我们正在目睹下一波大浪潮的出现。”
尽管在技术行业看到浪潮不难,但一开始的浪潮到最后往往会变成涟漪——Web3,现在还有谁出来喊吗?还有吗?——但人工智能不一样。已经有数百家企业客户使用了 OpenAI 的技术:从成立 2 年,每年靠销售文案协助赚取 9000 万美元的 AI 内容平台 Jasper 的横空出现,到可以让游客利用 Dall-E 技术支持的互动展览将自己的梦想可视化的佛罗里达州萨尔瓦多·达利博物馆。当然还有微软。在首次将 OpenAI 技术整合到 GitHub Copilot、Designer 以及 Teams Premium 等产品之后,它现在正在给 Bing 注入类似 ChatGPT 的功能——CEO 萨蒂亚·纳德拉(Satya Nadella)打算在谷歌占据了 84% 份额的搜索市场,让微软赢得一席之地与收入。
几乎经济活动的方方面面都可能会受到 OpenAI 工具的影响。按照麦肯锡全球研究所(McKinsey Global Institute)的说法,现在相对狭窄的人工智能应用(比方说客户服务自动化)在这十年对全球经济的价值贡献将要比 1800 年代后期的蒸汽机还要大。AGI 的价值将增加数万亿美元,至少它最热心的信徒是这么认为的。
不过实现这一目标可能还需要一段时间。据路透社报道,在去年赚了 3000 万美元之后,OpenAI 预计 2023 年的收入将达到 2 亿美元。(今年 1 月份,OpenAI 推出了 ChatGPT 月租为 20 美元的付费套餐;它还希望通过 ChatGPT 相关的 API 来增加收入。) OpenAI 及其资助者——包括埃隆·马斯克、Peter Thiel 以及 Reid Hoffman 等——对公司将赢得巨大成果充满了信心,他们甚至给自己设定了利润的上限,以此摆出一副履行造福人类使命的姿态。(据《财富》杂志报道,OpenAI 的最大资助者微软可能有权获得高达 920 亿美元的收益。微软最近投资这家初创公司时给后者开出的估值为 290 亿美元。)
毫不奇怪,OpenAI 也有自己的批评者。今年一月,Meta 的首席 AI 科学家 Yann LeCun 在一场会议上对 ChatGPT 嗤之以鼻,称这个东西 “没什么革命性的东西”。开源布道者谴责 OpenAI 是一个黑盒子。其他批评者则抱怨说,它在公开测试中显得漫不经心,利用研究实验室的光环来逃避更严格的审查。还有一些人表示,它依靠肯尼亚的合同工对有毒内容进行标记,用剥削的手段来追求安全。
此外,竞争对手也开始向 OpenAI 发起挑战 。去年 8 月,Stability AI 推出了 AI 图像生成工具 Stable Diffusion,并马上提供给消费者使用。继 ChatGPT 之后,谷歌也仓促发布了一款名为 Bard 的聊天机器人,百度则宣布了推出聊天机器人文心一言 Ernie 的计划。谷歌 Bard 的失败展示在一天之内就令公司市值损失了惊人的 1000 亿美元;百度在今年 2 月发布的公告则令其股价飙升了 15%。OpenAI 模式的颠覆性就在于此——如果它们背后的人可以教它们区分事实与幻想的话。
Murati 出生在阿尔巴尼亚,16 岁时离开了祖国,前往不列颠哥伦比亚省维多利亚市的培生联合世界学院(Pearson United World College)就读。2013 年,她加入了特斯拉,在领导 Model X 的开发工作时首次赶上了人工智能热。那时候特斯拉正在发布早期版本的 Autopilot,这是一款有人工智能支持的驾驶员辅助软件,但其目标(也可以说是妄想)是最后实现机器的完全自主,同时特斯拉还为旗下工厂开发由人工智能支持的机器人。这时候,Murati 开始思考 AI 在现实世界其他领域的应用。
2016 年,她当上了 Leap Motion 的产品及工程副总裁。这家公司当时致力于开发一种增强现实系统,打算用手势来代替键盘与鼠标。Murati 希望让与计算机交互的体验“就像玩球一样直观”。但她很快意识到,这项依赖 VR 头显的技术还为时过早。她指出: “哪怕是准确性差一点点也会让你感到恶心”。
在思考下一步该做什么时,她得出结论,“技术的巨大进步”必须在解决全球最大挑战当中发挥作用。2018 年,当她加入 OpenAI 时,她找到了志同道合者,他们与她有着共同的信念,也就是 AGI 会是那种技术。
Murati 发现,OpenAI 这个组织正在经历变革。这家全球最好的人工智能实验室正在利用整个互联网规模的数据以及定制的超级计算机来训练自己的模型,其暴力破解法正在产生结果。OpenAI 这只精干但不断壮大的团队意识到,他们将需要越来越多(并且越来越昂贵)的计算能力;商业化成为了经济上的必要,同时也是让自己的技术了解世界的途径。2019 年,这家非营利组织重组为营利性的初创企业,母公司同时仍保留了非营利性,他们还聘请前 Y Combinator 总裁 Sam Altman 担任 CEO。他很快从微软那里弄到了 10 亿美元的投资。
随着 Murati 开始担任应用人工智能与合作伙伴关系的副总裁,OpenAI 踏上了新的征程,大型语言模型,或者说旨在在神经网络上处理和生成文本的算法的核心问题就摆在他们面前:用竞争对手 Stable Diffusion 研发副总裁 Patrick Hebron 的话来说,这种模型有点像“被封闭起来的天才“。需要探索才能揭示这些模型的才能;你可以这么说,在有人递给他一件乐器之前,莫扎特不是莫扎特。对于像 GPT 这样的系统来说,OpenAI 的基础语言模型也许具备了很多的才能,在外部合作伙伴的帮助下,发现这些才能的过程可以来得更快。
其他开发大型语言模型的 AI 实验室的方向不大一样,他们制作精美演示以及只会一招的“小玩意”,比方说 Google Duplex,这是 Google Assistant 的语音机器人版,能够帮用户打电话预约。不过,OpenAI 已经开始搭建基础设施,处理关系,完善模型,以便更好地符合人类意图。Murati 后来被提拔为同时负责研究的管理职位,这样一来,她一下子就站在了这项工作的核心位置。
比方说,要想解锁 ChatGPT,OpenAI 需要 GPT 来理解人类对话的价值。语言当中有很多东西都是主观性的:什么样的歌才算“酷”?什么样的餐厅才算“高档”?没有人类反馈的话,语言模型很难理解这些概念,更不用说拿这些来开玩笑了。OpenAI 开始拼接向 GPT 传授这些价值观所需的拼图。它付钱给合同工去评估 GPT 的输出,并编写更好的输出,而且员工也在这样做。同时它还寻找愿意分享实验数据的合作伙伴。它建立起安全的运营,试图预测用户有哪些破坏系统的方式。然后它将来自所有这些努力的数据反馈到一个凌驾于 OpenAI 语言模型之上的算法层。
最后一步是在系统之上创建一个搜索栏式的界面,并将其命名为 ChatGPT,这是整件事情当中比较简单的部分。Murati 说,其结果是一个 “更有可能做你想让它做的事情” 的聊天机器人。
ChatGPT 只是个开始。OpenAI 拥有多样化的应用组合。这个范畴是设计使然。Murati 说:“我们要做 Dall-E 的原因之一是为了更深入地了解世界,让这些模型用我们的方式去了解世界”。她认为,通过多模式学习(即包含了文本、图像、音频、视频甚至机器人技术的学习)训练的人工智能模型会是取得长期突破的途径。
怎么走到那一步?诀窍是将这些未来计划与此时此地的产品联系起来。
在距离 OpenAI 总部约 2260 英里的地方,创业者 Andrew Wyatt 环顾了一下自己在匹兹堡的联合办公空间。作为时尚品牌设计与制造平台 Cala 的联合创始人兼首席执行官,几个月前,Wyatt 将 OpenAI 的 Dall-E 功能融入了他的产品之中。借助 Dall -E 的 API,设计师现在可以用 Cala 将文本提示生成草图或逼真的图像。他们还可以利用 Dall-E 根据初始图像生成变体——换句话说,不断重复一个点子。
Wyatt 说:“也许我的灵感就来自地毯上的这种图案”,然后用 Cala 的移动 app 快速地拍了张照片。接着,他将照片传给 Dall-E;哪怕原先的图片光线很差,而且里面还出现了一部分椅子,这个工具也能在几秒钟之内提供一系列相似的图案。 他说:“如果你拍摄的是高分辨率产品照的话,它会更好用。我们知道,每个品牌都会有高清照”。
Wyatt 将图像质量更高的纽扣式女式衬衫图像引入到 Cala 的设计工具之中。这件衬衫的面料上有个图案:深绿色块状的扭曲链条。他一边生成一系列的变体,一边说:“这几乎像盗梦空间一样,你会在不停地剥洋葱”。然后又生成了一组,并补充道:“你想按多少次就按多少次”。每当他按下按钮,链条都会生成新的模式。“可以看出,我们现在已经逐渐摆脱了原来的感觉,得到了一些独特的东西。”
来自顶级品牌的设计师们正在悄悄尝试 Cala 的这款 Dall-E 工具,有时候他们会用最疯狂的输入来突破界限。Wyatt 报告说,新用户注册 Cala 的速度是之前的六倍。Cala 的工具不是抢走设计师的饭碗,而是反过来要求他们设计出令人信服的提示,好获得最佳的结果,这项技能与其他任何技能并无二致。Cala 试过举办用 Dall-E 设计包包的内部竞赛,最后,轻松获胜的是团队最有经验的 AI 时装设计师;她生成的精致优雅的镀铬行李箱的渲染图很容易会被误认为是人类设计的产品。
目前,在时尚界,生成式人工智能在灵感阶段的用处最大。但 Wyatt 已经将这些点与设计及制作的后期阶段联系起来。Cala 甚至可以帮助小品牌灵活地按需制作服装——这是对大规模生产的快时尚原型的颠覆,而且更具可持续性。按照 Wyatt 的设想,品牌今后在设计过程中可以消除对实物样品的需要,从而更快地将想法交到客户手中。
他说:“我们认为,可能完全会改变游戏规则的地方是 [当品牌可以] 直接通过文本提示即可生成 3D 渲染。然后圣杯将是将 3D 渲染输出成 2D 图案,这样就可以裁剪面料,并准备投入生产。”
原先在苹果工作的 Natalie Summers 于 2021 年跳槽到 OpenAI 帮助建设社区。去年春天,她跑到 Instagram 上面跟几位艺术家进行了私信交流。她询问对方:“嘿,想尝试一个很酷的新东西然后告诉我们你的想法吗?”这个“东西”就是 Dall-E,当时它还处于研究预览阶段。
语速很快的 Summers 也曾经当过记者。她安排了与陶艺家、布景设计师、景观设计师以及数字艺术家的视频通话,一开始是 10 或 20 人一组,后来规模增加了数百人。OpenAI 研究团队想了解艺术家在一个生成艺术项目当中能发现什么样的价值——还有就是想看看什么会引起他们的愤怒。因此,她为他们提供了一个尝试 Dall-E 提示的机会,同时也不忘发出警告,她回忆道她当时说的:“是的,这将改变一切。你应该帮助开发对你有用的 [AI] 工具。”
让人工智能与人类价值观对齐起来听起来令人担忧:究竟谁的价值观才能构成基准?但是弄清楚人们在商业上看重什么,可以围绕着潜在的道德问题建立起一个更加实用(也更有利可图)的框架。至少对于参与 Dall-E 测试版的艺术家来说,最紧迫的问题是如何才能将自己的 AI 创作货币化。他们还想知道生成技术会对他们的工作产生什么影响。(另一组艺术家的作品被纳入到 Stability AI 以及 Midjourney 的类似产品的训练数据当中,他们更看重的是对他们现有收入的保护:他们正在起诉对方侵犯了自己的版权。)Murati 说:“你得让技术跟现实接触。看看大家是怎么使用它的,存在哪些局限;然后从中学习;再反馈到技术开发当中。另一个维度是可以看看 [这项技术] 在解决现实世界问题方面有多大的进步,或者它是不是新颖。”
OpenAI 的角色需要做出谨慎的平衡:它必须为客户做出渐进式的改良,同时又要为未来的知识飞跃奠定基础。与其最珍贵的客户合作时,OpenIAI 是一个慷慨的(尽管是自私的)实现伙伴,同时也是一个数据海绵。它与客户合作,在预期用户可能会如何做同样事情的情况下,先发制人地破坏或滥用他们的应用,这种做法称为“红队”。(这个过程帮助它建立了阻止滥发垃圾邮件的护栏。)但是安全的保障很复杂:让 AI 有能力描述暴力犯罪可能不适合用于小学课程,但对法律诉讼来说却是必要的。为了保持 GPT 的灵活性,OpenAI 迄今为止更倾向于用有时候会比较严格的过滤器来控制用户看到的内容,而不是对系统底层的大脑进行修修补补。
在谈到基础模型的变化时,OpenAI 的策略研究员 Sandhini Agarwal 表示:“不管你往里面加入什么东西,它都是为所有用户而添加的。你确实得考虑并决定在那个层面上该添加什么。”
反过来,客户数据让 OpenAI 在训练模型方面具有优势。(企业客户可以选择退出数据共享,但这可能会降低其应用的性能。)就微软而言,它会与 OpenAI 共享用户洞察——比方说,通过 A/B 测试获取的信息——但不一定就是数据。微软对 OpenAI 的投资也许已经达数十亿美元,并以极低的折扣向这家新贵提供了自家的云计算平台,但它不会将数据完全交给 OpenAI。随着时间的推移,如果 OpenAI 除了推出 API 外仍继续发布面向消费者的产品的话,那么其他合作伙伴可能会有类似的想法,并会寻找方法来控制数据,以确保他们自己的商业利益。
当我问及 OpenAI 的下一个大型语言模型 GPT-4 时,Murati 轻描淡写地笑着说:“我认为少一些炒作会更好”。尽管 Dall-E 和 ChatGPT 已经引发了公众的想象力,但 GPT-4 的影响可能还会更大。在 GPT-4 发布之前,推特上已经开始流传各种模因,称该模型的参数将高达 100 万亿,或者说它将是类似计算器的处理中心——要比 GPT-3 高很多很多个数量级。人脑的突触大概就是 100 万亿个,这也许并非巧合。
自从 ChatGPT 问世以来,与 OpenAI 相关的讨论和炒作大部分来自教育界。从青少年在 TikTok 上发布自己用该聊天机器人作业作弊的视频,到 ChatGPT 在明尼苏达大学法学院课程的期末考试中拿到了及格分数,ChatGPT 对教育的影响几乎是一夜之间产生的。借助 GPT-4,Murati 看到一个“拓展大家机会”的机会。从她的角度来看,从愤怒的教师因为学生作弊而给他们打不及格,到快乐的教师写教案时得到升级版聊天机器人的帮助、并以全新的方式帮助学生学习,只经过了很短的时间。
Murati 说:“通过 ChatGPT ,你可以进行这种没有次数限制的互动,并让它以一种基于语境的方式介绍复杂的主题。这跟私人导师有点像。”在她看来,教育是一种双向沟通:与此同时,她希望 OpenAI 的系统能够向人类学习。她说:“你可以在没有接触现实世界的情况下在真空的环境下取得技术进步。但接下来的问题是,你真的是在朝着正确的方向前进吗?”
从商业角度来看,目前尚不清楚 GPT-4 规模的基础模型对 AI 领域的重要性。Hugging Face(一个类似 GitHub 的人工智能社区平台)联合创始人兼首席执行官 Clement Delangue 表示:“大多数公司使用的模型都相当小,比如参数大概是 1 亿 到 100 亿,因为他们做的东西专门针对他们的用例,[更小的规模]运行起来更便宜,也更快”。
另一方面,Microsoft Bing 与 ChatGPT 的集成为做大提供了理由,像时效性(recency)以及注释(annotation)这样依赖于规模的功能可以大大减少幻觉。具备最新知识并可以显示其输出背后逻辑的 AI 产品更可靠,也更容易纠正。这些基础模型能不能像搜索广告之于谷歌以及应用商店之于苹果那样,让 OpenAI 有利可图呢?情况还有待观察。
Murati 认为,不管行业如何发展,客户都会很看重多功能性。此外,AGI 不会从数以千计的定制型迷你模型里面脱颖而出。 她说:“就算实现 AGI 需要很长时间,我们将在此过程中开发的技术对人类解决非常困难的问题也会非常有用。”
她带着玳瑁色的眼镜,坐在舒适敞亮的办公室里,描绘着自己的团队努力寻找新发现时的表现。你很容易想给 Dall-E 这样一条提示来描绘这一情形:一支不起眼的探险队站在狂风呼啸的山顶上,此刻黎明曙光已经乍现,背包里装着笔记本电脑,哈德逊河学派,油画风格。
译者:boxi。
物流技术与应用 2024-11-16