德扑AI之父转投OpenAI！Science封面研究大牛，顶会拿到手软

作者：量子位发布时间：2023-07-07

OpenAI 谷歌 GPT-4 大语言模型人工智能

西风发自凹非寺

量子位 | 公众号 QbitAI

OpenAI被爆最新人事动向：

前FAIR（Meta）研究科学家Noam Brown加盟！

这位大佬来头可不小，研究曾登上《Science》封面。

不仅如此，他此前的研究成果可谓相当炸裂，可以用一句话来总结：

NeurIPS、AAAI等众多顶会论文奖拿到手软！

就是这样一位传奇人物，加入OpenAI后他对自己要做的事放出狠话：

如果成功，我们或许会看到 比GPT-4好1000倍的大语言模型。

所以，他之前拿下过什么成就，下一步又究竟要做什么？

德扑AI之父！拿奖拿到手软

Noam Brown与AI结缘，要从他的一篇博士论文说起。

三年前，Noam Brown从卡内基梅隆大学（CMU）以230页超硬核论文完成答辩，拿下计算机科学博士学位。

这篇论文，写的正是Noam Brown与其CMU导师Tuomas Sandholm一起创建的AI系统——称霸德州扑克赛场的赌神Libratus（冷扑大师）和Pluribus。

与围棋、国际象棋、跳棋等棋类游戏不同，这些游戏属于完美信息博弈，对战的双方，清楚每一时刻局面上的全部情况。

而相比之下，德州扑克存在大量的隐藏信息，包括：对手持有什么牌，对手是否在诈唬？

这也就决定了德扑的一个主要特征—— 不完美博弈。

为此，Noam Brown创建的Libratus将三个负责开发扑克策略、实时优化策略、比赛结束后审查牌局的AI系统结合了起来。

2017年年初，在宾夕法尼亚州匹兹堡的Rivers赌场上，4名顶尖人类职业玩家和Libratus在为期 20 天的赛程里面对战12万手，Libratus一路以碾压的态势豪取胜利，赢得176万美元(虚拟货币)。

和AlphaGo不同，在人机大战之前Libratus没有研究过人类如何打德州扑克，也没有和人类职业玩家有过交手。

但Libratus对战四位人类高手还是拿下了大比分优势：14.7个大盲注/百手(14.7bb/h)。

“一般领先5-10bb/h就肯定是赢了”，Noam Brown表示。

德扑AI不仅取得了这场比赛的胜利，Pluribus还在那年登顶了《Science》封面。

与此相关的研究，目前也已有近700的引用量。

当然，Libratus不是凭空而生，2015年4月它的前身Claudico正是在同一个赌场里，和四位人类顶级玩家交锋8万手后，累积输掉73.2万美元(当然也是虚拟货币)，败给了人类。

Noam Brown多年来在多步骤推理、自我对战和多智能体AI方面的研究，终于以Libratus的成功交上了一份满意的答卷，并在此之后，包揽众多大奖。

比赛胜利同年，他获得了 NeurIPS 2017最佳论文奖。2019年又继续与导师合作，成功拿下 AAAI 2019Honorable Mention奖。

之后Noam Brown的一系列成果获得了《Science》2019年年度突破的亚军、马文·明斯基奖，还被评为《MIT科技评论》35岁以下35位创新者之一。

此前获得过这个称号的，就包括谷歌创始人Larry Page、Sergey Brin，Facebook创始人Mark Zuckerberg，Paypal及Slide创始人Max Levchin，还有著名人工智能科学家吴恩达等一众大佬。

但是不管Libratus距离扑克之神还有多远，Brown坦言他不会再对这个德扑AI进行优化了。

博士毕业后，Noam Brown加入了FAIR（Meta），成为其研究科学家。

在Meta，他曾参与共同开发出第一个在战略游戏Diplomacy中达到人类水平的AI——CICERO。

一切看起来顺风顺水，Noam Brown为什么突然要转战OpenAI，又究竟要做什么？

加入OpenAI后：用游戏中的方法提升大模型

Noam Brown给出了他的答案：

多年来，一直在研究扑克和Diplomacy等游戏中的AI自我对战和推理。现在，我将研究如何将这些方法真正通用化。

所以，下一个大模型难道将借鉴游戏中的方法？

其实，Noam Brown的灵感来自于当年Libratus成功击败了顶级人类选手时，他所观察到的一种现象。

而这种现象与2016年AlphaGo击败李世石极为相似。

回想AlphaGo击败李世石，其中的关键在于：

AI在每一步棋之前都能够进行约 1分钟的“思考”。

而就这一点对于AlphaGoZero来说，相当于将预训练的规模扩大了约10万倍（搜索后评分约为5200 Elo，不经搜索评分约为3000 Elo）。

Noam Brown在扑克中观察到了类似的现象，将其运用于Libratus，才有了后面的成功击败顶级人类选手。

除此之外，AnthropicAI的技术工程师Andy L. Jones，在Hex棋盘游戏中详细研究了训练时间和测试时间的计算权衡，也发现了类似的模式。

这项研究展示了如何在MCTS（Monte Carlo Tree Search，蒙特卡洛树搜索）的训练计算和推理计算之间进行权衡，而增加10倍的MCTS步骤几乎等同于增加10倍的训练：

Noam Brown认为：

现在所有这些方法都是针对特定的游戏而设计的。如果我们能够发现一个通用版本，那么增益将是巨大的。

虽然推理可能会慢1000倍，并且成本更高，但是与为了一种新的抗癌药物或者为了证明黎曼猜想一样，我们会为推理付出怎样的代价呢？

接着他又补充道：

提升能力总是存在风险的，但如果这项研究取得成功，它在安全研究方面也将具有重要价值。想象一下，如果我们能够花费100万美元的推理成本来预测一个更具能力的未来模型，这将给我们一个此前所没有的警示。

对于Noam Brown加入OpenAI这事儿，评论区赶来的大多是来道喜的。

比如说PyTorch联合创始人Soumith Chintala：

前同事Meta AI研究总监、佐治亚理工学院计算机科学家Dhruv Batra也发来了“贺电”：

— 完—

「AIGC+垂直领域社群」

招募中！

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群，一起学习、探索、创新AIGC！

请备注您想加入的垂直领域「教育」或「电商零售」，加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

点这里 👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

浙江烯界热管理技术申请石墨烯热界面材料及其制备方法专利，实现高压缩回弹率和低界面热阻

金融界2024年12月25日消息，国家知识产权局信息显示，浙江烯界热管理技术有限公司申请一项名为“一种具有多级孔结构的石墨烯热界面材料及其制备方法”的专利，公开号CN119176550A，申请日期为2024年11月。

金融界 2024-12-25

重庆楚创取得一种安全性高的铝板冲孔设备专利，提高冲孔模组的使用寿命

金融界2024年12月25日消息，国家知识产权局信息显示，重庆楚创装饰材料有限公司取得一项名为“一种安全性高的铝板冲孔设备”的专利，授权公告号CN222198565U，申请日期为2024年5月。

金融界 2024-12-25

天奈科技申请一种高堆积密度单壁碳纳米管粉体及制备方法专利，提高了干燥状态下的碳纳米管的堆积密度和收率

金融界2024年12月25日消息，国家知识产权局信息显示，江苏天奈科技股份有限公司申请一项名为“一种高堆积密度单壁碳纳米管粉体及制备方法”的专利，公开号CN119176547A，申请日期为2023年6月。专利摘要显示，本申请涉及单壁碳纳米管技术领域，具体公开了一种高堆积密度单壁碳纳米管粉体及制备方法。

金融界 2024-12-25

江苏奥硕取得可降噪式钣金件冲孔设备专利，阻挡冲孔头产生的噪音传播

金融界2024年12月25日消息，国家知识产权局信息显示，江苏奥硕交通工程建设有限公司取得一项名为“一种可降噪式钣金件冲孔设备”的专利，授权公告号CN222198563U，申请日期为2024年4月。

金融界 2024-12-25

厦门华碳科技申请固液进料制备单壁碳纳米管专利，提升单壁碳纳米管的催化剂转化率

金融界2024年12月25日消息，国家知识产权局信息显示，厦门华碳科技有限公司申请一项名为“一种固液进料制备单壁碳纳米管的方法及其装置”的专利，公开号CN119176548A，申请日期为2024年9月。

金融界 2024-12-25

成都科华锦城取得圆锥滚子轴承加工用冲孔装置专利，提高效率

金融界2024年12月25日消息，国家知识产权局信息显示，成都科华锦城精密机械制造有限公司取得一项名为“一种圆锥滚子轴承加工用冲孔装置”的专利，授权公告号CN222198561U，申请日期为2024年6月。

金融界 2024-12-25

广东墨睿申请镍催化修补缺陷石墨烯导热膜专利，具有更高导热性能

金融界2024年12月25日消息，国家知识产权局信息显示，广东墨睿科技有限公司申请一项名为“一种镍催化修补缺陷的石墨烯导热膜、制备方法及应用”的专利，公开号CN119176551A，申请日期为2024年9月。专利摘要显示，本发明公开了一种镍催化修补缺陷的石墨烯导热膜制备方法及应用，属于石墨烯材料技术领域。

金融界 2024-12-25

德州奥恒工贸取得电气配电箱高速数控冲孔机专利，实现配电箱表面高速打孔处理

金融界2024年12月25日消息，国家知识产权局信息显示，德州奥恒工贸有限公司取得一项名为“电气配电箱高速数控冲孔机”的专利，授权公告号CN222198562U，申请日期为2023年10月。

金融界 2024-12-25

宁波恒浩广取得一种储能柜铜排的冲压件模具专利，防止冲压件在冲压过程中发生偏移

金融界2024年12月25日消息，国家知识产权局信息显示，宁波恒浩广新型电子材料有限公司取得一项名为“一种储能柜铜排的冲压件模具”的专利，授权公告号CN222198558U，申请日期为2024年5月。

金融界 2024-12-25

青田永禾阀门制造取得一种阀门铸件冲孔装置专利，提高冲孔精度

金融界2024年12月25日消息，国家知识产权局信息显示，青田永禾阀门制造有限公司取得一项名为“一种阀门铸件冲孔装置”的专利，授权公告号CN222198560U，申请日期为2024年5月。

金融界 2024-12-25

德扑AI之父转投OpenAI！Science封面研究大牛，顶会拿到手软

推荐体验

相关资讯