翁荔，掌管OpenAI安全的北大校友，刚刚现身B站线下演讲

作者：量子位发布时间：2024-11-01

衡宇发自深夜朝阳

量子位 | 公众号 QbitAI

OpenAI研究副总裁（安全）翁荔（Lilian Weng），现身国内！

还首次在国内大型活动场合公开发表AI主题演讲。

先简单介绍一下，翁荔是OpenAI华人科学家、ChatGPT的贡献者之一。

北大毕业后，翁荔在2018年加入OpenAI，后来在GPT-4项目中主要参与预训练、强化学习&对齐、模型安全等方面的工作。

最著名的Agent公式也由她提出，即：Agent=大模型+记忆+主动规划+工具使用。

在今晚的 2024Bilibili超级科学晚活动上，翁荔站在舞台上，以《AI安全与“培养”之道》为主题进行了演讲分享。

演讲并不十分深奥，主要以科普向为主，但深入浅出，介绍了AI安全相关种种问题。

她表示：

AI的安全不仅仅是研究者的责任， 它需要每一个人的参与。

（以下是翁荔演讲全文，在不改变其原意的基础上略有删减。）

翁荔演讲全文

今天先与大家探讨一个既深刻又有趣的话题， 「AI 安全」，以及 「我们如何像培养下一代一样，培育出聪明又安全的人工智能」。

ChatGPT横空出世以来，AI技术如同搭乘了高速列车，迅速渗透并影响着我们。

AI每天都在变化，需要我们用心引导、教育，确保是更好的服务于人类，同时确保安全。

一个既安全又智能的AI，无异于将为我们的生活带来诸多裨益。

试想，一个洞察你生活习惯的智能家居系统，能根据你的需求自动调节室内温度、光线；或是一个时刻关注你健康状况的AI助手，能为你提领提供量身定制的健康AI。

这不仅能显著提升我们的生活质量，还能开辟新的就业领域，提升工作效率。

然而，这 一切建立在AI安全的基础之上。

正如自动驾驶技术一样，它能极大地提升生活便利性，但是一旦出错，后果可能不堪设想。

随着AI应用日益智化与自主化，如何确保AI的行为符合人类价值观，真正做到以人为本，成为了AI 安全与对齐研究等核心议题。

人类在成长过程中会不断学习进步，但也会遇到成长的烦恼。

同样的，AI可能因为偏见而变得狭隘，也可能因为对抗性攻击而被恶意质疑，AI安全和对齐研究才能使AI成长过程更加顺利。

让我们以健康领域为例。

很多疾病研究的数据往往以男性的群体为主，这可能导致AI在处理女性的健康问题时风险评估不准确。

此外，数据本身也有可能存在偏见。

比如有研究表明，女性心脏病症状更容易被归结成焦虑等心理问题，而造成诊断遗漏。

因此，我们需要通过对AI安全和对齐研究来减少偏见。

AI 学习的基础是数据，数据是它的食物。

要想让AI变得聪明可靠，我们必须确保它营养均衡，也就是提供它多样、全面、正确的数据，帮助它能够正确地理解这个复杂的世界，并减少偏差。

在使用人类标志的数据时，我们可以依赖于群体智慧，也就是同一个数据点被多人标注。

有意思的是， 1907年的一篇自然科学杂志中的文章，作者追踪了一场年度展览会上的一个有趣的有奖竞猜。

展览会上，人们选出一头肥牛，让大家来猜测牛的重量，最接近真实数据的人将获得大额的奖金。

作者发现，「最中间值」往往是最接近真实数据。

这个数估计值也被称为the voice of the people。

在这篇近120年前的科学文章中，作者总结道：“我认为这个结果比人们预期的更能证明民主判断可信度。”

这也是最早提到群体智慧如何发生作用的科学文件。

而至于如何把高质量标注的数据给AI，则基于人类反馈的强化学习（RLHF）起到了关键作用。

在了解RLHF之前，我们快速了解一下什么是强化学习（RL）。

强化学习是一种机器学习方法，它主要通过奖惩机制来让模型学会完成任务，而不是依靠直接告诉模型如何去做这件任务。

想象一下，就好像你训练小狗，如果小狗做对了一个动作，比如坐下，你就给他一块骨头饼干；做错了就不给奖励。

这样，小狗就会因为想吃到更多的饼干而学会如何正确地坐下。

同理，AI也在这种奖惩机制中学习，通过不断的尝试并得到反馈，找到最佳的服务策略。

一个早期的研究表明，强化学习能利用少量人类反馈，快速有效地教会智能体做复杂的动作，学会如何后空翻。

同样的方法也可以用于训练大语言模型（LLM）。

当我们看到针对同一问题的不同AI回答时，我们可以告诉模型哪一个回答更好、更正确、更符合人类价值观，这样我们就像家长教育孩子一样，调节AI的学习过程。

此外，我们还可以使用模型本身作为AI输出质量的评分者。

比如在Antropic发表的《Constitutional AI》中，模型就通过对自己行为的我评价进行改进；或者在对齐强化学习中，我们可以制定非常详细的行为规则来告诉AI，何时拒绝用户的请求，如何表达同理心等等。

然后我们在强化学习的奖励机制中，非常精准地给予相应的评分奖励。

这个过程中，一个更加强大的AI有能力更精准地判断它是否遵从了人类的价值观和行为准则。

强化学习技术就像一把钥匙，帮助我们打开AI高质量学习和发展的大门。

在培养AI更懂我们的过程中，普通人也能发挥重要的作用。

在文档写作上，我们可以采用两个小技巧。

首先，设定详细的背景和角色思想，像导演为演员准备剧本一样让AI在丰富的情境中，捕捉我们的意图。

其次，精心挑选关键词，构建逻辑清新的文档结构，使文档既美观又实用。

在视频音乐制作领域，我们可以通过使用专业术语来引导AI，比如黄金分割构图或和弦进行，将创意转换为现实。

同时，别忘了感情的投入，因为这是赋予作品灵魂关键词。

简而言之，通过细致的指导和情感的融入，我们可以帮助AI创作出既丰富又富有感染力的作品。

在《西游记》中，孙悟空有紧箍咒约束行为，我们应该给AI模型也戴上了紧箍咒，也就是教会 AI 安全基本准和道德标准，让其遵守行为规范，以人类利益为先，成为我们贴心的伙伴，而不是冰冷的机器。

让AI学习基本原则和道德准则，可以使模型在面对复杂问题时运用推理得出正确的结论。

比如在OpenAI最近发表的Open-o1-preview模型中，我们通过思维链（CoT）推理加强了模型的可靠性，使得模型可以更好地抵抗越狱攻击。

扩展性研究（scalable oversight）在AI对齐研究中也非常重要。

随着AI模型扩大，需要结合自动化工具和人类监督有效的行为，确保它朝着正确的方向发展。

在一组公开研究中，我们用监督学习训练语言模型对网络文本摘要进行批评，比如提供“这个摘要非常准确”，或者“这个摘要遗落要点”。

相比对照组，我们发现有AI帮助的标注员比没有帮助的能多找出摘要中约50%的问题，而且多数参考了模型提供的内容。

总之，给AI设定标准并进行有效监督，可以提升它对人们的帮助。

AI的安全不仅仅是研究者的责任，它需要每一个人的参与。

以B站为例，这个充满活力的社区聚集了众多AI爱好者、创作者，我们在这里分享便捷、讨论问题，甚至监督AI的表现，共同影响着 AI 的成长。

我们每个人都应该成为AI的大家长。

AI 技术是一把双刃剑，它带来的便利和挑战并行，我们的参与至关重要。

让我们携手培养出一个既聪明又负责的AI伙伴。

感谢大家的聆听，希望今天的分享激发大家对AI安全的热情兴趣，也感谢B站直播这个平台。

让我们共同为AI的未来贡献力量，谢谢。

OpenAI备受争议的安全之路

然而，OpenAI在安全这个方向的前进，却一直备受争议。

上周，一则“OpenAI解散AGI筹备团队”的消息传遍全球。

源头是AGI Readiness团队负责人Miles Brundage宣布离职。

他表示，已在OpenAI完成所有工作，在外部工作将产生更大的影响。

未来他计划在OpenAI之外继续从事该领域研究工作，并希望减少偏见。

这不是OpenAI安全方面离开的唯一一个重要人物。

今年上半年，OpenAI联合创始人、首席科学家Ilya Sutskever离职，他带领的“超级对齐团队”随即解散。

该团队成立于2023年7月，OpenAI给了它一个使命：

用20%的算力，在未来4年内解决控制超级智能AI的核心技术挑战。

Ilya是这么解释自己离开OpenAI的原因的：

制造比人类更聪明的机器本身就是一项危险的事业。

OpenAI代表全人类肩负着巨大的责任。

但在过去几年里，安全文化和流程已经让位于闪亮的产品。

毅然离开的还有“超级对齐”团队联合负责人、安全主管Jan Leike——他最终选择跳槽到OpenAI最强竞对、Claude背后团队Anthropic，继续超级对齐工作。

离职后，Leike对外爆料，最近几年OpenAI已经不惜内部文化，把“吸引眼球的产品”放在安全准则之前。

现在，翁荔无疑是是最前沿AI实验室的安全总负责人了。

OpenAI的安全之路，又将走向何方？

— 完—

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月 MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里 👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

近期资讯

华为技术申请一种通信方法及装置专利，用于减少因接收端设备引入滤波处理而导致感知性能损失

金融界2024年11月4日消息，国家知识产权局信息显示，华为技术有限公司申请一项名为“一种通信方法及装置”的专利，公开号CN118890707A，申请日期为2023年4月。专利摘要显示，本申请实施例涉及通信技术领域，提供一种通信方法及装置，用于减少因接收端设备引入滤波处理而导致感知性能损失的问题。

金融界 8小时前

杭州新资源电子申请基于车机蓝牙的音频连接方法专利，解决蓝牙从设备快速连接问题

金融界2024年11月4日消息，国家知识产权局信息显示，杭州新资源电子有限公司申请一项名为“一种基于车机蓝牙的音频连接方法”的专利，公开号CN118890715A，申请日期为2024年9月。专利摘要显示，本发明涉及音频连接技术领域，具体涉及一种基于车机蓝牙的音频连接方法。

金融界 8小时前

万普拉斯申请无线耳机通信专利，提升用户使用无线耳机的灵活性

金融界2024年11月4日消息，国家知识产权局信息显示，深圳市万普拉斯科技有限公司申请一项名为“无线耳机通信方法、装置、无线耳机、介质和程序产品”的专利，公开号CN118890717A，申请日期为2024年8月。专利摘要显示，本申请涉及一种无线耳机通信方法、装置、无线耳机、介质和程序产品。

金融界 8小时前

陕西保利华英包装取得码垛机精准定位装置专利，方便码垛机进一步向上堆放物品

金融界2024年11月4日消息，国家知识产权局信息显示，陕西保利华英包装有限公司取得一项名为“一种码垛机的精准定位装置”的专利，授权公告号CN221939533U，申请日期为2024年1月。

金融界 8小时前

华为申请管理QoS的方法等专利，可合理管理远程终端到网络侧的QoS

金融界2024年11月4日消息，国家知识产权局信息显示，华为技术有限公司申请一项名为“管理QoS的方法、中继终端、PCF网元、SMF网元及远程终端”的专利，公开号CN118890721A，申请日期为2019年12月。专利摘要显示，本申请实施例公开了一种管理QoS的方法、中继终端、PCF网元、SMF网元及远程终端。

金融界 8小时前

荣耀终端申请一种通信方法和通信装置专利，避免由于可忽略的协议校验失败项导致通话中断

金融界2024年11月4日消息，国家知识产权局信息显示，荣耀终端有限公司申请一项名为“一种通信方法和通信装置”的专利，公开号CN118890719A，申请日期为2023年4月。

金融界 8小时前

长投五行固废取得防卡阻的铝灰下料阀专利，避免大颗粒物卡死

金融界2024年11月4日消息，国家知识产权局信息显示，长投五行固废处置（黄石）有限责任公司取得一项名为“一种防卡阻的铝灰下料阀”的专利，授权公告号CN221939528U，申请日期为2024年4月。

金融界 8小时前

浙江京鲸科技取得种码垛机器人抓手专利，方便自动抓取不同型号箱体

金融界2024年11月4日消息，国家知识产权局信息显示，浙江京鲸科技有限公司取得一项名为“种码垛机器人抓手”的专利，授权公告号CN221939539U，申请日期为2023年12月。

金融界 8小时前

路准（苏州）精密科技取得自动叠料装置专利，节省时间和劳动力并提高工作效率

金融界2024年11月4日消息，国家知识产权局信息显示，路准（苏州）精密科技有限公司取得一项名为“一种自动叠料装置”的专利，授权公告号CN221939532U，申请日期为2023年11月。

金融界 8小时前

中国铁道科学研究院集团申请高铁ATP列控系统车载双模无线通信系统及控制方法专利，实现ATP上位机的高效数据传输

金融界2024年11月4日消息，国家知识产权局信息显示，中国铁道科学研究院集团有限公司申请一项名为“一种高铁ATP列控系统的车载双模无线通信系统及控制方法”的专利，公开号CN118890718A，申请日期为2024年10月。

金融界 8小时前

翁荔，掌管OpenAI安全的北大校友，刚刚现身B站线下演讲

推荐体验

相关资讯

解密Sora 13人团队：北大校友在内3名华人，应届博士带着21岁天才少年

OpenAI翁荔提出大模型「外在幻觉」：万字详解抵抗办法、产幻原因…

翁翕：成为思想的主人@北大光华2023开学典礼

GPT-4o背后的神仙团队：项目负责人只有本科学历，北大/清华/交大/中科大校友在列

OpenAI翁荔提出大模型「外在幻觉」：万字blog详解抵抗办法、产幻原因和检测方式

近期资讯

华为技术申请一种通信方法及装置专利，用于减少因接收端设备引入滤波处理而导致感知性能损失

杭州新资源电子申请基于车机蓝牙的音频连接方法专利，解决蓝牙从设备快速连接问题

万普拉斯申请无线耳机通信专利，提升用户使用无线耳机的灵活性

陕西保利华英包装取得码垛机精准定位装置专利，方便码垛机进一步向上堆放物品

华为申请管理QoS的方法等专利，可合理管理远程终端到网络侧的QoS

荣耀终端申请一种通信方法和通信装置专利，避免由于可忽略的协议校验失败项导致通话中断

长投五行固废取得防卡阻的铝灰下料阀专利，避免大颗粒物卡死

浙江京鲸科技取得种码垛机器人抓手专利，方便自动抓取不同型号箱体

路准（苏州）精密科技取得自动叠料装置专利，节省时间和劳动力并提高工作效率

中国铁道科学研究院集团申请高铁ATP列控系统车载双模无线通信系统及控制方法专利，实现ATP上位机的高效数据传输

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响