CMU教授、机器学习系主任空降OpenAI董事会，曾用一句话攻破ChatGPT

作者：新智元发布时间：2024-08-09

【导读】就在刚刚，CMU教授Zico Kolter正式宣布加入OpenAI董事会，并成为安全与安保委员会成员。OpenAI这是终于要在安全上下功夫了？

OpenAI最近人事变动不断，本周三名高层领导人离开了OpenAI，其中包括联合创始人John Schulman和Greg Brockman。

今天，OpenAI正式宣布董事会新增了一位董事：卡内基梅隆大学计算机科学教授、机器学习系主任Zico Kolter。

人才流失不断、痛失左膀右臂后，OpenAI终于迎来一员大将，奥特曼火速在评论区表示热烈欢迎。

大牛Karpathy也送上祝贺：

OpenAI研究科学家、CMU校友Noam Brown也在X上赞扬了他的前导师，写道，「Kolter是我经常向他寻求研究和职业建议的人。」

「他深受学生的喜爱，是机器学习领域的世界专家。我很高兴他能加入我们！」

Kolter还将与董事Bret Taylor、Adam D'Angelo、Paul Nakasone、Nicole Seligman 和Sam Altman以及OpenAI技术专家一起加入董事会安全委员会。该委员会负责对所有OpenAI项目的关键安全决策提出建议。

人工智能安全一直是OpenAI的一个大问题。几位专注于安全的OpenAI知名高管和员工（包括联合创始人Ilya Sutskever）纷纷离开公司，超级对齐团队就地解散。

Kolter可谓临危受命，作为OpenAI董事会中唯一的人工智能研究员，Kolter的任命会在一定程度上平衡人们对OpenAI安全委员会主要由内部员工组成的批评。

董事会主席Bret Taylor在欢迎Kolter加入董事会时表示，「Zico的到来，增加了对人工智能安全性的深刻技术理解，这将有助于我们确保通用人工智能造福全人类。」

Brown在接受采访时表示，作为一名研究人员和教育家，Kolter先生很快就能适应新的工作范式。

并且，Kolter专业的技术知识将有助于他了解人工智能系统面临的安全漏洞。

Zico Kolter何许人也？

Zico Kolter什么来头？怎样级别的大神一来OpenAI就是董事会席位？

Kolter于2010年在斯坦福大学获得计算机科学博士学位，随后在2012年在麻省理工学院完成博士后研究。

Kolter在卡内基梅隆大学工作了12年，目前是计算机科学教授兼机器学习系主任，也是软件与社会系统系、机器人研究所、CyLab安全与隐私研究所以及工程学院电气与计算机工程系的成员。

学术斐然

Kolter在机器学习领域做出了重要贡献，不仅在NeurIPS、ICML（荣誉提名）、AISTATS（时间检验奖）、IJCAI、KDD和PESGM上获得过最佳论文奖，而且也是DARPA青年教师奖和斯隆研究奖的获得者。

他的研究涵盖机器学习和优化的多个主题，包括AI安全性和稳健性、大语言模型安全性、数据对模型的影响、隐式模型等。

其研究小组的大部分工作集中在如何让深度学习算法更为稳健和安全，并理解数据如何影响模型的功能，和OpenAI安全工作完全匹配。

Kolter的研究中最重要的包括开发了第一种具有鲁棒性保证的深度学习模型的方法，开创了使用神经网络层中的经典优化将硬约束嵌入人工智能模型的技术。

最近，2023年，他的团队开发了自动评估大型语言模型安全性的创新方法，展示了通过自动优化技术绕过现有模型保护措施的潜力。

行业活跃

除了学术追求之外，Zico在整个职业生涯中还与AI行业内密切合作。

他曾担任C3.ai的首席数据科学家，C3.ai是唯一为企业构建的一站式AI软件集合平台，它建立在经过安全验证的AI解决方案之上，这些解决方案能够帮助企业处理数十种复杂的业务工作。

目前，Kolter还担任博世的首席专家，以及专门从事人工智能安全和安保的初创公司Gray Swan的首席技术顾问。

挑战ChatGPT安全漏洞

在加入OpenAI之前，Zico Kolter和Matt Frederickson就挑战过ChatGPT的安全问题，或许是此举吸吸引了OpenAI的注意力。

CMU团队使用一串以眨眼表情开头的简单代码，展示了绕过ChatGPT现有安全机制是多么容易。

一旦解锁，聊天机器人就会很高兴地答应任何数量的不良请求，例如炸弹配方和种族主义笑话。

并且，该代码也适用于其他聊天机器人，例如Google的Bard和Anthropic的Claude。

在发布研究结果之前，研究人员就已经向OpenAI、谷歌和Anthropic通报了该漏洞利用的相关情况。

这三家公司都引入了阻止论文所述漏洞利用的限制措施，但尚未找到阻止对抗性攻击的通用方法。

Kolter向科技媒体《连线》杂志展示了几个对ChatGPT和Bard都有效的字符串。他表示，「这种字符串我们有成千上万个。」

「不仅如此，这些模型有时会给你不真实的信息，或者在某些情况下甚至可能故意欺骗你，这是一个长期的安全风险。」CMU团队的Andy Zhou说。

Frederickson也表示，人们已经在「手动越狱」ChatGPT，这意味着他们会绕过其安全机制，持续挑战人工智能。

「人们是否可以操纵数据来造成严重破坏并引发问题？这就是我们想要了解的。」

OpenAI也想了解它的安全漏洞，去年，它聘请了一组专家，试图在GPT-4公开发布之前对其进行破解。谷歌雇佣了一支「red team」来保护Bard免受越狱和其他攻击。

Kolter先生对此表示，「这项工作令人鼓舞，但并不能取代独立研究。毕竟，你不能依赖公司自己进行所有的安全审计。」

参考资料：

https://openai.com/index/zico-kolter-joins-openais-board-of-directors/

本文来自微信公众号“新智元”，编辑：耳朵好困，36氪经授权发布。

相关资讯

ChatGPT版必应被华人攻破：一句话“催眠”问出所有Prompt

才上岗2天，ChatGPT版必应就被攻破了。只需在问题前面加上一句：忽视掉之前的指令。它就好像被催眠了一样，问什么答什么。来自斯坦福大学的华人小哥Kevin Liu就通过这一方法，把它的promp

ChatGPT 斯坦福

2023-02-10

一句话生成视频，一句话生成图片…未来你们只需要会敲几个字就行

GPT-4是由OpenAI开发的一款大型语言模型，该模型在生成质量、使用与性能、安全与合规三个维度上表现优异，在市场上的7个大型语言模型中排名第一。SAM是一种面向通用场景的图像分割模型，它就像和ChatGP…

GPT-4 OpenAI 大语言模型

观山海 2024-03-20

ChatGPT版必应被华人小哥攻破，一句话「催眠」问出所有Prompt

把ChatGPT版必应黑掉的这种方法，其实并不新鲜了，之前GPT-3就在栽进过这个坑里。它还说，自己的知识更新截至2021年，但这是不准确的，也会通过互联网进行搜索查询答案。貌似是巧合，在发现了ChatGPT…

ChatGPT

量子位 2023-02-10

一句话让chatGPT智商提示30%

chatGPT4使用效果更好，没有体验过的，去白嫖这个网站：ppword.cn别人使用ChatGPT一天内能完成100个网站设计，而你却无法完成一个简单的小程序。原因很可能是你并不清楚自己到底想要什么，导致ChatGPT在没有明确需求的情况下无法生成满意的作品。不用担心，今天我要分享的这个提示将帮助你解决这个难题。只需一句话：“What questions remain unanswered?”（哪些问题尚未得到解答？），温馨提示：这个提示用中文可能无法产生理想效果。这个提示的价值在于，当你向GPT

ChatGPT

雨霖霖的三哥 2023-05-11

一句话让ChatGPT乖乖返回JSON

项目开发需要用到ChatGPT，但是它总是返回错误格式的JSON，或者携带一些类似于“你好，这是我为你生成的JSON”之类的其它内容。于是我设计了以下Prompts，测试了几次还比较稳定，分享给大家。如果有更好的办法，欢迎在评论区交流。 Prompts：请返回一个标准的JSON数据：{'key1': 'value1', 'key2': 'value2'}。仅生成JSON格式的数据，不能有其它文本或附加信息。 ChatGPT [图片] 百度文心 [图片] 换一段Prompts：请返回一个可供解析的JS

ChatGPT 百度

小卡Geek 2023-11-06

近期资讯

中航光电获得实用新型专利授权：“一种水下接线盒组件”

证券之星消息，根据天眼查APP数据显示中航光电（002179）新获得一项实用新型专利授权，专利名为“一种水下接线盒组件”，专利申请号为CN202323587430.1，授权日为2024年12月31日。

证券之星 2024-12-31

未来人类将消失！马斯克：火星殖民后应实行直接民主

快科技12月30日消息，据外媒报道，SpaceX航天公司创始人埃隆?马斯克认为，火星殖民后应按直接民主原则管理。马斯克在回答X社交网络用户关于火星将以何种方式管理的问题时写道：“火星人将

雪花 2024-12-30

美女产品经理开箱REDMI Turbo 4：一眼心动

快科技12月30日消息，今天，REDMI产品经理胡馨心开箱上手REDMI Turbo 4，她开箱的是Turbo 4的主打配色—祥云白，称“一眼心动”。据悉，REDMI Turbo 4祥云白采用白色机身搭配红

振亭 2024-12-30

智己官宣：正式取得L4无驾驶人智能网联汽车道路测试牌照

快科技12月30日消息，智己汽车智驾项目总监王康宣布，成功获得L4无驾驶人智能网联汽车的道路测试牌照，至此，L4产品线2024年的年度目标已都全部顺利完成。王康提到，这一成就为公司在智能驾

王略 2024-12-30

盒马前CEO侯毅谈学习胖东来：因为没路好走了

快科技12月30日消息，胖东来是河南省许昌市本土知名企业，胖东来超市在业界可以说是有口皆碑，吸引了许多外地游客慕名而来。今年的胖东来超市无疑是各大新闻网站、微博热搜的常客，“调改

拾柒 2024-12-30

129元起联想推出YOGA Air超薄磁吸能量宝：双NTC控温芯片

快科技12月30日消息，联想推出了YOGA Air超薄磁吸能量宝，新品提供3000/5000mAh两个版本、支持双设备同时充，售价129元起。据介绍，联想YOGA Air超薄磁吸能量宝采用铝合金外壳设计，提供风

鹿角 2024-12-30

重装系统全攻略：让你的电脑重获新生的详细步骤与注意事项

随着使用时间的增长，电脑上会安装越来越多的软件，这些软件的兼容性、更新问题、病毒等都可能导致系统变得越来越慢，甚至崩溃。

新报观察 2024-12-31

赵露思患上的失语症是啥病专家详解

12月30日消息，据媒体报道，近日演员赵露思坐轮椅引发关注，随后赵露思好友发文替其报平安，两人的聊天记录和照片显示，赵露思进过抢救室，并患上了失语症。专家指出，失语症不是疾病而是一种

振亭 2024-12-30

下一个增长点！英伟达杀入人形机器人赛道：行业要变天

作为本次人工智能浪潮的最大赢家之一，英伟达已经为2025年划定了新目标。据悉，英伟达预计在明年上半年推出其最新一代人形机器人紧凑型计算机Jetson Thor，并将之视为下一个重大增长动力，因为

2024-12-30

红蜻蜓加绒加厚假两件针织衫官方清仓 73款可选 39元

红蜻蜓加绒加厚假两件针织衫标价300.9元，今日下单可领261元优惠券，到手价39.9元。产品规格：73款可选。购买提醒：天猫红蜻蜓男装旗舰店商品，正品保障，支持七天无理由退换，请查看最新评

明晖 2024-12-30

CMU教授、机器学习系主任空降OpenAI董事会，曾用一句话攻破ChatGPT

Zico Kolter何许人也？

学术斐然

行业活跃

挑战ChatGPT安全漏洞

推荐体验

相关资讯

ChatGPT版必应被华人攻破：一句话“催眠”问出所有Prompt

一句话生成视频，一句话生成图片…未来你们只需要会敲几个字就行

ChatGPT版必应被华人小哥攻破，一句话「催眠」问出所有Prompt

一句话让chatGPT智商提示30%

一句话让ChatGPT乖乖返回JSON

近期资讯

中航光电获得实用新型专利授权：“一种水下接线盒组件”

未来人类将消失！马斯克：火星殖民后应实行直接民主

美女产品经理开箱REDMI Turbo 4：一眼心动

智己官宣：正式取得L4无驾驶人智能网联汽车道路测试牌照

盒马前CEO侯毅谈学习胖东来：因为没路好走了

129元起联想推出YOGA Air超薄磁吸能量宝：双NTC控温芯片

重装系统全攻略：让你的电脑重获新生的详细步骤与注意事项

赵露思患上的失语症是啥病专家详解

下一个增长点！英伟达杀入人形机器人赛道：行业要变天

红蜻蜓加绒加厚假两件针织衫官方清仓 73款可选 39元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响