OpenAI 安全系统负责人长文梳理：大模型的对抗攻击与防御

作者：机器之心发布时间：2023-11-20

随着 ChatGPT 的发布，大型语言模型应用正在加速大范围铺开。OpenAI 的安全系统团队已经投入了大量资源，研究如何在对齐过程中为模型构建默认的安全行为。但是，对抗攻击或 prompt 越狱依然...【查看原文】

相关资讯

OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

选自Lil’Log作者：LilianWeng机器之心编译编辑：PandaLLM能力强大，倘若别有用心之人用其来干坏事，可能会造成难以预料的严重后果。虽然大多数商用和开源LLM都存在一定的内置安全机制，但却并不一定能防御形式各异的对抗攻击。OpenAI的安全系统团队已经投入了大量资源，研究如何在对齐过程中为模型构建默认的安全行为。

OpenAI

机器之心Pro 2023-11-20

OpenAI 信任与安全负责人 Dave Willner 宣布离职

IT之家 7 月 22 日消息，OpenAI 信任与安全负责人戴夫・威尔纳（Dave Willner）昨天在其 LinkedIn 发布动态，宣布已经离开 OpenAI 公司。威尔纳在 OpenAI

OpenAI

IT之家 2023-07-22

机器学习中的对抗性攻击：威胁与防御

“机器学习中的对抗性攻击”是一个备受关注的话题，因为它可能会对人工智能系统的安全性和可靠性造成威胁。本文将介绍机器学习中的对抗性攻击及其威胁，并探讨一些防御方法。

人工智能机器学习

xuyuelin88117 2023-03-21

OpenAI前安全负责人雷克将跳槽Anthropic

简·雷克（Jan Leike）是OpenAI安全团队的前联合负责人，专注于长期风险。雷克周二在社交媒体宣布，他将加入OpenAI的竞争对手Anthropic。来源：金融界AI电报

OpenAI 金融

金融界 2024-05-29

前OpenAI安全负责人加入竞争对手Anthropic

鞭牛士报道，5月29日消息，据外电报道，刚刚从OpenAI安全团队（专注于长期风险）离职的前联席主管JanLeike宣布将加入OpenAI人工智能竞争对手Anthropic。5月14日，OpenAI联合创始人…

OpenAI 人工智能

鞭牛士 2024-05-29

近期资讯

这家正冲击IPO的企业被责令整改！

化妆品生产领域成监管重点，正处严打周期中！

聚美丽 2024-12-28

UI自动化测试之：自动获取元素定位技术哪家强

前言在Web自动化测试中，自动获取元素的定位信息是非常关键的一步。合理的元素定位不仅可以提升测试执行的稳定性，还能减少维护成本。实际测试过程中，元素定位往往成为自动化测试项目中性能瓶颈之一，尤其当页

loooooongger 2024-12-27

Vue 数据驱动页面，让我们专注于业务开发

引言在现代前端开发中，数据驱动界面（Data-Driven Interface，简称DDI）已经成为一种标准模式。它允许开发者通过简单的声明性代码来创建复杂的用户界面（UI），并且随着底层数据的变化

blzlh 2024-12-28

一起来看一下通过类模板将二叉搜索树封装起来！

通过类模板将二叉搜索树封装起来 1、前言 2、C中的二叉搜索树 3、封装过程 4、封装后的代码 5、总结

ARcueid 2024-12-27

这五年，我学这么多东西再没有高学历背景下，有没有意义

被辞退以现在的环境制定要面临降薪，或者换个没有福利待遇那么好的单位。这五年我得到的太多了，可能有人说如果你在别的单位应该也会得到你应得的，这个说法确实没毛病。我只不过是一个打工仔，平台不过是带我见识

三原 2024-12-28

徐小夕 2024-12-28

gozero项目日志Prometheus的配置与实战

在 GoZero 项目中，集成 Prometheus 进行日志收集和监控是一个常见的需求。Prometheus 主要用于收集度量（metrics）数据，而非直接收集日志数据。

代码总动员 2024-12-28

Solid.js 最新官方文档翻译（12）—— 派生信号与 Memos

Solid.js，一个比 React 更 react 的框架。每一个使用 React 的同学，你可以不使用，但不应该不了解。我同时搭建了 Solid.js 最新的中文文档站点：https://soli

冴羽 2024-12-28

OpenAI 安全系统负责人长文梳理：大模型的对抗攻击与防御

推荐体验

相关资讯

OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御

OpenAI 信任与安全负责人 Dave Willner 宣布离职

机器学习中的对抗性攻击：威胁与防御

OpenAI前安全负责人雷克将跳槽Anthropic

前OpenAI安全负责人加入竞争对手Anthropic

近期资讯

这家正冲击IPO的企业被责令整改！

UI自动化测试之：自动获取元素定位技术哪家强

Vue 数据驱动页面，让我们专注于业务开发

一起来看一下通过类模板将二叉搜索树封装起来！

这五年，我学这么多东西再没有高学历背景下，有没有意义

【保姆教程】手把手教你撸早期alpha项目edgeX空投积分

gozero项目日志收集与配置实战

Flowmix/Docx 多模态文档编辑器V1.7.0，12月全面升级！

gozero项目日志Prometheus的配置与实战

Solid.js 最新官方文档翻译（12）—— 派生信号与 Memos

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响