OpenAI 博客发文介绍如何确保 AI 安全

作者：灵亦rEd发布时间：2023-04-15

以下为中文为 ChatGPT 翻译：

OpenAI致力于确保强大的人工智能技术的安全和广泛益处。我们知道我们的AI工具为当今的人们提供了许多好处。全球范围内的用户告诉我们，ChatGPT有助于提高他们的生产力，增强他们的创造力，并提供量身定制的学习体验。我们也意识到，像任何技术一样，这些工具存在着真正的风险，因此我们努力确保在我们的系统中各个层面都内置了安全性。

构建更安全的人工智能系统

在发布任何新系统之前，我们进行了严格的测试，征求了外部专家的反馈意见，通过诸如强化学习与人类反馈等技术来改进模型的行为，并建立了广泛的安全监控系统。

例如，在我们的最新模型GPT-4完成训练后，我们花费了超过6个月的时间在整个组织内部进行工作，以使其更加安全和一致，然后再将其公开发布。

我们认为，强大的人工智能系统应该接受严格的安全评估。需要监管来确保采用此类实践，并且我们积极与各国政府合作，探讨最佳的监管形式。

从实际应用中学习，改进安全保障措施

我们努力在部署之前预防可预见的风险，但在实验室中我们所能学习到的有限。尽管进行了广泛的研究和测试，我们无法预测人们将如何使用我们的技术，也无法预测人们将如何滥用它。这就是为什么我们认为从实际应用中学习是创建和逐步发布越来越安全的人工智能系统的关键组成部分。

我们谨慎而逐步地向越来越广泛的人群发布带有重大安全保障措施的新的人工智能系统，并根据我们所学到的教训不断进行改进。

我们通过自己的服务和API提供我们最有能力的模型，以便开发人员可以将这项技术直接集成到他们的应用程序中。这使我们能够监控和采取行动来防止滥用，并持续构建缓解措施，以应对人们滥用我们系统的真实方式，而不仅仅是对滥用可能的理论猜测。

实际应用还促使我们制定越来越微妙的政策，针对代表对人们构成真正风险的行为，同时仍然允许我们的技术进行许多有益的用途。

关键是，我们认为社会必须有时间来更新和调整越来越强大的人工智能，并且受到这项技术影响的每个人都应该对AI的进一步发展有很大的发言权。迭代式部署帮助我们更有效地将各利益相关者引入关于采用AI技术的对话中，比起如果他们没有亲身经历这些工具要更有效。

保护儿童

我们安全工作的一个关键重点是保护儿童。我们要求使用我们的AI工具的人必须年满18岁或在父母批准下年满13岁，并正在研究验证选项。

我们不允许使用我们的技术生成令人憎恨、骚扰、暴力或成人内容等其他类别的内容。我们的最新模型GPT-4相对于GPT-3.5，拒绝生成不允许的内容的几率降低了82％，我们建立了一个强大的系统来监控滥用。 GPT-4现在可以在ChatGPT Plus订户中使用，我们希望随着时间的推移，可以让更多的人使用。

我们已经付出了大量努力，以最大程度地减少我们的模型生成有害儿童内容的可能性。例如，当用户尝试将儿童色情材料上传到我们的图像工具时，我们会阻止并向国家失踪和被剥削儿童中心报告。

除了我们默认的安全保障措施外，我们还与开发者合作，例如非营利组织可汗学院（Khan Academy），他们已经构建了一款基于AI的助手，既可以作为学生的虚拟导师，也可以作为老师的课堂助手，为他们的使用情况量身定制了安全减轻措施。我们还在开发功能，允许开发者设置更严格的模型输出标准，以更好地支持需要此类功能的开发者和用户。

尊重隐私

我们的大型语言模型是基于包括公开可用的、获得授权的内容和由人工审核员生成的内容的广泛语料库进行训练的。我们不会使用数据销售我们的服务、广告或构建人们的个人资料——我们使用数据使我们的模型对人们更有帮助。例如，ChatGPT会通过进一步对人们与它的对话进行训练来提高自己的表现。

虽然我们的一些训练数据包含公开互联网上的个人信息，但我们希望我们的模型了解的是世界，而不是个人隐私。因此，我们努力在训练数据集中删除个人信息，微调模型以拒绝请求私人信息的要求，并响应个人的请求从我们的系统中删除其个人信息。这些步骤最大程度地减少了我们的模型可能会生成包含私人个人信息的回复的可能性。

提高事实准确性

今天的大型语言模型基于它们以前看到的模式来预测下一个单词序列，包括用户提供的文本输入。在某些情况下，下一个最可能的单词可能不是事实准确的。

提高事实准确性是OpenAI和许多其他AI开发者的一个重点，并且我们正在取得进展。通过利用用户反馈标记为不正确的ChatGPT输出作为主要数据来源，我们提高了GPT-4的事实准确性。GPT-4比GPT-3.5更有可能产生事实内容，提高了40％。

当用户注册使用该工具时，我们努力尽可能透明，指出ChatGPT可能不总是准确的。但是，我们认识到还有更多的工作要做，以进一步减少幻觉的可能性，并教育公众关于这些AI工具的当前限制。

持续的研究和参与

我们认为，解决人工智能（AI）安全问题的实际方法是投入更多时间和资源研究有效的缓解和对齐技术，并在实际滥用案例中对它们进行测试。

重要的是，我们还认为，改善AI安全性和功能应该同时进行。我们迄今为止最好的安全工作来自于与我们最强大的模型合作，因为它们更擅长遵循用户的指示并更容易进行引导。

我们将越来越谨慎地创建和部署更强大的模型，并将在我们的AI系统发展中继续增强安全预防措施。

尽管我们等待了超过6个月才部署GPT-4以更好地了解它的功能、优势和风险，但有时需要更长时间来改进AI系统的安全性。因此，政策制定者和AI提供商将需要确保在全球范围内有效地治理AI的开发和部署，以确保没有人为了超前而走捷径。这是一个具有挑战性的任务，需要技术和机构创新，但这也是我们渴望为之做出贡献的任务。

解决安全问题还需要广泛的辩论、实验和参与，包括对AI系统行为界限的讨论。我们一直在促进利益相关者之间的合作和公开对话，以创建一个安全的AI生态系统。

英文原文：https://openai.com/blog/our-approach-to-ai-safety

OpenAI 博客发文介绍如何确保 AI 安全

构建更安全的人工智能系统

从实际应用中学习，改进安全保障措施

保护儿童

尊重隐私

提高事实准确性

持续的研究和参与

推荐体验

相关资讯

OpenAI发文介绍保障AI安全的方法

意大利、德国等出手“围堵”ChatGPT，OpenAI发文称将确保AI安全

AIGC时代，如何确保大模型价值观对齐和数据安全？

OpenAI回应各方质疑：我们有六个办法确保AI安全

举报人：OpenAI在确保产品安全之前就匆忙通过安全测试

近期资讯

可以抛弃搜索引擎了 2024年微信最实用的三大AI功能

李想：马斯克在中国高速深夜开过车他也会保留激光雷达！

山姆新品价格跳水109元降到19.9元网友：难吃一股馊饭味

理想智驾负责人：李想对我发过1次火智驾做不到头部就走

激光雷达和纯视觉之争结束了！李想：在中国必须用激光雷达

蒂法和爱丽丝3D圣诞图：浓浓的爱意克劳德全身绿

【HarmonyOS】关于鸿蒙原生多环境的配置和管理

11月各省汽车销冠品牌盘点：比亚迪封神独占27省销冠

帧率提升200%！AMD RX 7900 XT挑战5款FSR 3.0大作

鸿蒙原生开发手记：04-一个完整元服务案例

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响