OpenAI发布灾备架构应对大模型风险，AI安全问题正在成为关注焦点

作者：观察者网发布时间：2023-12-19

OpenAI发布灾备架构应对大模型风险，AI安全问题正在成为关注焦点

（观察者网讯）当地时间12月18日，OpenAI在官网发布灾备架构测试版介绍文档，描述该架构应对流程以跟踪、评估、预测和防范日益强大的模型带来的灾难性风险。OpenAI规定了四个安全风险等级，并表示只有得分在“中”或以下的模型才能部署。

OpenAI灾备架构测试版文档图片来源：OpenAI

据路透社报道，由微软支持的OpenAI只会在确认没有网络和核等方面安全威胁的情况下才会部署其最新的技术。此外，该公司还正在创建一个咨询小组来审查AI安全报告，并将其审查结果发送给公司的高管和董事会。这样可以确保虽然AI运行的决策权在高管手中，但董事会可以推翻这些决策。

OpenAI灾备架构图片来源：OpenAI

该文档的提出被认为是OpenAI进一步加强AI应用安全监管的一个尝试。近期由于AI的快速发展，AI应用的安全性问题被广泛关注。

对于AI应用安全这一问题，长期以来有两派观点，即有效加速主义和AI对齐思想。

有效加速主义（Effective accelerationism，简称为“e/acc”）是一种21世纪基于科技发展而兴起的哲学思想。其支持者一般认为，由人工智能驱动的进步是一种伟大的社会平等器，应该被推动前进。因此，不惜一切代价，采用包括加速商业化在内的一切手段，推动技术进步才是唯一在道德上合理的行动方针。值得注意的是，一般认为OpenAI的现任CEO山姆·奥特曼（Sam Altman）是有效加速主义的支持者。

与有效加速主义对应的是AI对齐（AI alignment）思想，该派理论则更注重AI安全问题，强调人工智能系统的对齐问题，即如何确保未来超出人类智能的超级人工智能系统的行动目标与人类的目标一致。因为如果人工智能系统的目标与人类的目标不一致，可能会导致不可预见和潜在的危险后果。OpenAI中负责AI安全并参与罢黜CEO山姆·奥特曼的首席科学家伊利亚·苏茨克韦尔（Ilya Sutskever）等人，以及此前从OpenAI脱离并创立大语言模型Claude的达里奥·阿莫代（Dario Amodei）等人都是AI对齐思想的支持者。

据路透社、The Information等媒体报道，之前震惊世界的OpenAI“宫斗”事件就源自于有效加速主义和AI对齐思想的路线之争。

11月22日，路透社报道称OpenAI拥有一个尚未公布的新模型Q*。该模型能够解决某些数学问题，虽然现阶段其数学成绩仅达到小学生的水平，但在相关测试中取得的成绩让研究人员对Q*未来的成功非常乐观，并认为Q*在推理模型方面相较于之前的大模型有了巨大的进步。这可能意味着人类将快速实现完全超越人类本身智能的超级AI。

据悉，Q*的出现加剧了包括首席科学家伊利亚·苏茨克韦尔在内对于AI安全性的担忧，并最终促使董事会决定解雇支持有效加速主义的山姆·奥特曼。

值得注意的是，早在今年3月，包括前OpenAI投资者，著名人士马斯克等上千人曾签署联名信，公开信呼吁人类暂停开发比目前GPT-4模型更强大的人工智能，为时至少6个月。

近期除了OpenAI在官网发布灾备架构测试版外，由OpenAI首席科学家伊利亚牵头的，于今年7月建立地“超级对齐”团队，在本月15日发布了其成立以来的第一篇论文。在其最新的研究中，该团队提出了一个技术路线：使用GPT-2级别的AI对GPT-4进行监督并伴以一定的置信度损失，实现了对于GPT-4的微调。这样的GPT-4可以在NLP任务上恢复到接近GPT-3.5级别AI的性能。

该论文指出，通过上述方法可以实现“弱到强泛化”（Weak-to-Strong Generalization）训练，证实了我们可以通过使用更弱、更可控的模型来微调更强大的人工智能模型，使其达到与传统训练方法所训练出的AI更相近的性能。这为“AI对齐”的设想提供了一条实际可行的技术路径。

论文截图图片来源：OpenAI

该论文和灾备架构文档的发表同样也意味着，OpenAI正在试图研究如何监管潜在的全面超越人类智能的超级AI。

本文系观察者网独家稿件，未经授权，不得转载。

OpenAI发布灾备架构应对大模型风险，AI安全问题正在成为关注焦点

OpenAI发布灾备架构应对大模型风险，AI安全问题正在成为关注焦点

推荐体验

相关资讯

OpenAI发布灾备架构应对大模型风险：董事会有权推翻决策

三六零：探索大模型新场景关注安全问题

ChatGPT的数据安全问题引发关注

（经济观察）中外院士共谈AI大模型：应对大模型安全问题需设好“紧箍咒”

计算机行业-OpenAI公布模型Voice Engine-AI安全问题再受关注（附下载）

近期资讯

如何轻松找回忘记的ID密码及提升账号安全性的方法

广西华悦木业取得胶合板表面毛刺去除装置专利，能够对不同尺寸的胶合板进行固定打磨

四川佛能达取得防火玻璃生产用倒角机专利，方便对不同防火玻璃倒角过程中的限位工作

山西绿建智造取得中空玻璃加工用磨削加工机专利，避免玻璃破碎

如何轻松查看电脑主板型号的多种方法与技巧

如何轻松设置Windows 10的锁屏时间，提升使用体验与安全性

四川省鑫鼎顺玻璃取得双向打磨玻璃装置专利，具有打磨效果好且工作效率高的优点

如何轻松设置电脑自动关机，提升工作与生活效率的实用指南

南通向阳光学元件取得半自动光学玻璃的侧边加工机专利，方便对光学玻璃调整方向

如何轻松设置QQ聊天背景，提升个性化聊天体验

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响