OpenAI 称其最新的 GPT-4o 模型具有“中等”风险

作者：水哥发布时间：2024-08-11

OpenAI发布了GPT-4o System Card，这是一份研究文件，概述了该初创公司在发布最新模型之前采取的安全措施和风险评估。

GPT-4o于今年5月公开发布。在首次亮相之前，OpenAI曾利用一组外部红队成员（即试图找出系统中弱点的安全专家）来查找模型中的关键风险（这是一种相当标准的做法）。他们检查了GPT-4o可能会创建未经授权的某人声音克隆、色情和暴力内容或复制的受版权保护的音频片段等风险。现在，结果正在公布。

根据OpenAI自己的框架，研究人员发现GPT-4o具有“中等”风险。总体风险水平取自四个总体类别中的最高风险评级：网络安全、生物威胁、说服力和模型自主性。除了说服力之外，所有这些都被认为是低风险的，研究人员发现GPT-4o的一些写作样本在影响读者意见方面可能比人类书写的文本更好——尽管该模型的样本总体上并不更具说服力。

OpenAI发言人Lindsay McCallum Rémy向媒体透露，GPT-4o System Card包括由内部团队创建的准备情况评估，以及OpenAI网站上列出的外部测试人员，即模型评估与威胁研究 (METR) 和阿波罗研究，这两个机构都为人工智能系统建立评估。

这并不是OpenAI发布的第一份相关评估报告；GPT-4、带视觉的 GPT-4和DALL-E 3也进行了类似的测试，并发布了研究结果。但 OpenAI是在关键时刻发布这份报告的。就在GPT-4o System Card发布的几分钟前，有科技媒体报道了参议员伊丽莎白·沃伦(Elizabeth Warren) (D-MA) 和众议员洛里·特拉汉 (Lori Trahan) (D-MA) 的一封公开信，要求OpenAI解释如何回应举报人和安全审查。这封信概述了许多公开指出的安全问题，包括首席执行官萨姆·奥特曼 (Sam Altman) 于2023年因董事会担忧而短暂被公司罢免，以及一位安全主管的离职，这位主管声称“安全文化和流程已经让位于光鲜的产品”。

此外，该公司在美国总统大选前夕发布了一款功能强大的多模式模型。该模型显然存在意外传播错误信息或被恶意行为者劫持的风险——即使OpenAI希望强调该公司正在测试真实场景以防止滥用。

很多人呼吁OpenAI更加透明，不仅是模型的训练数据（比如它有在 YouTube上训练吗？），还包括其安全测试。在OpenAI和许多其他领先人工智能实验室所在的加利福尼亚州，州参议员斯科特·维纳 (Scott Wiener) 正在努力通过一项法案来规范大型语言模型，其中包括如果公司的人工智能被用于有害用途，将追究公司的法律责任。如果该法案获得通过，OpenAI 的前沿模型在向公众开放之前必须遵守当地强制规定的风险评估。然而GPT-4o System Card最大的问题在于，尽管有一群外部红队成员和测试人员，但其中很大一部分依赖于 OpenAI自己来评估。