当前位置:首页|资讯|OpenAI|复旦|人工智能

无条件加速还是“超级对齐” 狂奔中的大模型遇治理难题

作者:21世纪经济报道发布时间:2024-01-04

原标题:无条件加速还是“超级对齐” 狂奔中的大模型遇治理难题

21世纪经济报道记者 董静怡 实习生闫硕 上海报道

2023年年末,OpenAI内部的人事风波一度引发全球关注,背后映射出的,是商业化激进发展与安全保守之间的潜在矛盾。

复旦大学计算机科学技术学院教授张谧表示,现在对于以大模型为代表的通用人工智能,所持的观点大致分为两个阵营:一是有效加速主义,提倡无条件加速技术创新,快速推出使用,从而颠覆社会结构。这一派的代表就是OpenAI CEO,Sam Altman。

另外一派则是超级对齐派,他们要求AI能够在各种环境下自发推导出符合人类价值观的行动方针。这一派的代表被认为是OpenAI的首席科学家Ilya Sutskever。

在大模型飞速进步的当下,大模型带来的内容安全、虚假信息、不当使用和模型失控等问题也摆在了人们面前,发展和治理之间步调的逐渐失调,AI的风险管理、全生命周期的治理成为全球的重要议题。

“科技行业应该负责任地发展AI,兼顾AI发展和风险管控。现在全球范围内有AI竞赛的氛围,注重安全反而可能造成技术落后,为了占领先机便不得不搁置安全。”日前,在“AI发展与治理创新研讨会”上,复旦大学计算机科学技术学院教授张谧表示,“各方应该立足长远,携手营造有序竞争,把风险控制在防护能力的上界之内,保障AI发展处于安全区域。”

未知隐忧

ChatGPT的火爆,让越来越多人意识到人工智能已经迎来了全新的里程碑,并且有望作为一个至关重要的基座系统,以前所未有的速度渗透进各行各业,持续引爆未来世界的数字经济体系。

其革命性指的就是大模型的“涌现能力”,即在大模型训练过程中,出现了一些意外的、超乎预期的能力表现。在计算量大概在10的22次方之后,模型能力会完成从量变到质变的飞跃,呈现出惊人的爆发式增长。但大模型具体是怎样在突破某个值后突然变得智能,对于人类来说仍然是个未解之谜。

这就使得大模型的运用充满了多重不确定性。“模型的特点就是它的未知远大于它的已知。”阿里巴巴集团研究院执行副院长袁媛表示,大模型快速发展带来的冲击其实不能够全部用“风险”去概括,“风险”的前提是它可以被识别,可以被管理。

在业内专家看来,AIGC带来的风险主要包括以下几类。一是内容安全。相较于靠人工手动方式的传统内容生产,AIGC可以通过交互式的方式快速生产并实现规模化,生产成本显著降低,一些色情、低俗、血腥恐怖、不良导向的内容也会借此大量涌出,对内容安全的防控带来新的挑战。

“AIGC的风险复杂度更高。因为它有更高的自由度,更加复杂和隐晦,同时它的时效性更高。”阿里巴巴人工智能治理和可持续发展研究中心首席科学家何源表示。

二是模型安全。大模型从某种意义上来说还是深度学习模型的延展,因此深度学习的模型在理论上具有的安全局限性在大模型上依然会存在。

何源表示,对抗鲁棒就是其中一个例子,“可以通过算法的方式在样本中进行肉眼不可察觉的变化,不影响人的识别,但是会让机器识别出错。”

深度网络的优异性能和其在对抗攻击下的脆弱似乎是同一枚硬币的两面,不管是ChatGPT,还是多模态大模型,他们在面对有意识的攻击的情况下仍然会被轻易攻破。

另一个例子源于大模型对数据的依赖。

大模型的训练离不开数据。但数据的使用存在被毒化、侵权等风险。如果在网络上爬取到的样本数据,已经被植入毒化样本,就会造成大模型产生错误。这种情况下,用户通过预定义的触发词,就会通过模型输出特定结果。而且,一般情况下很难察觉到模型已被“毒化”。

另一方面,面对海量数据,很难确保对每一个训练数据都有使用权限,数据的隐私问题也是一个潜在风险。“在一些垂直领域,个人数据很重要。比如在医疗数据的训练中,不可避免地会涉及到病人的数据。”中国社会科学院大学互联网法治研究中心执行主任刘晓春表示,如何真正做到匿名化,做到什么标准才算是匿名化等问题都还需要讨论。

风险何解?

中国人工智能产业联盟安全治理委员会专委会副主委、浙江大学教授潘恩荣认为,生成式人工智能对人类经济社会发展观念带来巨大冲击,“宜疏不宜堵”。一方面,必须克服各种恐惧和臆想,克制“堵”的冲动;另一方面,要在实践中小步快跑地迭代出各种“疏”的方式。

毕竟从落地的角度来看,风险问题没得到解决,大模型的应用终究无法走向更深层。

“上一波的人工智能产业化发展浪潮,典型的应用是人脸识别,但是人脸识别即使发展到今天,大家对于它的准确率、安全性还是存在很多担心,没有办法进入到严肃场景应用。”瑞莱科技CEO田天表示。

他认为,这还未到达伦理、价值层面,就模型自身安全性而言,还有很大提升空间。眼下,从业者们更希望从安全的角度提升大模型以及各类AI系统的性能,能够让大模型在更多领域实现落地,发挥更大的价值和作用。

在安全治理中,大模型的安全评测是必不可少的,而且很关键的一环。张谧认为,无论在整个训练过程还是部署的前后都要持续监测,并且评测每个环节,还要实时向监管机构、社会、公众发布。

“大模型的风险用小模型去识别和处理是不够的,我们需要用大模型来评测大模型,我们通过大模型生成内容安全风险的指令,看看目标模型的产出,构造一个闭环。”何源表示。

除了评测之外,安全对齐也是安全治理的一个重要的方法。

张谧表示,在训练最初始的阶段是人类完全监督,人工给出每个问题的回答,这样的泛化性比较差。此后,Open AI引出了大型语言模型生成领域的新训练范式RLHF(基于人类反馈的强化学习方式),明显提高了泛化性。

从大模型的道德和价值观养成角度,商汤智能产业研究院创始院长田丰表示,要通过训练把具有负面价值观的数据标识出来;其次,在模型运行的过程中,快速对它做一些正向价值观的调优;再次,当用户使用时,能够去识别恶意的问题和答案,屏蔽那些可能有违价值观的信息。

整体来看,张谧对AI大模型未来的安全前景持乐观态度,她援引前沿观点指出,随着评测、治理技术的成熟以及治理体系的完善,人类提供一整套安全规则,AI就能根据规则实现“用模型监督模型”;更长远看,AI大模型有可能自主对齐人类价值观、主动向善发展。

多方共治

“在风险识别和风险防控和风险管理之间,我们一直觉得有一个缓冲区,在这个缓冲区当中我们面对的是一个共同的未知,我们要承认没有一个先知可以把将来的变化和挑战全部总结出来。”袁媛表示,她认为在这个问题上应是多方的合作共治。

2023年11月,首届全球人工智能安全峰会在英国举行,包括中国在内超过25个国家的政府代表和科技界人士参加,并签署了《布莱切利宣言》,同意通过国际合作,建立人工智能监管方法。

该宣言表示,人工智能带来巨大机遇,但同时也带来重大潜在风险。对于前沿人工智能技术有意识滥用或者无意识控制方面的问题,可能会引发巨大风险,尤其是在网络安全、生物技术和加剧传播虚假信息等方面。与会国家和地区同意协力打造一个“具有国际包容性”的前沿人工智能安全科学研究网络,以对尚未完全了解的人工智能风险和能力加深理解。

在政策方面,我国于2023年6月发布的《2023年度立法工作计划》已将人工智能法草案纳入其中;7月,我国公布了《生成式人工智能服务管理暂行办法》,这是我国首份针对生成式人工智能的规范性监管文件,旨在促进生成式人工智能健康发展和规范应用。

2023年12月,欧洲议会、欧盟委员会和27个成员国的谈判代表就欧盟《人工智能法案》达成协议。该法案规定了对人工智能领域的全面监管,最早将于2024年初生效并于2026年实施。

中国科学院信息工程研究所技术副总师韩冀中认为,这其中一些关键的思想值得关注,一是风险分类,二是价值链责任。

欧盟的《人工智能法案》确立了“基于风险”的人工智能治理框架,将人工智能系统评估后划分为最小风险、有限风险、高风险和不可接受风险四个等级,并对各个等级采取差异化的监管方式,如针对高风险人工智能系统采取严格的风险管控措施;针对有限风险人工智能系统仅规定透明度要求。

在人工智能价值链责任分配上,法案中提到,任何分发者、进口者、部署者或其他第三方应被视为高风险人工智能系统的提供者,需要履行相应的义务。“风险要在每一个阶段进行控制,从模型的生产、运行、服务,到最后的传播,每一个链上都有它的价值,都有它的风险。”韩冀中表示。

值得注意的是,无论是风险治理的措施,还是相关法律法规的建设,都需要与大模型的发展之间形成平衡。

“在模型飞速发展的时候,我们不能去预设,先把这辆车捆住,但我们也必须认识到它急促发展的可能性,要考虑的不仅是司机、乘客,还有道路上的行人。”袁媛比喻道,“我们本质上要做这样一件事:保证大模型保持它应有的发展速度,同时通过多方努力,把下面这条治理的红线抬上去。”

更多内容请下载21财经APP


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1