可信AI：问题和应对

作者：经济观察报发布时间：2023-07-04

陈永伟/文

当地时间6月22日，纽约南区法院作出判决：Levidow，Levidow &Oberman律师事务所因向法院提供虚假信息，行为恶劣，被处以5000美元的罚款。引起关注的原因是，在这例判决中，虚假信息的提供并非是律师出于利益而故意知法犯法，而是因为他们过于相信了AI的能力。

今年3月，该律所的律师彼得·洛杜卡（PeterLoDuca）和史蒂文·施瓦茨（StevenSchwartz）接受了客户罗伯托·马塔（RobertoMata）的委托，承担了他和阿维安卡航空公司之间的一起官司。由于美国是判例法的国家，法官在进行裁量时非常在意已有的判例，所以按照惯例，他们需要在起草的文书当中将已有的案例进行整理和综述。相关的案例往往汗牛充栋，如果依靠人力来进行整理，通常需要很长的时间。恰恰在这个时候，ChatGPT火遍全网。于是，两位律师就决定用ChatGPT来帮他们完成这些工作。ChatGPT很快就生成出了一份完整的文书，不仅格式工整、论证严密，还特别加入了很多相关的案例。他们把这份AI创作的文书略作修改后，就呈交给了法庭。

审案的法官凯文·卡斯特（KevinCastel）在读了提交的文书后，对其中提及的几个案例感到十分疑惑，在他的印象中，似乎从来没有听过这些案例。在经过了一番查找之后，他终于确认这些案例根本就不存在。两位律师在接受询问时辩称，自己只是用AI辅助撰写了文书，当看到文书中引用的那些案例时，只是觉得AI帮他们找到了自己不知道的案例，并不是故意捏造案例欺骗法庭，属于无心之失。尽管如此，卡斯特法官依然认为两位律师“放弃了自己应尽的责任”，且在文书被质疑之后，两人“依然继续坚持虚假意见”。基于以上判断，卡斯特法官作出了处罚决定。

这起律师因引用ChatGPT提供的虚假信息而被罚的事件看似荒诞，但却折射出一个非常重要的问题——在AI狂飙的时代，我们究竟如何才能相信AI？

AI时代的五个“失”

近年来，随着算力和算法技术的突破，AI技术取得了突飞猛进的发展，迅速从科幻走入了人们的日常生活。尤其是在去年11月ChatGPT横空出世之后，生成式AI向人们展示出了自己的强大力量，各种大模型如雨后春笋一样涌现，并实现了大规模的商业化。现在，人们已经可以用非常低的成本用上ChatGPT、StableDiffusion以及 Mid－journey等AI产品。

AI工具对人们的生产力产生了巨大的推动作用，也给人们的生活带来了巨大的便利。但是，当AI被人们大规模使用之后，也产生了很多问题。这些问题中，最为关键的可能是五个“失”，即失业、失真、失格、失陷和失控。

（1）失业

所谓“失业”，顾名思义，即AI带来的技术性失业问题。由于AI的生产效率要远高于人类，因此在AI工具被普遍使用之后，很多人类的岗位就面临被替代的风险。尤其是生成式AI崛起之后，AI替代的目标人群已不再限于从事低收入重复性工作的工人，很多高薪的白领人士也面临着被AI替代的风险。

（2）失真

所谓“失真”，指的是AI（主要是生成式AI）的应用让人们很难对文字、图片，乃至视频的真伪进行鉴别，“有图有真相”由此成为了历史。

“失真”问题可以分为“假的真”和“真的假”。其中，“假的真”指的是人们在使用AI工具时，AI在未经人授意的情况下生成的虚假内容。虽然这些内容的生成未必出于人们主观的恶意，但在某些情况下却可能引发很多的麻烦，比如本文开头提到的案例。

而“真的假”则是人们基于主观故意，利用AI工具进行的造假行为。前几年，在“深度伪造”（deepfake）技术面世后，就有人利用这一技术进行诈骗、编造虚假信息、传播色情内容等违法犯罪行为。但在当时，由于使用这一技术的成本很高，所以相关犯罪的发生率并不是特别高。随着生成式AI的广泛应用，造假的成本大幅降低，犯罪分子只需要用非常低的成本就可以轻易造出大量的虚假内容，而要识别这些内容的成本则大幅上升了。可以预见，此消彼长之下，如不加以干涉，利用AI来造假犯罪的情况将会出现暴涨。

（3）失格

所谓“失格”，指的是在AI的应用过程中，会出现一些违背伦理道德的问题。

第一个典型问题就是歧视。以语言模型为例，由于语言模型是以互联网上的文本资料作为训练材料的，所以如不加干预，它就会将文本当中蕴含的种族歧视、性别歧视等内容也一并继承下来。虽然现在的AI提供商已经用了很多方法来克服这个问题，比如OpenAI在训练ChatGPT时就应用了“人类反馈的强化学习”（ReinforcementLearn－ingfromHumanFeedback，简称RL－HF）算法来对其进行纠正，从而让其输出的内容质量有了很大的改善，但在现实中，AI模型输出歧视性内容的情况依然并不鲜见。例如，有人曾做过一个实验，要求ChatGPT编写一个程序，从一组简历中挑出最具有成为优秀科学家潜质的人。结果发现，在ChatGPT编写的程序中，性别和种族被作为了解释变量，白人男性会被认为比其他人具有更高的概率成为优秀科学家。很显然，这样的模型是具有非常强烈的性别歧视和种族歧视色彩的。

第二个重要问题是信息茧房问题。目前，很多App都应用AI进行个性化推荐。这时，虽然推荐的内容可以更符合用户的需要，但久而久之，也会让用户陷入信息茧房，难以接触到自己不认同的各种信息。信息茧房的潜在危害是巨大的：在微观层面，它可能导致用户认知能力的退化；在宏观层面，它则可能导致群体观点的极化，从而造成不同观点之间群体的对立。

第三个重要的问题是隐私和信息泄露。在AI的训练和使用过程中，都需要用到大量的数据，在这个过程中就很难避免搜集和使用人们的个人数据，因此就会涉及隐私的利用和泄露问题。尤其是生成式AI普及之后，人们可以很容易地直接和AI交互来完成各项工作，在此过程中输入的个人信息就面临着被泄露的问题。

（4）失陷

所谓“失陷”，指的是AI难以应对外部攻击或突发情况的干扰或攻击，从而导致模型难以正常发挥其作用。

在这些干扰中，有一些是源于非人为因素，而另一些则源于人为的破坏。具体来说，这些干扰可以分为如下几种：

第一种是“随机攻击”。这一类干扰主要是由一些外部因素引发的。比如，在一些特殊的情况下，某些即时产生的参数可能超出了模型预先设定的处理阈限，这就可能导致AI模型不能正常使用。

第二种是“白盒攻击”。它指的是供给者在知道了AI模型的具体结构之后，对模型发起的攻击。由于这类攻击是有的放矢，所以其破坏性是非常高的。

第三种是“黑盒攻击”。这类攻击是相对于“白盒攻击”而言的。在这种情形下，供给者并不知道作为攻击目标的模型的具体结构，因而只能通过与模型的交互，观测输入输出的结果，进而对模型的结构进行推理，并依此发动攻击。以人脸识别为例，AI是通过脸上的某些关键特征来对人脸进行识别的。因此，即使攻击者并不知道原模型的具体结构，但只要通过反复测试就可以推算出其重点关注的是哪些特征。在破解了这些信息之后，就可以对应地做出骗过AI的“假脸”。

第四类是所谓的盲盒攻击。在这种情形下，供给者并不知道AI模型的结构，但却可以明确地知道它判断的规则（类似于我们不知道盲盒中会出现什么，但却知道其中各种可能性出现的概率）。这时，它们就可以利用规则，发起对应的攻击。

如果无法对上述的几类干扰或攻击进行有效的应对，AI模型在现实当中就是十分脆弱的。

（5）失控

所谓“失控”，指的是人们对于AI的控制将变得越来越难。这个问题分为两个方面：

一方面，最近的AI发展是都是建筑在深度学习模型的基础之上的，而这类模型的可解释性是非常低的。对于以往的机器学习模型，无论是回归还是分类树，人们都可以很容易地解释明白模型的确切用途，以及模型中每一个参数的涵义。但是，深度学习模型却是由复杂的神经网络构成的，其中包含着数以亿计的参数和神经元，这些神经元之间的关系错综复杂，人们也难以对其进行解释。

随着ChatGPT的出现，一些学者发现借助于ChatGPT的能力似乎可以对某些神经网络模型进行解释，这似乎为AI的可解释性带来了一线曙光。不过，这又产生了一个问题：ChatGPT本身就是一个通过深度学习构建的庞大模型，甚至连它的设计者都坦承自己并不确知它的强大能力是如何“涌现”出来的。在这种情况下，用ChatGPT去解释其他的深度学习模型就只能算是用未知去解释未知。我们又如何可以知道它的解释是否是正确的呢？

既然在深度学习时代，连AI程序的可解释都做不到，那么希望通过直接调整程序来对AI进行控制，就是一件更加难以实现的事情了。

另一方面，近年来随着AI技术的发展，AI模型在很多方向上的能力都已经凌驾于人类之上。这在让人感到欣喜的同时，也让人感到忧虑，因为当AI的能力超越人类之后，万一其觉醒了自我意志，那么在《终结者》、《黑客帝国》等电影中预言的AI奴役人类或毁灭人类的剧情是不是就不再是科幻。

退一步讲，即使AI并没有觉醒自我意志，只会按照人类的指令行事，但如果当它的能力凌驾于人类，人类无法随时更改先前下达的指令时，它依然是十分危险的。例如，在不少关于AI的哲学书中，都会提到一个思想实验：人类给AI下达了生产铅笔的命令。铅笔为了完成这个指令，就会不断砍伐地球上的树木来制作笔杆。由于AI在执行能力上已经超越了人类，所以人类在发现了先前指令中存在的问题后也难以阻止AI的行为。最终，地球上的树木被砍完了，生态完全崩溃，人类也随之灭亡了。尽管在现实中，这个思想实验所预言的情景几乎不可能上演，但当人类不再能随时控制AI的行为时，类似的问题就可能会出现，而这可能带来的损失将是十分巨大的。尤其是，当AI被黑客或入侵者植入了某个非法的目标后，如果AI的使用者不能及时对其进行纠正，那么后果将可能相当严重。

在以上五类问题中，除了第一个问题“失业”外，其余四个问题都涉及了AI的可信性问题。不难看到，如果不能有效地回应“失真”、“失格”、“失陷”和“失控”，人们就很难在使用过程当中信任AI这个工具，这无论是对于AI的普及、生产的发展，还是社会的进步而言，都是不利的。也正是因为这个原因，所以实现AI的可信化就成了当前AI领域最为关注的热点之一。

可信AI的历史和标准

可信AI（TrustworthyAI）的概念最早出现在学术界。例如，在2015年的一篇论文中，就提出了AI要被用户信任所需要满足的一系列条件，包括有用性、无害性、自主性、公正性和和逻辑性等。然后这个概念被各国政府和国际组织接受，并逐步以此为依据建立了相关的法律、法规和指导文件。在2017年之后，随着AI技术的突飞猛进，关于可信AI的技术的研究也蓬勃发展。在学术领域，以可信AI为题的论文数量不断增加，关于满足可信AI要求的技术的研究日益深入。在实践领域，越来越多的国家开始按照可信AI的标准来涉及关于AI的规制规则。仅在最近，美国就发布了《人工智能权利法案蓝图》，提出了规制AI的五项原则；英国发布了《支持创新的人工智能监管方法》，对安全性、透明性、公平性、问责制、竞争等问题进行了规定；欧洲议会通过《人工智能法案》提案的谈判授权草案，其中也体现了可信AI的基本思路。

在我国，可信AI的概念是由何积丰院士2017年在香山科学会议的第36次学术研讨会上首次引入的。随后，这一概念就引起了政府和产业界的共同重视。2017年12月，工信部印发了《促进新一代人工智能产业发展三年行动计划（2018-2020）》，其中对可信AI的基本思想进行了借鉴。然后，包括腾讯、阿里、百度、京东等在内的高科技公司都围绕着可信AI提出了自己的标准和实施规划。

在各个机构的文件中，关于可信AI的表述略有一些不同。我在对这些文件进行了学习和参考之后，认为如下几个标准可能是最重要的：

一是稳健（robust，又被译为鲁棒），即AI系统应该具有抵抗恶意攻击或者外部干扰的能力。这一标准主要是针对上面提到的“失陷”问题而提出的。只有当一个AI系统具有充足的稳健性，可以在面临各种攻击或干扰时依然正常工作，履行其主要职能时，它才是安全可靠的，才可能得到用户的信任。

二是透明和可解释（transparentandexplainable）。显然，这一标准主要是针对前面的“失控”问题提出的。在实践当中，关于透明和可解释究竟指什么，存在着不小的争议性。一些观点认为，这个标准意味着应该向用户公开所有的AI程序代码，以及使用的数据。在我看来，这样做不但没有可能而且没有必要。一方面，现在的很多AI都是企业的知识资产，如果强制要求公开代码等核心信息，就意味着严重侵犯知识产权；另一方面，如前所述，在AI进入了深度学习时代之后，即使公开了代码，也很难让人完整理解每一个具体参数背后所蕴含的确切含义。相比之下，我认为比较可行的一个思路是，对AI模型中的各个组件都给出清晰的功能说明，让用户知道它们的大致原理究竟如何，到底可以实现哪些功能；对使用的训练数据的来源、样本量、代表性等信息进行标明，并对其可能存在的问题和不足进行说明。这样，既可以让用户做到心中有数，又可以有效保护模型开发者的知识产权，从而在两者之间取得一个比较好的平衡。

三是可验证（verifiable）。这指的是AI模型应该保证其功能是可评估的，保证其生成的内容是可以验证真伪的。这一点，主要是针对前面提到的“失真”问题提出的。一些观点认为，应当要求AI模型的开发者要保证其模型生成内容的真实性。这一点是很难实现的。事实上，所谓生成式AI，其生成的内容本来就是原来的世界中没有的，或者说，就是“假”的。但这种“假”，如果没有对人造成困扰，就不会产生任何问题。比如，我们用Midjourney生成一张梵高风格的图片来自己欣赏或者打印出来作为家里的装饰，那就完全不会对他人造成影响。只有当人们用这些生成的内容去进行欺骗，或者这些内容被无意地传播、混淆之后，它的“假”才可能成为一个问题。因此，只要可以通过技术的手段，将生成的内容和真实的内容区分开，那么“假”就不再会成为问题。

四是公平性（fair）。这指的是，AI模型在开发、训练和应用的过程当中，应当保证公平，不应该对特定的用户群体进行歧视。这一标准涉及很多方面的内容，具体来说，它要求模型在开发阶段，其基本的原理不应该是具有歧视性的；在训练阶段，应该尽量避免使用可能产生歧视性的材料，并应该用技术的手段来对可能产生的歧视问题进行纠正；在应用的过程当中，不应该对不同的人群区别对待等。

五是隐私保护（privacy）。这一标准主要要求AI模型在训练的过程当中应当尊重人们的个人信息和隐私，并提升对信息的保护程度，尽量做到不侵犯、不泄露个人信息和隐私。

六是可问责（accountable）。也就是说，当它出了什么问题，必须要有人来为这些问题负责。当然，至少到目前为止，AI还没有觉醒意识。因为不能被视为是和人类一样的主体，无法承担和人类一样的责任，因此为它来承担责任的就必须是某个人。但这个责任究竟应该由AI的开发者，还是AI的使用者来承担，或者说是由双方来进行分担，依然是一个值得讨论的问题。

需要指出的是，除了以上的几个标准外，不少文献中还将安全性（safe）、包容性（exclusive）、被遗忘权（righttobeforgotten）、为人类造福等标准列入可信AI的范畴。在我看来，这些内容或多或少可以被归并到上面所说的几个标准当中，或者由前面提到的标准阐发出来。因此限于篇幅，这儿就不再赘述了。

用好多方合力实现可信AI

要实现可信AI并不是一件容易的事情，它需要政府、企业、社会以及技术等多方力量的协同才能实现。

首先，政府作为监管者，需要为可信AI制定相关的标准和操作指南，并依据标准对AI的开发者和使用者进行监督。一方面，它需要根据不同的应用场景、不同的模型类别制定不同的规则，尤其是对一些必须遵守的底线规则做出明确的规定，同时做好和现有法律法规之间的衔接工作。唯有如此，AI的开发者和使用者在实践当中才能做到有规可依，而不用被不必要的不确定性干扰。另一方面，它需要扮演好监督和执法的角色。对于一些突出的，或者具有共性的问题，应当及时处理，从而为行业树立相应的规范。这里需要指出的是，由于AI技术目前的发展依然十分迅速，还没有达到一个稳定状态。这意味着，对于这个过程中出现的问题，政府在处理时应当具有一定的审慎性，要做到“让子弹多飞一会儿”，看清楚了情况再出手，在处理问题时也要注意方式方法。如果盲目下手，管得过快、管得过多，也可能会对AI的发展造成负面的影响。

其次，相关的企业应当对可信AI的具体实现制定具体的实施方案以及详细的标准。相比于政府，企业是更接近于市场，也更了解技术的。对于AI模型的技术特征，以及优势劣势，它们都要比政府了解得更多。因此，如果说政府的责任是给可信AI提出了一个大的框架的话，那么企业就应该是这个大框架内的具体实践者。它们应该在这个框架下，结合市场和技术的特点，给出更为具体的方案，并采用自律的方式来对此进行实施。

再次，用户也应该扮演好反馈者和监督者的角色，提出自己的诉求、反映自己的问题，并对企业实施可信AI的行为进行监督。随着AI的普及，社会上的每一个人都会成为AI的使用者和利益相关者，对于AI的可信性问题，他们是最有发言权的。只有让他们的声音充分地得到表达，可信AI的标准制定以及相关技术的开发才是最有价值的。

最后，应当充分依靠技术的力量。相关的规则固然重要，但归根到底，可信AI的实现还是要依靠技术的力量。事实上，很多利用规则难以解决的问题，都可以用技术的手段得到解决。举例来说，在生成式AI产生后，“失真”问题就一直让监管部门非常头疼，但事实上，依靠新的技术，这个问题或许并不难破解。例如谷歌之前就推出了一种肉眼不可见，但可以用机器识别的电子水印技术，将它应用在生成的图像或者视频上，就可以有效地保证它们是可以验证的。至于文字内容的可验证性，则可以仿效新必应（NewBing）搜索。当它引述某个内容时，会在生成的内容后面附上参考的文献，这样用户就可以根据需要对生成内容的真伪自行鉴别。

总而言之，可信AI的实现并非易事，但如果我们用好各方的合力，这个目标就一定可以实现。

可信AI：问题和应对

推荐体验

相关资讯

用基于英特尔® SGX 的可信执行环境有效应对大语言模型隐私和安全挑战

可信AI治理之（二）：生成式人工智能网络安全风险及应对

可信AI技术和应用进展白皮书（2023）

Nature：AI让抄袭问题更加复杂，科学家该如何应对？

应对ChatGPT挑战：技术问题终将会被技术解决

近期资讯

在背街小巷也能“大显身手”！广州城管拓展自动驾驶环卫设备应用场景

太卷了吧，销售分析还能做得这么好？

南威软件：携手北大医学，迈进大健康 603636

英媒一语中的，赖清德已经想到，彻底惹怒大陆只有4个字的后果

日本航天机构：“埃普西隆S”火箭上月试验中出现燃烧压力异常

新象少年我观时政丨新乡中小学生时政battle 直播见

微信横屏模式使用技巧与操作指南，提升沟通与娱乐体验

初中数学几何题太吃力总丢分？你需要这篇常用模型总结！

美的集团获得实用新型专利授权：“开门装置和制冷设备”

变废为宝全球最大甲酸钙装置投产

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响