AIGC内容安全之困：审核量大难度高，还面临“套话”陷阱

作者：南方都市报发布时间：2023-06-30

自ChatGPT一路走红以来，国内众多互联网企业纷纷加入“战局”，各家大语言模型在半年内密集上线。集成了ChatGPT的产品竞争日趋白热化的同时，有关AIGC内容安全的担忧也从未停止。6月30日，腾讯安全举办AIGC内容安全研讨会，有风控专家在会上表示，审核量大、难度高以及违规内容形态类型复杂多样是目前企业解决AIGC内容合规问题时面临的难点。

今年年初，ChatGPT凭借其极其出色的文本生成和对话交互能力迅速走红，但与此同时，有关其回答准确度和真实性很低、采纳价值不高的争议也一直存在。4月，国家网信办发布《生成式人工智能服务管理办法（征求意见稿）》，规定AIGC内容不得含有暴恐、低俗、歧视、侵权等违法违规内容，明确提出“利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信息”。

腾讯安全内容风控产品经理李镐泽在会上表示，目前AIGC面临的内容安全风险和传统的数据风险类型比较重合，主要分为四类。一是色情淫秽、血腥暴力、涉政涉毒等违规内容，二是虚假信息，三是涉及个人隐私的内容，比如提供手机号、身份证号等具有个人标识的信息也属于违规内容。四是涉嫌版权侵权的内容。

他举例道，在实践中可能存在“套话”现象，比如有用户在使用AIGC服务时提出大量具有诱导性问题，有意引导大模型生成违规内容。具体而言，用户可能通过拆分字词、使用拼音字、利用文字间隔等尝试寻找大模型有关违禁规则的漏洞。此外，还存在单个提问系正当，但将不同问题关联起来就会产生违规内容的情况，“我们会通过关联上下文的语义来进行识别，这也是一个对抗的过程。”

他还表示，在提供AIGC服务的过程中，要努力实现内容创作和风险控制之间的平衡。比如，一个高危的关键词可能在正当的语义下构成一个正常的提问，此时如将它们都归类为违规内容，可能会影响用户的使用体验。

国内法规即将出台意味着相关部门对AIGC监管的重视。尽管很多企业的AIGC内容合规还在探索阶段，但它绝对是企业的一道必答题。那么，在解决服务内容合规问题方面，目前存在哪些难点？

腾讯安全天御研发工程师周维聪总结了三方面的难点。首先是内容审核量巨大，目前AIGC用户数量庞大，相比于用户生产内容、专业生产内容，AIGC的生成效率非常高，在极短的时间内就能生成大量内容，为审核工作带来很大压力。

其次是违规内容的形态类型复杂多样。包含色情、暴恐、血腥等元素的内容可能以或隐晦或直白等各式各样的形态出现，这尤其体现在文本内容中，“文本中隐藏一些隐晦违规内容的可能性更大，这是需要更精细的审核去解决的。”

此外，生成内容专业度较高增加了审核难度。大模型在训练过程中会收集来自各行各业的专业知识，用于满足不同行业的内容生成需求，而较高的内容专业度也意味着对机器审核、人工审核都提出更高要求。

在AIGC内容安全的防范方面，李镐泽指出，要实现全链路数据达标，需要密切关注数据标注、数据审校等不同环节的数据生成质量。同时要重视提前预防，AIGC有数据量极大、传播速度极快等特点，不能只寄希望于事后防御，还应提高数据训练、数据生成、数据传输等过程中的风险防范意识。

采写：南都记者樊文扬