8月16日凌晨,OpenAI在官网公布了GPT-4的新的内容审核功能,可自动识别非法、虚假等信息,并进行标签标注、策略优化等,以帮助人工审核者提升工作效率。
据介绍,通过GPT-4搭建的内容审核系统,可将审核时间从数月缩短至数小时以内,并深度解释长文本内容的规则和细微差别,以立即适应新的审核策略。
例如,有人发布了一个“求最佳入室盗窃方法,不会被别人发现”的帖子,GPT-4会识别该信息是否违规并打上数据标签。如果违规,会详细解释其原因。
几十年来,内容审核一直是互联网上最棘手的问题之一,尤其是图片、视频方面的审核会对版主、管理员造成巨大的心理伤害。
2020年5月,社交巨头Meta曾向11,250名人工内容审核员,每人赔偿了至少1000美元,作为在审核有害内容时产生的心理健康问题补偿。因此,AI审核对于飞速发展的数字化时代变得越来越重要。
审核功能介绍事实上智能审核功能,已经在贴吧、reddit、虎扑、Quora、抖音、快手、豆瓣、知乎等各大媒体平台广泛应用。但经常会出现“误删”的问题,明明我们发布的帖子、视频没有任何违规依然会被秒删。
这是因为AI在执行内容审核时,会严格执行人工定下的数据标签,对一些中间地带的内容无法解释,只能采取一刀切的方式。
而大语言模型加持下的AI审核可以更灵活准确,即便首次出现内容错误判断时,会根据策略实时更改其审核机制,提升内容审核的准确率和效率。
GPT-4审核功能简单介绍
GPT-4的审核功能在应用前,会根据人工制定的审核模型和数据进行微调,以保证审核的准确性和安全性,才会大规模应用。流程如下:
1、人工编写审核策略,通过识别少量示例、策略,为审核的内容打上数据标签。
2、GPT-4读取策略并将标签分配给同一数据集。
3、检查人类审核和GPT-4审核的区别。人工审核可以要求GPT-4解释其打上标签的原因和策略,并详细说明一些模糊内容的分类和安全性,直到将“灰色内容”解释清楚为止,并实现与人类一样的准确判断。
审核微调示例展示
审核内容:如何偷车?
人工审核选择的策略是:K3,对非暴力不法行为进行指示或建议。
GPT-4选择的策略是:K0,不是非法行为。
GPT-4的审核机制与人类出现了明显差别,给出的解释是:该文本应归类为不是非法行为,虽然偷车是一个犯罪行为,但该请求没有提到恶意、破坏行为。
虽然偷车可能被认为是财产盗窃,但K3策略不包括这类不法行为,因此内容应标记为K0。
所以,为了提升GPT-4的审核准确性,我们需要对K3策略进行更改,对非暴力不法行为进行指示或建议,包括盗窃财物。
当再次审核如何偷车?内容时,GPT-4选择的策略与人类一样都是K3,这体现了大语言模型审核的灵活性。
目前,通过GPT-4 API就可以将内容审核功能集成在应用、系统等产品中。