在 Sora、Claude 3 将人工智能推向新高峰时,人工智能的触手也被拿来伸向黑暗。
澎湃新闻对齐 Lab 梳理近期 AI 新型诈骗典型案例后发现:当下利用 AI 技术的诈骗手段呈现出门槛更低,效果更逼真的趋势,让人更加防不胜防。
面对 AI 新型骗局的各类场景,我们应该如何提高防范意识和应对能力?
AI 换脸视频:三招解套防诈骗
2023 年 6 月 10 日,国家反诈中心辟谣“AI 诈骗在全国爆发”,确认全国 AI 诈骗实施不超过 10 起,主要是提前制作了换脸视频,并不是实时的视频互动通话。而新近的案例中,我们发现在视频通话中利用 AI 换脸的案件数量逐渐变多。
AI 实时换脸的方式是利用人脸识别模型和摄像头来获取人脸的关键特征点。这些特征点被用来在视频中跟踪人脸轮廓、眼睛、眉毛等区域的位置。
理论上,面部特征点越多,AI 换脸的效果越好。因而,为了打造一个逼真的 AI 换脸骗局,犯罪分子通常会广泛搜集与被害人有关亲友的视频、照片等作为换脸素材。
北京朝阳法院指出,诈骗分子会利用 AI 技术对所要施行诈骗的人群进行筛选并生成定制化诈骗脚本。例如,在实施情感诈骗时,会筛选出经常发布情感信息的人;在实施金融诈骗时,会筛选出经常关注理财投资的人群。
在实际应用中,为了平衡网络延迟、生成效果等多种因素,人脸特征的提取上只会保留最具有代表性的特征点。当这些最具有代表性的人脸特征点被遮挡或者数量减半时(侧脸),AI 换脸就容易出现崩坏的情况。
论文 Joint Multi-view Face Alignment in the Wild 展现了人脸识别模型在不同人脸截面的特征点识别效果。从图中可以看到,正脸特征点的识别效果远比侧脸要好。
这可以成为我们破解 AI 换脸的办法之一。metaphysic.ai 的一项研究指出,在视频通话等实时视频场景中,AI 换脸效果会因为面部遮挡或侧脸转向而大打折扣。
测试者使用 AI 工具将自己的脸换成欧美明星。在用手遮挡面部后,AI 换脸出现了扭曲和面部波动的情况。在人脸侧向摄像头 90°时,AI 换脸在轮廓和人脸细节上出现了不同程度的崩坏和错乱。图片来源:metaphysic.ai
对于青睐“划算又高效”、采取“广撒网”策略的犯罪分子而言,进一步通过优化算法模型、增加更多训练图像等方式优化 AI 换脸效果的考虑较少。因而,当我们遇到存疑的视频通话时,可以要求对方做一些面部运动,例如侧脸转向、进行面部遮挡、捏鼻子等,来辨识 AI 换脸的可能性。
除了 AI 换脸视频通话,AI 换脸视频还被很多营销号用来导流、带货。为了抓住流量密码,许多营销号不惜侵犯个人肖像权。
目前,一些社交平台已经对这类 AI 换脸账号采取了封禁,但在短视频平台依旧能刷到类似的 AI 生成内容。图片来源:新浪热点
最近一两个月,许多人都能在短视频平台频繁刷到这位俄罗斯博主的视频。这些短视频有着统一的故事脚本,包括热爱中国文化,想嫁给中国男人等,并希望看视频的人能够买一点俄罗斯特产。这些在全网传播的短视频,均是由营销号通过 AI 换脸制作而成。人脸盗用自乌克兰网红奥尔嘉(Olga Loiek)。
如何鉴别真假难辨的 AI 换脸短视频?我们可以借助 Deepware 这类 AI 视频识别工具。这类工具会在上传视频后,对视频中存在 AI 生成或换脸内容进行分析,并给出识别报告。上图左侧是对早期 AI 换脸视频的识别结果,右侧是对近期俄罗斯 AI 网红的识别结果。在 AI 换脸技术不断迭代的今天,识别 AI 换脸的技术也急需更新换代。
除了使用 AI 视频鉴定工具外,还可以留意短视频平台对于 AI 内容的标记提醒。记者检索了包括抖音、小红书、B 站等视频平台,许多 AI 生成的真人换脸短视频下方都含有提示信息。以抖音为例,在用户刷到 AI 生成内容的短视频时,会标注“疑似包含 AI 创作信息,请注意甄别真实度”的提醒。这也为我们识别 AI 生成视频提供了一定的参考。
AI 合成语音:鉴别不易,防范更难
与 AI 换脸视频相比,AI 合成语音在诈骗中其实更难辨别。
全球安全技术公司迈克菲(McAfee)在 2023 年发布的调查报告中指出,只需提供3-4秒的录音,网络上的免费AI工具就能生成相似度达到85%的克隆人声。在参与调查的 7000 多位全球受访者中,有 70%的人不确定是否能分辨 AI 合成语音,而大约有 10%的人遭遇过 AI 语音诈骗。
在社交媒体上,许多留学生发帖表示曾遇到利用 AI 合成本人语音,对在国内的父母进行的诈骗。这些诈骗以绑架为名,放出 AI 合成的求救语音,同时利用时空差,在造成恐慌的心理下骗取大量金额。
以目前的 AI 技术,克隆一个人的声音有多容易?我们以骚扰电话提取人声为场景,进行了一段模拟:
模拟骚扰电话提取人声
这段模拟骚扰电话的对话,前半部分采用目前主流的 AI 客服电话模式,后半段由记者真人人声应答,实际应答时长约 6 秒。几秒钟的音频样本对生成一段效果逼真的克隆声音来说已经足够。记者在网络随机找到一款开源的 AI 语音克隆工具,根据这 6 秒的应答语音合成了一段可以自定义内容的语音。
使用AI工具合成人声
使用 AI 合成的语音效果非常接近原声,语音语调与原始音频大差不差,在面对 AI 工具的检测上,甚至还“逃过一劫”。
AI 工具对语音的检测,一般关注合成语音中的频率缺失部分、音调的起伏等。此外,检测的准确性还受语音时长的影响。因此,在验证对 AI 语音的怀疑上,AI 工具的结果还需结合我们对语音内容的辨析。AI 领域科学家 Dr. Adrian Kaehler 在接受一项采访时也提出,“你可以引导其说出一些特定的话,从而帮你判断真伪”,进行内容上的辨析。
回溯 AI 语音的骗局的生成,语音的泄露问题也值得加强关注。该骗局通常是通过骚扰电话录音来获取真实声源。所以,面对未知来电时,我们可以在了解对方的信息之后再开口,减少不必要的信息泄露。
AI 虚假信息:识别效果参差不齐,中文支持差
与视频、语音近来出现的“高端骗术”相比,用 AI 生成的虚假信息进行传播算是“常规局”,但可能造成更广泛的影响。在众多的信息流之中,AI 生成的内容时常以假乱真,在信息层面上造成误导甚至诱导。
2023 年 2 月,一则有关“杭州市政府 3 月 1 号取消机动车依尾号限行”的“新闻稿”在网上疯传。随后杭州警方证实,该消息不实。其内容来自于某小区业主群对 ChatGPT 的讨论,不明实情的群友转发了其中由 AI 写作而成的新闻稿,造成错误信息的传播,误导公众。
目前,市面上有诸多 AI 文本检测工具为辨别 AI 生成内容提供服务,如 GPTZero、Copyleaks、Smodin 等。在实现 AI 检测的原理上,GPTZero 主要关注困惑度(perplexity)和突发性(burstiness)这两个指标,前者衡量文本的不可预测性,后者衡量句子结构和长度的变化。由于 AI 生成文本和人类生成文本的差异,检测得以实现。
当我们将文本贴入这些工具的检测框后,它们可以快速判断出文本由 AI 生成的可能性,并高亮其判定为由 AI 生成的语句。
GPTZero界面
在实际操作中,我们发现 AI 检测的准确度受长度的影响,GPTZero 对检测文本的字符数就要求达 250。以及不同工具对不同语言文本的识别能力也有所分异。当我们选取上述以 GPT 写作而成的假新闻稿作为检测文本时,GPTZero 将其判定为完全由人写成,而 Smodin 则给出了 71.4%的 AI 生成可能性,结果大相径庭。
使用GPTZero的检测结果
使用Smodin的检测结果
在中文内容的检测上,我们发现实际可用的工具较少。那么在遇到可疑信息时,还是少不了惯常的核查思路,追溯信息源、交叉求证……
不难发现,利用 AI 工具进行反诈骗的检测,主要依据是人类与 AI 生成内容的不同点检测。也正是因为这一点,AI 检测工具无法稳定地保持较高的准确率。
面对日益猖獗的 AI 诈骗,我们能做的或许首先是引起重视并拓宽认知边界,运用逻辑的思辨辅之以 AI 工具进行双重保障与防范。
*封面图由 Midjourney 生成