当前位置:首页|资讯|AIGC|人工智能

防止“虚拟人”欺诈、发起AIGC可信倡议…2023 人工智能大会聚焦“大模型时代AI安全”

作者:东方网发布时间:2023-07-07

原标题:防止“虚拟人”欺诈、发起AIGC可信倡议…2023 人工智能大会聚焦“大模型时代AI安全”

东方网7月7日报道:AIGC(生成式人工智能)安全成为当前人工智能研究发展的重要议题。今天,2023世界人工智能大会(WAIC)迎来“聚焦·大模型时代AIGC新浪潮—可信AI”论坛。

论坛上,中国科学院院士何积丰发表《可信人工智能展望》主题演讲。他认为,“不能再将人工智能视为简单的技术工作,而是成为整个组织的变革引擎。可信人工智能要致力于保障数据安全可信、系统行为可追责、算法模型可解释、网络环境可信、法律伦理可信等问题。”

聚焦大模型时代AI安全,AI安全检测平台“蚁鉴2.0”发布

在该论坛上,蚂蚁集团同时宣布,“蚁鉴2.0”全面开放,面向全球开发者免费提供AIGC安全性、AI可解释性、AI鲁棒性三项检测工具,可服务于数字金融、教育、文化、医疗、电商等领域的大规模复杂业务场景。

据了解,“蚁鉴2.0”的两项硬核能力,一是实现了用生成式能力检测生成式模型。检测标准覆盖内容安全、数据安全、伦理安全三大类,可对大模型生成式内容完成包含个人隐私、意识形态、违法犯罪、偏见与歧视等数百个维度的风险对抗检测,并会生成检测报告,帮助大模型更加有针对性地持续优化。

“生成式大模型是一种‘深黑盒’技术,‘蚁鉴2.0’通过智能博弈对抗技术,模拟黑产以及自动化生成海量测试集,可实现「生成式机器人」对「AIGC生成式模型」的诱导式检测计算,很像一个24小时不眠不休的‘安全黑客’在找茬大模型,从而找到大模型存在的弱点和安全问题所在。”蚂蚁集团大安全事业群技术部总裁李俊奎表示,这种AI对AI的评测,也是教学相长。好比生成式考官考核生成式运动员,在对抗中双方能力互相提升,进一步提高整个行业的AI安全水位。”

另一项硬核能力是,“蚁鉴2.0”融入了可解释性检测工具。综合AI技术和专家先验知识,通过可视化、逻辑推理、因果推断等技术,从完整性、准确性、稳定性等7个维度及20余项评估指标,对AI系统的解释质量量化分析,帮助用户更清晰验证与优化可解释方案。

据了解,“蚁鉴2.0”集成了蚂蚁近10年可信AI实践、1000余项可信AI专利,支持零编码测评。开发者通过API接口,将AI模型接入蚁鉴,就可以一键识别和挖掘模型漏洞。

李俊奎表示,人工智能的深度应用,不仅对数据、算法、算力提出了更高要求,也对安全、隐私、伦理提出更多挑战。在确保数据安全和隐私保护、健全人工智能伦理与安全的前提下,才能让AI技术真正地释放应用价值。

防止“虚拟人”欺诈,AI生成图片鉴别技术亮相

事实上,AIGC爆火的背后,不法分子通过生成的图片去规避版权、身份验证,非法获取利益,给人民群众造成了财产损失。

此次人工智能大会上,合合信息研发了关于AI生成图片鉴别技术,用于帮助个人及机构识别判断AI图片是否为生成的,防止“虚拟人”欺诈,通过解决生成式AI面临的部分伦理问题,助力生成式AI的健康发展。

该项目的难点主要分为两点:生成出来的图像场景繁多,不能穷举,不能通过细分来一一训练解决;有些生成图和真实图片的相似度过高,很贴近于人类的判断,对于机器而言,真伪判定只会更难。合合信息基于空域与频域关系建模,能够在不用穷举图片的情况下,利用多维度特征来分辨真实图片和生成式图片的细微差异。

输入图片后,模型通过多个空间注意力头(attention head)来关注空间特征,并使用纹理增强模块放大浅层特征中的细微伪影,增强模型对真实人脸和伪造人脸的感知与判断准确度。

合合信息智能创新事业部总经理唐琪表示,生成式图像检测技术在反诈骗、版权保护等领域的应用空间十分广泛。

例如在金融行业,不法分子可利用AI合成技术对线上资金进行盗刷,威胁公民财产安全。本项技术可通过对支付环节的干预,降低资金盗刷概率;在传媒行业,某些图片供给方使用软件自动生成海报等图片,故意隐瞒其来源并售卖给第三方,第三方在不知情的情况下进行商用,导致了侵权问题,相关检测技术可在一定程度上解决这些问题。

值得一提的是,面对AI引发的“信任焦虑”,此次论坛上,中国信通院、上海人工智能实验室、武汉大学、蚂蚁集团、合合信息等多家单位还共同发起的《AIGC可信倡议》。该倡议得到数十家单位参与,围绕人工智能可能引发的经济、安全、隐私和数据治理等问题,提出构建AIGC可信发展的全球治理合作框架,采用安全可信的数据资源、技术框架、计算方法和软件平台等全面提升AIGC可信工程化能力,最大限度确保生成式AI安全、透明、可释。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1