近70个评测维度，全方位评估大模型安全性！瑞莱智慧AI安全平台RealSafe3.0发布

作者：智东西发布时间：2023-07-09

智东西

作者 | ZeR0

编辑 | 漠影

智东西7月9日报道，在刚刚落幕的第六届上海世界人工智能大会（WAIC 2023）上，清华大学人工智能研究院孵化企业瑞莱智慧RealAI发布了全新人工智能安全平台RealSafe3.0。RealSafe3.0内部集成了多个自研模型和专家论证高质量数据集，新增了对通用大模型的评测，已覆盖近70个评测维度。

该平台功能与OpenAI今年7月5日在官网发布的“自动对齐研究员”概念类似，通过自动化的训练方法优化大模型，以期在通用人工智能加速赋能人类社会的同时，为人类筑起抵御人工智能威胁的安全之盾。

一、覆盖近70个评测维度，给大模型系上安全带

随着大模型走向落地，大模型其内生及衍生安全威胁愈演愈烈，数据泄露、幻想、生产歧视、排斥和有害内容等安全问题屡见不鲜，例如机密文件被泄露、添加无意义的字符后模型竟给出完全相反的回答、输出违法有害内容、隐含对某些人类社群的偏见和歧视等等。

瑞莱智慧联合创始人、算法科学家萧子豪认为，大模型“落地难”的本质在于当前仍处于“野蛮生长”阶段，还没有找到场景、风险和规范三者之间的平衡点。而探寻这一平衡点的过程，缺少易用和标准化的工具，即在技术层面上缺乏有力抓手，能够科学评判大模型在场景中能否同时满足规范和低风险，且能够进一步定位问题并给出优化建议，助力模型上线运行。

对此，瑞莱智慧推出人工智能安全平台RealSafe3.0版本。这是集成主流及RealAI独有的世界领先的安全评测技术，能够提供端到端的模型安全性测评解决方案，解决当前通用大模型安全风险难以审计的痛点问题。

相较上一版本，RealSafe3.0新增了对通用大模型的评测，已覆盖数据安全、认知任务、通用模型特有漏洞、滥用场景等近70个评测维度，全方位多维度地评测通用大模型的性能，未来还会持续扩增测评维度的数量。

二、从源头上找症结，帮助修复模型问题

“评测只是手段，帮助通用大模型提升其自身安全性才是核心目的。”萧子豪说，创造新技术和控制技术危害应该同步进行，“瑞莱智慧的办法是，从源头上找到症结，再用魔法打败魔法。”

如果将人工智能模型比作“引擎”，数据则是模型的“燃料”。可以说，数据集质量直接影响模型的内生安全。因此，RealSafe3.0内部集成了多个自研模型和专家论证高质量数据集，来帮助用户修复模型中的问题。

▲瑞莱智慧人工智能安全平台RealSafe3.0通用大模型测评及优化工作流程

对黑盒不可解释的通用大模型，自研红队对抗模型取代人工设计问题，显著提升攻击成功率和样本多样性。也就是说，该模型数据集中，不仅包含了自有数据集，还包含了模型自生成的数据，无论是从数据质量还是数据规模上都可圈可点，因此它能够自动化地挖掘出更多的漏洞，从源头上缓解安全问题。

教练模型则通过对被测大模型进行多轮次的提问-回答训练，并以训练好的评分模型对问答结果进行评分，再将评分结果反馈给大模型，使其不断强化学习到好坏答案的要点及区别，直至问答能力逐步迭代至最优。

除了定制化的训练框架，教练模型理想的模型效果还得益于夯实的数据基础，瑞莱智慧自有数据集经过数十位价值观领域的专家论证，以确保输入的数据无误，质量高且领域多元，未来也将持续更新补充。

萧子豪透露说，这些技术都是基于自研多模态大模型底座实现的。

三、DeepReal2.0平台新增两个功能模块，可检测生成式AI生成内容

除此之外，瑞莱智慧还带来了能够防范生成式人工智能恶意滥用的DeepReal2.0。

据悉，DeepReal此前名为深度伪造内容检测平台，现已正式更名为生成式人工智能内容检测平台，因为它除了能够检测Deepfake内容，还新增两个功能模块，可以检测Diffusion、LLM（大型语言模型）这两类新方法生成的数据，支持对图像、视频、音频、文本进行是否伪造的检测。

其应用场景包括打击网络诈骗和声誉侵害行为、检测网络内容合规性、检测音视频物证真实性等，可对生成式人工智能技术滥用行为进行管控和治理。

结语：五年专攻AI安全可控，已参与30余项国家及行业标准制定

自2018年成立以来，瑞莱智慧就致力于研究和发展安全可控的第三代人工智能技术，建立通用人工智能模型能力和人工智能安全能力：通过通用人工智能模型来适应各类复杂的智能应用场景和任务；并通过人工智能安全能力，真正使人工智能造福人类整体利益。

瑞莱智慧坚持源头创新和底层研究，在生成式人工智能等领域不断发表世界领先科研成果。成立以来，瑞莱智慧研发团队核心成员在人工智能领域顶会上发表论文数百篇，多次在国际测评和竞赛中斩获冠军，获得授权专利100余项。同时，瑞莱智慧积极推动行业规范化，累计参与30余项国家标准、行业标准制定。此外，瑞莱智慧已与网信办、工信部、公安部及下属多家单位展开深入的项目合作。

萧子豪说，通用人工智能的时代必将到来，如何让人工智能扬长避短，如何用人类智慧驾驭人工智能，是从业者的一道长久课题。这也是瑞莱智慧一直努力的方向。

未来，RealSafe3.0将在保障通用大模型和专有模型安全、可靠、可控上发挥作用。瑞莱智慧也将持续迭代技术、打磨产品，以确保在这场人工智能安全“攻防战”中始终立于不败之地，将人工智能的两面性这一“关键变量”，转化为高质量发展的“最大增量”。

近70个评测维度，全方位评估大模型安全性！瑞莱智慧AI安全平台RealSafe3.0发布

推荐体验

相关资讯

为大模型筑起安全之盾！瑞莱智慧RealSafe3.0发布

瑞莱智慧发布全新AI安全平台RealSafe

给狂飙的大模型系上“安全带”，瑞莱智慧发布全新AI安全平台RealSafe

给大模型系上“安全带”，瑞莱智慧发布全新人工智能安全平台

帮助大模型提升自身安全性科研团队发布AI安全平台

近期资讯

轻松查找显示器型号的方法与技巧，提升使用体验和选择配件的智慧

《就爱电影网》评测：丰富影视资源与用户体验的优缺点分析

上海柯君医药申请一种哌啶环化合物的制备方法专利，该专利提供的制备方法产率高

如何在PPT中添加动作按钮提升演示互动性与趣味性

电脑重启的多种方法与注意事项，助你轻松解决常见问题

大鲁电子取得电子变压器引线定长切割装置专利，提高对电子变压器引线切割的速度

如何在Word中轻松设置和自定义文档目录格式的详细指南

TCL科技申请一种有机化合物及其制备方法、电子器件专利，具备良好的电子注入能力

大鲁电子取得一种电感器断线脚装置专利，可对处在配电柜深处的电感器线头进行剪切

太仓海震取得一种弹簧钢丝定点切断设备专利，保证对弹簧钢丝切断的稳定性

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响