『弈衡』人工智能大模型评测平台白皮书(2024年)-中移智库
报告共计:21页
《『弈衡』人工智能大模型评测平台白皮书(2024年)》由中移智库发布,介绍了构建AI大模型评测平台的必要性、业界现状以及中国移动的“弈衡”平台。
随着AI大模型的广泛应用,其评测面临诸多挑战,如人工评测效率低下、组织有效性不足等。构建高效、系统化且可信赖的评测平台至关重要,需提高评测执行成效、加强全面客观性、增强结果管理规范性、保障评测体系演进性。
业界典型大模型评测平台包括OpenCompass、AgentBench、OpenEval和百度大模型内容安全评测平台等,它们具有评测全面、方式多样、高效分布式、开源可复现等优势,但也存在缺乏统一标准、安全性和公正性问题、数据集局限、技术门槛高以及分布式评测资源需求高等局限性。
中国移动的“弈衡”大模型评测平台具有以下特点:设计原则上强调智能化自动化、灵活可扩展性和交互体验设计;整体架构采用分层与模块化设计,包括底层能力层、评测管理层、评测执行层、结果分析层和行业应用层;特色及创新点包括对标国际一流的评测体系、基于大模型技术的智能化结果评判和基于自组织的端到端自动化流程,创新点为用大模型测试大模型和自动化智能评测引擎;主要功能包括数据与模型管理、评测流程管理和结果分析与展示;优势包括多维度评测体系达业界一流水平、具备“一键测试”功能、可拓展性强、效率高且可靠。
未来,“弈衡”平台将扩展评测需求,创新评测技术,构建和共享评测数据,并构建完善的评测生态,推动各方深度合作。
以下为报告节选内容