当前位置:首页|资讯|人工智能|AIGC|ChatGPT

“弈衡”通用大模型评测体系白皮书

作者:报报小猴发布时间:2023-08-03

原标题:“弈衡”通用大模型评测体系白皮书

人工智能大模型(以下简称大模型)是实现生成式人工智能服务(AIGC)的重要技术,ChatGPT上线两个月活跃用户(MAU)突破1亿,激发了大模型技术的爆发式发展,全球科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、META等,加快大模型研发,并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发,百度、腾讯、华为、阿里、中科院自动化所、智谱Al、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度,OpenAl、谷歌、百度已经在短短几个月内多次升级大模型版本,能力提升明显,大模型行业竞争激烈。

与此同时,随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型,泛化能力更强、灵活性更高、适应性更广,多任务、多场景,评测维度、评测指标和数据集更复杂,面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织,如OpenAl、微软、斯坦福大学、信通院,在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告,从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测,为用户和行业充分掌握大模型能力发挥了积极作用。

目前业界多家机构发布了大模型的评测榜单,但是评测维度及侧重点各有不同。从推动Al大模型成熟应用、促进生态繁荣、指引产业优化方向的角度,有必要从用户视角,构建一套客观全面、公平公正的大模型评测体系。

中国移动技术能力评测中心作为中国移动的专业评测机构,也在关注和跟进大模型评测技术发展。自2019年起陆续开展了专业公司31+N考核对标评测、技术中台能力准入等工作,涵盖人工智能、互联网、物联网、大数据、大视频等20余个领域1000余项产品和能力,积累了丰富的产品技术能力评测经验和数据。基于前期积累,对业界各类大模型评测技术进行了充分调研和评测验证,构建了“弈衡”通用大模型“2-4-6”评测体系,并基于该体系对已发布的大模型进行了广泛的评测。

随着大模型技术的不断发展,“弈衡”通用大模型评测体系也将持续迭代完善,希望通过发布《“弈衡”通用大模型评测体系白皮书》,与产业界相关企业和研究机构一道,加强交流合作,逐步完善测试指标、测试方法、测试数据、测试自动工具,共同建立评测产业标准化生态,为业界大模型评测提供参考依据,促进大模型技术的产业成熟和应用落地。

来源:弈衡


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1