通用大模型评测体系白皮书（附下载）

作者：AIGC学派发布时间：2023-08-20

今天分享的是大模型系列深度研究报告：《通用大模型评测体系白皮书》。（报告出品方：奕衡）

精选报告来源公众：人工智能学派

报告共计：24页

【报告内容摘要如下】

人工智能大模型（以下简称大模型）是实现生成式人工智能服务（AIGC）的重要技术。ChatGPT上线两个月活跃用户（MAU）突破1亿，激发了大模型技术的爆发式发展，全球科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、META等，加快大模型研发，并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发，百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度，OpenAI、谷歌、百度已经在短短几个月内多次升级大模型版本，能力提升明显，大模型行业竞争激烈。

与此同时，随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型，泛化能力更强、灵活性更高、适应性更广，多任务、多场景，评测维度、评测指标和数据集更复杂，面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织，如OpenAI、微软、斯坦福大学、信通院，在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告，从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测，为用户和行业充分掌握大模型能力发挥了积极作用。

文本类大模型：此类模型需要能够依据提示创作符合需求的文本内容，并依赖知识和文本逻辑，推理并回答用户问题。在文本生成任务中，主要考察模型生成内容是否满足使用者要求，并具备正确性、流畅性、规范性和逻辑性；在知识应用任务中，则需要模型覆盖尽可能多的领域，并具备一定深度，同时还应具备对知识的理解与运用能力；在推理任务中，还需对模型生成内容是否符合人类思维的判断、推理过程质量、推理过程与答案一致性、数值计算正确性等指标进行评估。

图像类大模型：此类模型需要识别并定位图像中的各种物体，对其进行分类，并将不同对象或区域分割开来，在此基础上，通常还要求模型根据给定的描述生成新的图像。在图像分类任务中，核心指标包括分类的准确性、鲁棒性及对新类别的泛化能力；物体检测任务更关注对复杂场景的处理能力和检测的准确率、覆盖率；图像分割任务更能体现模型对细节的处理能力；对于图像生成任务，对于图像质量和创新型的评测需要更综合的评测方法。

【内容看点】