今天分享的是大模型系列深度研究报告:《通用大模型评测体系白皮书》。(报告出品方:奕衡)
精选报告来源公众:人工智能学派
报告共计:24页
【报告内容摘要如下】
人工智能大模型(以下简称大模型)是实现生成式人工智能服务(AIGC)的重要技术。ChatGPT上线两个月活跃用户(MAU)突破1亿,激发了大模型技术的爆发式发展,全球科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、META等,加快大模型研发,并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发,百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度,OpenAI、谷歌、百度已经在短短几个月内多次升级大模型版本,能力提升明显,大模型行业竞争激烈。
与此同时,随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型,泛化能力更强、灵活性更高、适应性更广,多任务、多场景,评测维度、评测指标和数据集更复杂,面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织,如OpenAI、微软、斯坦福大学、信通院,在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告,从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测,为用户和行业充分掌握大模型能力发挥了积极作用。
文本类大模型:此类模型需要能够依据提示创作符合需求的文本内容,并依赖知识和文本逻辑,推理并回答用户问题。在文本生成任务中,主要考察模型生成内容是否满足使用者要求,并具备正确性、流畅性、规范性和逻辑性;在知识应用任务中,则需要模型覆盖尽可能多的领域,并具备一定深度,同时还应具备对知识的理解与运用能力;在推理任务中,还需对模型生成内容是否符合人类思维的判断、推理过程质量、推理过程与答案一致性、数值计算正确性等指标进行评估。
图像类大模型:此类模型需要识别并定位图像中的各种物体,对其进行分类,并将不同对象或区域分割开来,在此基础上,通常还要求模型根据给定的描述生成新的图像。在图像分类任务中,核心指标包括分类的准确性、鲁棒性及对新类别的泛化能力;物体检测任务更关注对复杂场景的处理能力和检测的准确率、覆盖率;图像分割任务更能体现模型对细节的处理能力;对于图像生成任务,对于图像质量和创新型的评测需要更综合的评测方法。
【内容看点】
(本“人工智能学派”已获上百家出品方授权。本文仅供参考,不代表我们的任何立场。如需使用相关信息,请参阅报告原文,内容版权归原撰写/出品方所有。)
报告共计:24页
受篇幅限制,仅列举部分内容。
海量精选报告来源公众号“人工智能学派”