评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

作者：量子位发布时间：2024-11-08

上交大MIFA实验室魏来投稿

量子位 | 公众号 QbitAI

能够深入大模型内部的新评测指标来了！

上交大MIFA实验室提出了全新的大模型评估指标 Diff-eRank。

不同于传统评测方法，Diff-eRank 不研究模型输出，而是选择了分析其背后的隐藏表征。

该方法从 信息论和几何的视角，分析大模型的隐藏表征，量化大语言模型在训练前后如何剔除数据中的冗余信息，并以此作为衡量模型性能的指标。

对于多模态大模型，研究团队也设计了 基于秩的评估方法，用于衡量不同模态之间的 对齐程度。

目前， 本工作已被NeurIPS 2024接收。

将评估深入到大模型内部

在进行Diff-eRank的相关工作之前，作者首先提出了这样一个问题——

一个语言模型是如何从海量的训练数据中「学习」到知识的？

对于这个问题，前OpenAI科学家 Ilya Sutskever在2023年的演讲中曾经这样说：

大语言模型海量数据中训练时，会逐步消除其表征空间中的冗余信息，使得数据的表征变得更加规整、结构化。

这个过程类似于「去噪」，即模型逐渐剔除数据中的无用信息，同时提取出更重要的模式和特征。

传统的评估方法多集中于模型在下游任务上的表现，例如准确率 (Accuracy) 、交叉熵损失 (Cross-Entropy Loss) 等指标。

但这些方法只关注模型的预测结果与标注标签之间的比较，无法深入探究模型内部的信息处理过程。

换言之，之前并没有研究提出可靠的指标来定义和量化这个「去噪」过程。

在此背景下，研究团队引入了有效秩的概念（Effective Rank，简写为eRank），用于反应大模型表征空间的不确定性或混乱程度。

这是一种基于模型表征的「有效秩」的评估指标，从信息论和几何学的角度分析并量化大语言模型在训练前后如何剔除冗余信息，并以此衡量模型性能。

大模型在训练时去除数据中的冗余信息，eRank减小，模型的表征变得更加结构化和紧凑。

因此，研究团队提出了Diff-eRank，通过分析大语言模型的表征的有效秩在训练前后的变化幅度，来评估大模型的「去噪能力」。

Diff-eRank提供了一个基于模型表征的全新评估方法，并且具有良好的理论基础与可解释性，为理解大模型的工作原理提供了独特的视角。

Diff-eRank的构造过程

大模型在处理一系列输入时，它会为每个 token 生成一个高维表征。

这些表征通常可以捕捉输入的语义和句法信息。

因此，研究团队考虑分析这些表征来评估大模型的性能。

具体而言，团队选择从几何和信息论的角度研究这些表征的秩。

秩可以衡量它们这些表征的线性相关程度，对应于表征空间的有效维度（即几何结构）。

此外，秩还与这些表征所包含的信息量有关：较低的秩代表信息已被结构化或压缩。

因此，作者通过分析大模型表征的秩来进行模型评估。

协方差矩阵的构建

给定一个句子中tokens的表征集，协方差矩阵构建如下：

其中是表征的均值。

有效秩 (eRank)

由于秩对异常值非常敏感，因此研究团队使用秩的一种连续形式，称为有效秩（eRank）。

给定任何非零矩阵，其有效秩定义为：

其中，是矩阵的奇异值。

值得注意的是，eRank与信息论中的熵的概念有着紧密的联系。

上面构造的协方差实际上就是一个标准的 「概率密度矩阵」。

从信息论的角度，此处的有效秩可以理解为表征空间中的不确定性（具体解释可阅读原论文）。

Diff-eRank的定义

给定一个句子，一个未训练的语言模型和一个训练完毕的语言模型，可以得到这两个模型的表征和。

对于句子，这两个模型之间的有效秩差异（Diff-eRank）定义如下：

其中是模型在句子上的表征的协方差矩阵，其中。

进一步，当给定一个数据集及其包含的句子，一个未训练的语言模型和一个训练完毕的语言模型时，数据集上的Diff-eRank可以被定义为和在所有句子上的有效秩的平均值之差。

由此可以看出，Diff-eRank 反映了模型表征空间的降维，也可以用于衡量大语言模型去除数据中冗余信息的程度。

较高的Diff-eRank表明模型的内部表征更加有序和结构化，体现了模型可以有效提取数据中的模式和规律。

用Diff-eRank评估大模型可有效评估语言模型

研究团队使用OPT模型家族，在多个数据集上计算了Diff-eRank。

由于损失（Loss）是最常用于观测预训练模型的指标，因此团队采用模型在训练前后交叉熵损失的减小量 (Reduced Loss) 作为对比。

作者在不同类型的数据集（如Wikipedia、openwebtext2、dolly-15k和hh-rlhf）上使用Diff-eRank和Reduced Loss对OPT模型家族进行了评估。

实验结果发现，Diff-eRank和Reduced Loss都随着模型规模的扩大而上升。

这一趋势说明更大规模的模型在信息压缩和冗余消除方面表现得更加出色。

这也体现了Diff-eRank可以从「去噪」角度为语言模型提供新的评估方法。

为了进一步验证Diff-eRank的有效性，作者在基准测试数据集上，引入准确率作为比较指标。

实验结果如下图显示，这三个指标在测试集上基本都在模型规模增加时变大。

而且与Loss相比，Diff-eRank与准确率的趋势更加一致，说明Diff-eRank可以有效地用于评估语言模型。

除了OPT之外，作者还用Cerebras-GPT和OpenELM家族进行了实验。

下图的实验结果体现 Diff-eRank 在不同模型家族中，都随着模型规模的上升而增加，并与 Reduced Loss 和基准测试准确率趋势相关，体现了 Diff-eRank 对不同模型家族的稳定性。

多模态大模型也能评估

Diff-eRank背后的思想还可以拓展用于多模态大模型的评估。

例如，在视觉-语言多模态大模型中，可以通过借助表征的有效秩分析视觉和语言表征的匹配程度来衡量模型的模态对齐性能。

对于多模态实验，作者选择了两个最有名的开源多模态大模型：LLaVA-1.5和MiniGPT4-v2。

这两个多模态大模型都使用了一个简单的连接器来对齐视觉编码器与大语言模型。

作者在detail_23k和cc_sbu_align这两个高质量的多模态指令数据集上进行实验。

这些数据集中的每条数据都是由图像、指令和响应组成的三元组。

实验中，作者将每个三元组的指令和响应拼接作为文本输入。

如上图所示，文章中的实验包括分析视觉编码器后图像表征的有效秩（），连接器的表征的有效秩 ( )，以及大语言模型对单个图像输入 ( ) 、文本输入 ( ) 和图像-文本对输入 ( ) 的表征的有效秩。

为了衡量多模态大模型的「模态对齐」能力，研究团队引入了两个基于 eRank的不同指标：

图像压缩比可以量化图像表征从视觉编码器到连接器的有效秩的减少，评估连接器在图文对齐训练中压缩和提炼视觉信息的效率。

图像-文本对齐指标可以评估大语言模型对图像、文本和图像-文本对的表征的有效秩之间的接近程度，进而反映不同模态的对齐程度。

下面的表中展示了LLaVA-1.5和MiniGPT-v2在不同数据集上均有较高的对齐分数，说明它们对齐良好。

具体而言，LLaVA-1.5在「图像-文本对齐」方面优于MiniGPT-v2，表明在视觉和文本模态之间的对齐更紧密。

这也与LLaVA-1.5在大部分测试集分数优于MiniGPT-v2的现象一致。

此外，研究团队还进行了额外的实验，计算了对图像进行顺时针旋转操作后的有效秩。

下面表中的结果表明，所有与图像相关的量 ( ( )) 在执行旋转后都会上升，这说明多模态模型能 感知图像的细微语义变化，尤其是位置信息。

图像旋转后，图像压缩比和图像-文本对齐分数均下降，表明连接器在压缩视觉信息方面效果变差，以及旋转后的图像与相应文本对齐性变差。

这些基于秩的方法可以使人们能够深入了解多模态模型如何对齐不同模态的数据，以及模型如何处理和整合不同形式的输入数据。

结论与展望

Diff-eRank作为一种全新的评估指标，提供了一个独特的理论视角去理解和分析大模型的一种工作原理。

Diff-eRank不仅有助于评估大模型的 「数据去噪」能力，还可能为模型压缩（如剪枝、量化、蒸馏等）等技术的发展提供新的视角。

作者期待，未来更多的研究者可以进一步拓展Diff-eRank的应用。

团队简介

MIFA实验室全称Machine Intelligence Foundations and Applications Laboratory，即机器智能基础与应用实验室，隶属于上海交大清源研究院，负责人为黄维然副教授。

目前，MIFA 实验室和多所知名高校、国家实验室、三甲医院以及业界大厂保持着紧密的学术合作与交流关系。

本文共同第一作者为上交大MIFA实验室的博士生魏来和清华大学的博士生谭智泉，通讯作者为上海交通大学黄维然副教授，共同作者包括来自William and Mary的王晋东助理教授。

论文地址：

https://arxiv.org/abs/2401.17139

代码：

https://github.com/waltonfuture/Diff-eRank

— 完—

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容 ‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

近期资讯

算家云 2024-11-04

瞰景科技邀您参加CHINTERGEO2024中国测绘地理信息技术装备展览会

2024年11月6-8日，CHINTERGEO中国测绘地理信息技术装备展览会（以下简称：CHINTERGEO）将于武汉中国光谷科技会展中心隆重举行。瞰景科技将展出Smart3D实景三维、卫星建模、点云融合、实时建模（KRMS、独行侠等）、KWS高性能硬件、虚实融合、国产信创等方面产品，诚挚地邀请广大朋友莅临瞰景科技TD09展位，共赢未来！瞰景科技将携手华泰天宇联合参展。独行侠单人便携实时建模瞰景科技推出“独行侠”单人便携实时建模系统，将无人机、实时传输模块、实时重建软件、实时处理高性能硬件进行深度

瞰景Smart3D 2024-11-04

实时视频美颜平台架构设计：基于美颜SDK的开发方案

时下，大家对美颜功能的要求越来越苛刻，实时视频美颜SDK应运而生。而要构建一个高效的美颜平台，合理的架构设计和美颜SDK的运用成为关键。一、实时视频美颜平台的整体架构设计实时视频美颜平台的核心目标是实现高效、稳定的美颜效果，同时确保系统的扩展性和兼容性。通常，实时美颜平台可以划分为以下几个模块： 1.前端用户界面：负责用户交互，支持用户调整美颜参数，提供预览效果。 2.美颜处理模块：这是平台的核心，用于实时处理视频帧并应用美颜效果。 3.视频流管理模块：处理视频的采集、传输与解码，确保视频数据的实

美狐美颜SDK 2024-11-04

水质全参数测定仪的检测准确性探究

随着科技的发展，水质检测设备也在不断升级，为人们的生活提供了更多的便利。水质全参数测定仪作为一种新型的水质检测设备，其检测准确度备受关注。本文将从多个方面探讨水质全参数测定仪的检测准确性。我们需要了解水质全参数测定仪的基本原理。水质全参数测定仪通过测量水中的各种参数，如pH值、电导率、浊度、溶解氧等，来评估水质的好坏。这些参数的测量结果可以直观地反映出水中的各项指标，为水资源的合理利用和保护提供依据。我们要关注水质全参数测定仪的技术水平。在市场上，有很多品牌和型号的水质全参数测定仪，它们的技术水平参差

迈德施科技应用 2024-11-04

评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

推荐体验

相关资讯

用AI评估AI，上交大新款大模型部分任务超越GPT-4，模型数据都开源

机器学习之模型评估指标

AI版AppStore重磅上线；大模型手机密集下场；上交大新款大模型部分任务超越GPT-4丨AI新零售早报

LLM评估：通过7大指标监测并评估大语言模型的表现

常见文本生成评价指标——机器学习评估指标

近期资讯

总氮检测仪的应用环境需求解析

AI浪潮下的智算中心新趋势：博大数据副总裁杨忠君谈算力基础设施的“九大关键变化”

采集Ethercat 转 EthernetIP项目案例

家电配件自动化——机械定时器自动化组装线

新品上市｜V口热插拔不间断电源震撼来袭！双11限时八折优惠，各大经销商皆有售！

2024年八款风头无两的企业级加密系统|企业级加密系统高能测评

hunyuan-DiT模型部署指南

瞰景科技邀您参加CHINTERGEO2024中国测绘地理信息技术装备展览会

实时视频美颜平台架构设计：基于美颜SDK的开发方案

水质全参数测定仪的检测准确性探究

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响