CMU等提出超实用「模型泛化性」指标，分布外准确率提升6%

作者：新智元发布时间：2024-12-26

【导读】研究人员提出了一种新方法，利用类层次结构中的最低公共祖先（LCA）距离来评估深度学习模型的泛化能力，这比传统的准确率指标更有效。此外，通过基于LCA距离的软标签训练，模型在面对分布外数据时的准确率得到了显著提升，同时不影响其在训练数据上的性能。

当前许多深度学习分类模型通常在大规模数据中训练以找到足以区分不同类别的特征。

然而，这种方式不可避免地学到伪相关特征（Spurious Correlation），导致训练的分类器在分布偏移（Distribution Shift）下往往会失效。因此，如何在衡量一个训练好的模型的泛化性（Generalization）一直是一个关键问题。

现有方法通常利用Accuracy-on-the-Line作为模型泛化性的一个指标，即利用验证集的top-1 accuracy来衡量模型在分布偏移下的性能，该指标在同类模型中较为有效，但面对不同类型的模型（如视觉模型和视觉语言模型）时，往往无法统一而有效地预测泛化性能。

卡内基梅隆大学等机构的研究人员提出了一种新的泛化性评估方法：利用类层次结构（Class Hierarchy）中的最低公共祖先距离（Lowest Common Ancestor Distance, LCA Distance）来判断模型是否学到了更「合理」的特征。

论文地址：https://arxiv.org/pdf/2407.16067

项目地址：https://elvishelvis.github.io/papers/lca/

同时，通过基于LCA距离构建的额外损失函数，可以在OOD测试集上显著提高模型准确率，最高可达6%，且对分布内性能无负面影响。研究还发现，VLM学习到的特征分布更接近人类的语义定义，为解释VLM泛化性更好的现象提供了新的视角。

该研究已被ICML 2024接收为Oral Presentation，论文的第一作者史佳现任Google旗下自动驾驶公司Waymo研究工程师，从事基础模型（Foundation Models）的研究与应用；论文为史佳在卡耐基梅隆大学攻读计算机视觉硕士期间的研究成果；指导教授孔庶现任澳门大学助理教授。

判别式学习：伪相关特征的陷阱

大多数分类模型只关注训练数据中区分不同类别的所有元素（例如背景颜色、有无天空等），而不考虑这些元素是否与类别语义定义一致。

导致模型易于依赖训练数据中的伪相关特征，比如：

模型可能将「草地」这一背景特征作为「鸵鸟」类别的主要依据，因为在训练集中鸵鸟常出现于草地背景下。
然而，当测试集中出现的鸵鸟来自非草地背景（如卡通图像或雕塑）时，这些伪相关特征会使模型的泛化性能下降。

相比之下，具备更强泛化性的模型会关注诸如「长腿」和「长颈」等更符合人类对鸵鸟语义定义的特征，而非依赖背景等伪相关信息。

LCA距离：衡量泛化性能的新视角

研究人员认为，通过语义层次结构（如WordNet）可更准确衡量模型是否学到语义一致的特征。

LCA距离的思路

LCA距离用于衡量两个类在给定的语义层次结构中的距离。例如，类别「鸵鸟」与「火烈鸟」的语义比「鸵鸟」与「猎豹」的语义距离更接近。

当衡量真实类别与预测类别时，更小的LCA距离意味着即使模型预测错误，也更倾向于预测与真实类别在语义上更为接近的类别，从而体现模型对更符合语义特征的关注。

LCA距离为何有效？

LCA距离本质上反映了模型与人类先验知识的对齐程度（alignment），能展示模型学习的特征是否符合人类语义定义。语义更接近的错误预测（即更小的LCA距离）意味着模型学到了更具泛化性的特征。

当模型学到与人类语义定义更一致的特征时，即便预测错误，也更可能落在语义相近的类别上

传统「Accuracy-on-the-Line」的局限性

过去，「Accuracy-on-the-Line」假设认为模型在分布内（In-Distribution, ID）测试集上的准确率可用于预测其在分布外（Out-of-Distribution，OOD）测试集上的性能。

对传统视觉模型（Vision Models，VMs）而言，这种关系在一定程度上成立。然而，引入视觉-语言模型（Vision-Language Models，VLMs）后，情况出现了转变。

VLMs使用大规模多模态数据和不同的训练范式（如从互联网图像与文本中进行训练）。

结果显示，VLMs在ID准确率较低的同时展现出更高的OOD准确率，并与VMs形成了两条截然不同的趋势线（如下图左图所示），破坏了Accuracy-on-the-Line中的线性关系。因此，传统的ID准确率指标已无法统一衡量这两类模型的泛化性能。

LCA-on-the-Line：LCA距离是一种更统一的泛化性指标

通过LCA距离分析模型错误预测的语义距离，可判断模型是否依赖于伪相关特征。实验显示，分布内测试集上的LCA距离与模型在OOD测试集上的性能之间存在强相关性。

在实验中，研究对象包括36个VMs和39个VLMs，以ImageNet为分布内测试集（ID dataset），并在包括ImageNet-Sketch、ObjectNet在内的五个分布偏移测试集（OOD datasets）上测试。结果显示：

恢复线性关系：与传统ID准确率不同，LCA距离在所有OOD测试集上均表现出更强的线性相关性（如下图右图所示）。例如，在ObjectNet上，LCA距离与OOD性能的相关性达到0.95，而ID准确率仅为0.52。

VLMs的优势：尽管部分VLMs在ID数据上的表现不及VMs，但其LCA距离明显更低，显示出在泛化性上的明显优势。

LCA距离是一种更统一的泛化性指标

LCA距离通过软标签提升模型泛化性能

传统分类任务中，模型通常采用单热编码（One-Hot Encoding）与交叉熵损失（Cross-Entropy Loss）训练。这隐含了一个强假设：真实类别之外的所有类别相互等同，且应赋予相同的低概率。

单热编码过度强调类别间的区分，这可能导致模型即使在语义相近的类别（如「猫」和「狗」）之间，也努力最大化分类边界，从而增加对伪相关特征（如背景）的依赖，而忽略了类别间的共享特征。

为了解决此问题，研究人员基于LCA距离引入软标签（Soft Labels），为语义更近的类别赋予更高权重。例如，真实类别为「狗」时，与其语义接近的「猫」可能获得0.7的权重，而与「飞机」仅有0.1。

这一策略使模型的学习目标得到正则化，引导其关注语义一致的特征，从而减少对伪相关特征的依赖。

实验显示，LCA距离引导的软标签可显著提升模型在OOD测试集上的泛化性能，准确率可提升最多6%，且不影响ID准确率。

泛化到任何数据集：从WordNet到隐式层次结构

虽然LCA距离最初依赖WordNet等预定义类层次结构，但并非所有数据集都有现成的层次结构。对此，本研究论文提出了一种简单的自动生成隐式层次结构（Latent Hierarchy）的方法：

特征提取：使用预训练模型提取每个类别的平均特征向量。

层次聚类：对这些特征进行分层K-mean聚类，构建类别关系的层次结构。

LCA距离计算：基于隐式层次结构计算类别间的LCA距离。

实验显示，使用不同预训练模型生成的隐式层次结构所计算的LCA距离在OOD泛化性能预测（下图左图）与提升（下图右图）方面与基于WordNet的层次结构具有类似效果，说明LCA距离具有普适性，能够适应无预定义层次结构的数据集。

为什么VLM泛化性更好？

此项研究还为解释VLM泛化性能优势提供了新的思路：VLM的高层次特征分布更符合人类语义定义。

实验显示，使用VLM生成的隐式层次结构所生成的软标签在提升模型泛化性能方面优于VM。

这说明VLM所学习的特征分布更接近人类语义，从而在OOD场景下表现更为出色。

X轴反映了不同的预训练模型生成的隐式结构提高模型泛化性的程度，由此可见，VLM生成的隐式结构能够更好的提高模型泛化性。

总结与展望

LCA距离是统一的泛化性指标

只依赖模型预测的类别间LCA距离，不受训练数据分布、模型结构或temperature等参数的影响。因此，它能够统一衡量包括VM和VLM在内的多种模型的泛化能力，并且计算高效。

LCA距离可提升泛化性能

基于LCA距离引入软标签可以引导模型关注与人类定义更为语义一致的特征，从而有效减少对伪相关特征的依赖，并有望在few-shot、预训练（pre-trained）等场景中加速模型收敛。

LCA距离提供了解释VLM泛化性能的新思路

实验显示VLM所学习的特征分布更贴近人类语义定义，帮助解释为何VLM在OOD测试中表现更优。

LCA距离体现了模型与人类先验知识的对齐

本文研究中使用的WordNet可替换为任何包含先验信息的语义层级或知识图谱，这一特性有望应用于其他与对齐（alignment）相关的任务。

参考资料：

https://arxiv.org/pdf/2407.16067

本文来自微信公众号“新智元”，编辑：LRST ，36氪经授权发布。

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6%

判别式学习：伪相关特征的陷阱

LCA距离：衡量泛化性能的新视角

总结与展望

推荐体验

相关资讯

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

策略产品经理必读系列第七讲：机器学习分类任务基础评估指标AUC、召回率、准确率

GPT-4 MATH准确率最高涨至84.3%，港中文、清华等七所顶尖高校提出全新CSV方法

准确率最高的计划软件

黑马计划软件准确率高

近期资讯

4年闭店超2500家，体育零售巨头艰难转身

TikTok博主花式秀中国，带火China travel风

《爆肝整理》保姆级系列教程-玩转Charles抓包神器教程(8)-Charles如何进行断点调试

2024海外本土电商崛起，中国商家成“抢手货”

2024，刷新美国药圈融资纪录的创业公司，为何“独爱”这种中国新药｜行业Mapping

开发 AI 应用的无敌配方，半小时手搓学英语利器

欧莱雅加速平价化；耐克学习阿迪达斯复苏计划；瑞幸在香港连开五店｜品牌周报

她闯入VC圈

评论区哭穷，下单就能便宜？

韩国婚育问题迎拐点？结婚人数连续7个月增长，全年生育率有望反弹

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响