KG+LM超越传统架构，海德堡提出全新图语言模型GLM

作者：新智元发布时间：2024-09-20

【导读】近日，来自海德堡大学的研究人员推出了图语言模型 (GLM)，将语言模型的语言能力和知识图谱的结构化知识，统一到了同一种模型之中。

语言模型（LM）的成功似乎掩盖了旁人的光辉。

比如知识图谱（knowledge graph，KG），这个整合了实体关系的结构化知识库。

通常来说，语言模型代表了语言能力，而知识图谱蕴含了结构信息。

长期以来，对于KG的利用大致可以分为两类：

第一类是将KG线性化后嵌入LM，这种做法并不能充分利用其结构信息；

第二类是使用图神经网络 (GNN) 来保留图结构，但GNN无法表示文本特征，也无法与LM的预训练特征结合。

——有没有办法结合二者的优点，既保留预训练LM的能力，又充分利用KG来增强模型对于图概念和三元组的理解？

当然有，不然小编就不会写，那就是来自海德堡大学的研究人员推出的图语言模型 (GLM)。

论文地址：https://aclanthology.org/2024.acl-long.245.pdf

GLM集成了两种方法的优势并弥补了它们的缺点。

作者使用预训练LM来初始化GLM的参数，同时又设计新的架构来促进有效知识分配，这使得GLM能够同时处理图和文本信息。

下表展示了对关系分类任务的实证评估结果，在这些较为复杂的任务中，模型需要对来自文本和图的互补输入进行推理，还需要推断不存在于文本中的信息。

数据表明，GLM在监督和零样本测试中，超越了基于LM和GNN的基线。

此外，通过线性探测实验，作者还证明了GLM的架构变化与原始LM权重高度兼容。

图语言模型

KG对于组织大量数据、促进信息检索，以及揭示决策中隐藏的见解至关重要。

KG擅长明确地表示多种关系，一般使用三元组的形式：节点是实体，边代表它们之间的关系，以下将这类复杂的结构统称为GoT。

为了有效地使用GoT，我们需要对其组件进行有意义的编码。

上面提到了利用语言模型和GNN的问题，本质上来说，两种结构由不同的基本原理驱动，LM利用语义编码，而GNN执行结构推理。

融合

在图语言模型的设计中，作者通过文本和结构信息的早期融合来解决这个问题。

首先是使用LM现成的参数来初始化——一方面是保留预训练的能力，另一方面是从头训练太贵了。

通过对LM的自注意力模块进行一些非侵入性的更改，将LM转换为Graph Transformers（GT），同时保持与其预训练参数的兼容性。

在对图进行编码时，LM用来处理三元组线性组织的文本信息，而GT则沿着图结构聚合信息。

因此，GLM继承了LM对三元组的文本理解，而其中的GT模块允许直接执行结构推理，无需额外的GNN层。

重要的是，文本序列可以看作一种特殊类型的图，在GLM中的处理模式与原始LM相同。

Graph Transformer的设计

Self-Attention中的Attention可以写成

除了熟悉的Q、K、V， Bp表示位置编码，而M为mask矩阵。

在Transformer中，位置编码 (PE) 用于通知语言模型文本中token的顺序。

包括绝对PE（对token的绝对位置进行编码）和相对PE（token对之间的相对位置），绝对PE通常加在输入序列里面。

相对PE为每个可能的距离学习一个标量：

对于GT来说，定义图中节点或边的绝对位置并不简单。因此，本文采用相对PE。

给定图中的有向非循环路径，我们可以将路径上任意一对节点之间的距离定义为节点之间的跳数，也就获得了相对距离（PE）。

M（mask）矩阵

在普通Transformer中，自注意力是针对输入中所有可能的标记对进行计算的。

相比之下，GNN中的节点通常只关注相邻节点，更远的节点之间的信息必须跨多个GNN层传播。

对于图来说，这种稀疏消息传递方法有时是首选，因为在大多数图中，邻域大小随着半径的增加呈指数增长。

因此，在GT中引入图先验可能是有益的，比如只在局部邻域计算自注意力（M中相连的节点对应设置为0）。

另一方面，事实证明，图的全局视图可以实现高效、远程的信息流。所以作者搞了两个版本：本地GLM和全局GLM。

如上图所示，G2G的连接就属于全局视野，本地GLM不处理这种关系。

在本地GLM中，自注意力机制仅限于来自同一三元组的token，而外部所有token的注意力都设置为 0（因此也不需要PE）。

尽管如此，因为属于一个概念的token可以由多个三元组共享，所以消息可以通过图跨多个层传播（类似于GNN中的标准消息传递）。

所以即使非相邻节点没有直接连接，仍然可以通过消息传递共享信息。

比如，在第一个本地GLM层中，「狗」通过三元组「黑色贵宾犬是一只狗」和「狗是一种动物」来表示。那么，在第二层中，「动物」的表示会受到「黑色贵宾犬」的影响，尽管两者之间没有直接联系。

另外，研究人员还形式化了全局GLM，（对标自注意力）可以将任何节点连接到每个其他节点。这种形式需要为任意token对设置PE，包括那些不在同一三元组中出现的token。

为此，全局GLM引入了新的图到图（G2G）相对位置。LM中没有学习G2G连接的参数，因此这里使用相对位置（ +∞ ）来初始化参数，表示相应的token出现在文本段落中很远的地方。

预处理

GT架构引入了图先验，而LM的参数初始化赋予了其语言理解能力。

对模型进行修改的整体思想是，三元组应该尽可能地类似于自然语言，以使LM能够学习，而图推理应该通过消息传递来工作。

类似于LM分词器将文本转换为词表中的向量，GoT也需要同样的处理以便GLM可以像LM那样处理图。

为了实现这一点，研究人员首先将GoT转换为Levi图，用包含关系名称作为文本特征的节点替换每条边，并将新节点连接到原始边的头部和尾部，保留原始边的方向。

接下来，将每个节点拆分为多个节点，每个新节点对应单个token，建立新的边连接相邻节点，保留原来的方向。

在这种表示中，每个三元组都表示为一个token序列，就像标准LM一样。

位置编码

如前所述，使用token对之间的相对位置进行编码，——只需将三元组视为一段文本，并计算该文本中的token距离。

请注意，转换后GoT的token序列，不一定与输入三元组的token序列完全相同。这里单独对Levi图中的每个节点进行标记，以确保多个三元组共享概念的一致。

当token不属于同一个三元组时，为了确定这些token对之间的距离，之前的工作考虑了它们之间的最短路径的长度。

然而，这中PE对于LM来说并不自然，因为如果在最短路径中以错误的方向遍历，三元组将以相反的顺序出现。

因此，本文省略了不具有结构信息的token之间的PE，使用局部 (ℓGLM) 和全局 (gGLM)。

实验结果

作者在两个关系（标签）分类实验中评估了GLM嵌入GoT的能力（对哪个关系属于给定的头实体和尾实体进行分类）。

ConceptNet子图实验用来分析结构图属性的影响；而在维基数据子图和相关维基百科摘要的实验，用于测试文本和图形交错输入的能力。

研究人员构建了一个平衡的英语CN子图数据集，其中包含13,600个训练实例、1,700个开发实例和1,700个测试实例，并以17个不同关系作为标签，将要预测的关系替换为T5模型的第一个掩码<extra_id_0>。

GLM对图进行编码，为每个token生成嵌入，线性分类头根据掩码的嵌入给出最终预测，这里使用静态模板来表达未屏蔽的关系。

ConceptNet子图中关系分类的实验表明，GLM优于基于LM和GNN的编码方法——即使继承的LM参数在GLM训练期间没有更新。

维基数据子图和维基百科摘要上的KG群体实验表明，GLM可以对GoT和文本的交错输入进行推理，是LM所不具备的新能力。

参考资料：

https://aclanthology.org/2024.acl-long.245/

本文来自微信公众号“新智元”，编辑：alan ，36氪经授权发布。

相关资讯

如何使用 Megatron-LM 训练语言模型

在 PyTorch 中训练大语言模型不仅仅是写一个训练循环这么简单。我们通常需要将模型分布在多个设备上，并使用许多优化技术以实现稳定高效的训练。Hugging Face Accelerate 的创建是为了支持跨 GPU 和 TPU 的分布式训练，并使其能够非常容易的集成到训练代码中。 Transformers 还支持使用 Trainer API 来训练，其在 PyTorch 中提供功能完整的训练接口，甚至不需要自己编写训练的代码。Megatron-LM 是研究人员用于预训练大型 Transformer 模

大语言模型 Hugging Face 编程

HuggingFace 2023-05-29

大语言模型与传统机器学习的架构差异性解析

大语言模型和传统机器学习有不同的设计框架，使得它们在应用场景和处理任务上具有显著差异。传统机器学习方法在资源和计算上的需求相对较小，适用于即时响应和高需求计算效率的应用场景。大语言模型和传统机器学习在架构上的…

大语言模型机器学习

英智未来 2024-01-17

360与智谱AI达成战略合作，共研大语言模型360GLM

DoNews5月16日消息，360公司16日宣布和智谱AI宣布达成战略合作，双方共同研发的千亿级大模型“360GLM”已具备新一代认知智能通用模型水准。360集团创始人周鸿祎曾多次表示,微软作为产业公司补齐了OpenAI的工程化、场景化、产品化和商业化能力，是微软和OpenAI珠联璧合的分工模式促成了这次人工智能拐点的涌现。

大语言模型微软 OpenAI 人工智能

DoNews 2023-05-16

超越Llama3，多模态比肩GPT4V：GLM-4智能体，新一代语言处理利器

在人工智能领域，自然语言处理技术一直备受关注。就在昨日,今年备受关注的国内AI公司北京智谱AI发布了第四代 GLM 系列开源模型：GLM-4-9B。这是一个集成了先进自然语言处理技术的创新平台，它凭借清华大学KEG实验室提出的GLM模型结构，为智能体功能的发展带来了新的突破的同时所有大模型全部保持开源，一系列商业化成果、技术突破让人眼前一亮。让我们一起揭开GLM-4的神秘面纱，探索其在代码执行、联网浏览、画图等领域的无限可能。模型介绍对于将构建 AGI 视为目标的智谱 AI 而言，不断迭代大模型

人工智能 AGI 清华编程

AI研习所 2024-06-20

AI视野：文心大模型4.0将发布;Stability AI发布移动端语言模型Stable LM3B;

大模型动态文心大模型4.0将发布百度正在加速训练文心大模型4.0，并计划在10月17日的百度世界大会上发布。这一新版本将是文心大模型3.5的重要升级，重点提升基础模型能力，尤其在逻辑推理、代码和数学等方面取得显著进展。AiBase提要:百度正快速推进文心大模型4.0的训练，预计将在10月17日的百度世界大会上发布。这一新版本将显著提升文心大模型的核心能力，包括理解、生成、逻辑和记忆，尤其在逻辑推理、代码和数学方面表现突出。如果一切顺利，文心大模型4.0的中文能力可能将超越GPT-4。美图视觉大模型3.

文心大模型 Stability AI 百度编程 GPT-4

今日AI大事件 2023-10-09

近期资讯

KG+LM超越传统架构，海德堡提出全新图语言模型GLM

图语言模型

融合

Graph Transformer的设计

预处理

实验结果

推荐体验

相关资讯

如何使用 Megatron-LM 训练语言模型

大语言模型与传统机器学习的架构差异性解析

360与智谱AI达成战略合作，共研大语言模型360GLM

超越Llama3，多模态比肩GPT4V：GLM-4智能体，新一代语言处理利器

AI视野：文心大模型4.0将发布;Stability AI发布移动端语言模型Stable LM3B;

近期资讯

外媒：三星可卷曲屏手机或将于2025年亮相

vivo V40e关键规格公布！天玑7300+5500mAh电池

NAS行业的“求变者”，鲁大师NAS进入收获期

全场景新品即将登场！华为秋季新品发布会定档9月24日

天玑9300+下放！iQOO Z9 Turbo+官宣：性能爆表续航爆表

大模型领域进展频频，人工智能ETF（159819）、云计算ETF（516510）等产品布局产业链龙头

吴泳铭：通义千问原生和衍生模型接近5万个，全球排名第二

击破谣言！实测iPhone 16全系可用微信

小米SU7推送澎湃OS 1.3.0 新增多项功能智驾再度升级

英国最大的超市集团拟用AI引导顾客买健康食品

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响