金融界2024年10月18日消息,国家知识产权局信息显示,腾讯科技(深圳)有限公司申请一项名为“基于大模型集群训练的故障处理方法及相关装置”的专利,公开号 CN 118784458 A,申请日期为2024年9月。
专利摘要显示,本申请的实施例揭示了基于大模型集群训练的故障处理方法及相关装置。该方法包括:周期性采集大模型训练集群中各个节点的通信流量;当检测到所述大模型训练集群出现训练中断,获取中断时段并根据各个节点分别在各个流量采集时刻的通信流量,计算所述中断时段包含的各个流量采集时刻分别对应的通信总流量;根据所述中断时段内各个流量采集时刻分别对应的通信总流量,确定出通信中断时刻;根据各个节点分别在所述通信中断时刻的通信流量,确定出故障节点。本申请的实施例能够实现大模型训练集群中的故障节点的快速定位。
来源:金融界