金融界2024年11月4日消息,国家知识产权局信息显示,北京远鉴信息技术有限公司申请一项名为“一种说话人分割聚类方法、装置、电子设备及存储介质”的专利,公开号CN 118887960 A,申请日期为2024年9月。
专利摘要显示,本发明涉及说话人分割聚类技术领域,尤其涉及一种说话人分割聚类方法、装置、电子设备及存储介质,该方法包括:根据音频数据中在初始说话人转换点对应前一个初始音频数据段的声源方向与后一个初始音频数据段的声源方向的差值,从初始说话人转换点中筛选目标说话人转换点;基于所有目标说话人转换点分割音频数据,得到目标音频数据段;构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵;基于相似度矩阵对所有目标音频数据段、所有历史音频数据段进行谱聚类,得到说话人聚类结果。本申请能够对音频数据进行说话人分割聚类,提高了说话人分割聚类的准确率。
来源:金融界