“知识是人工智能的动力”,知识工程旨在研究解决人类知识的机器表征与计算问题,是人工智能学科重要的分支。知识工程由图灵奖获得者 Feigenbaum 在1977 年第五届国际人工智能大会上首次提出,但与之相关的研究工作却可以追溯到 20 世纪 50 年代,贯穿人工智能的整个发展历程。
▲专家系统的基本结构
▲20世纪 5 个著名的专家系统
早在 1956 年,计算语言学的先驱之一 Richens 就设计了 Semantic Nets 作为机器翻译的中间语言,这是后续语义网络与知识图谱的雏形。1958 年,另一位图灵奖获得者,也是“人工智能”概念的提出者 McCarthy 发明了支持符号推理的LISP 语言,该语言成为知识工程的重要工具。1965 年,Feigenbaum 与化学家Lederberg 合作研发了第一款专家系统 DENDRAL,用于识别未知的有机分子。20 世纪 70 年代,人工智能进入第一个“寒冬期”,但知识工程却得到了迅猛发展,并一直延续到 80 年代。主要进展包括三个方面:一是具有模式匹配、自动回溯能力的逻辑编程语言PROLOG;二是各种类型的知识库,如常识知识库Cyc、语义词典 WordNet;三是不同领域的专家系统,如用于感染菌诊断的 MYCIN系统、帮客户配置计算机的 Xcon 系统。这一时期,我国在该领域也取得一系列重要成果。吴文俊院士在自动推理方向提出了“吴消元法”。陆汝钤院士设计了知识工程语言 TUILI,并牵头研制了专家系统开发环境“天马”。人工智能史学家 McCorduck 对这一时期知识工程的快速发展进行了分析,她认为主要原因在于人们意识到智能很大程度上取决于知识处理。
90 年代,人工智能进入第二个“寒冬期”,这次知识工程未能幸免。主要原因在于传统知识工程暴露出一系列缺陷,除了众所周知的“知识获取瓶颈”外,传统知识工程还难以应对感知型任务以及需要常识、跨领域知识的任务。在实际工程问题中,这类任务广泛存在。
郑庆华教授团队正是在人工智能的第二个“寒冬期”开始从事该领域的研究,重点围绕专家知识库构建、规则冲突检测与消解、规则调度引擎三个问题开展了研究,所提的系列算法用于解决财政税收领域的预算外票据异常检测、加工企业冷轧工艺流程优化等实际工程问题。第一次尝试解决了人工难以解决的问题,在检测精度和生产效率方面取得了不错的效果。但是,这些问题总体上还属于场景确定、规则明确、边界清晰的简单问题。对于场景动态、规则事先未知、边界模糊的复杂问题,如偷逃骗税行为识别、无人驾驶、学习内容个性导航等,当时的研究工作还难以适用。以偷逃骗税行为识别为例,研究工作就面临了“知识获取瓶颈”困境,引发该问题的原因在于:偷逃骗税行为通常盘根错节、花样翻新,加上税收政策不断改革调整。因此,即便是资深的税务专家,也很难总结出比较系统完备的识别规则。由此,逐渐意识到知识工程不能仅靠专家知识。一方面,专家系统面临人工成本过高、专家经验局限等困境;另一方面,专家系统难以适应场景动态、规则不清的问题,必须从实际场景和数据中动态挖掘知识,并运用知识才能求解实际工程问题。
时代是出卷人。21 世纪,随着大数据时代的来临,知识工程面临了新的机遇和挑战,大数据知识工程应运而生。其核心任务是将大数据环境下散、杂、乱的碎片知识转化为机器可表征、可计算的结构化知识,这是教育、政务、金融、医疗等各领域面临的从信息化迈向智能化的共性需求和必由之路。麦肯锡全球研究院报告指出,知识工程是决定未来经济的 12 大颠覆性技术之一,具有广阔的应用和产业前景,将创造 5.2 万亿美元的产值,相当于 1.1 亿劳动力创造的价值。
然而,大数据知识工程面临了全新的理论和技术挑战,具有数据跨源、知识跨域、表示跨媒体的特点,面临着如何将空间分散、模态多样、内容片面、关联复杂的碎片知识融合生成知识体系的科学问题。传统的数据库、专家系统等无法解决此问题,知识图谱难以刻画层次化跨域知识体系,因而急需理论创新。作为大数据知识工程领域的开拓者,郑庆华教授团队在 2011 年提出知识森林原创性概念,建立了以知识森林为核心的大数据知识工程理论与技术体系。提出知识森林概念的灵感源自认识论中“既见树木、又见森林”的启发,创造性地利用“树叶—树木—森林”表示“碎片知识—主题知识—知识体系”,建立了从碎片知识到知识体系的形式逻辑,揭示了大数据环境下碎片知识的时空特性和分布规律,建立了层次化、主题化的知识森林模型,并研制了知识森林构建、推理等一系列模型、算法和工具,初步构建了一套大数据知识工程理论和方法,实现“数据拟合+规则归纳”和“数值计算+符号推理”两两优势互补的大数据知识工程新范式,推动知识工程从专家获取知识朝着从大数据中挖掘和融合知识的跨越发展。
▲与“三角形”相关的知识森林实例
▲知识森林示意图
▲知识森林的自动构建过程
大数据知识工程理论的价值在于,作为“知识引导+数据驱动”方式的融合体,能够突破传统深度学习模型固有的过程黑盒、参数规模大、训练代价高等深层问题。同时,其实用价值也在金税工程偷逃骗税行为识别、在线教育知识森林个性化导学等实际应用中得到证实。此外,该成果还成功应用于金融风险管控、司法卷宗事件溯源等领域。
大数据知识工程虽然取得了长足的进展,但仍然是一个新兴的研究领域。人工智能在由感知智能逐步迈向认知智能的过程中,对知识的获取、表征、记忆、推理等环节提出了新的挑战,特别是在复杂、时变、异质大数据环境(视觉知识、常识知识等)下,知识的获取与表征、因果推理与可解释机器学习、脑启发的知识编码与记忆等方向还面临很多悬而未决的难题。
《大数据知识工程》梳理了郑庆华教授团队及国内外同行在大数据知识工程领域的阶段研究成果,系统地呈现给读者,可帮助读者把握该领域的发展脉络,了解经典的模型与算法,明确未来的研究方向,力争成为读者进入该研究领域的“敲门砖”。
全书共 9 章,其组织结构如下图所示。大数据工程涉及的内容繁多,本书力求涵盖大数据知识工程相关的基本概念及关键技术。
▲全书组织结构
第 1 章主要内容是大数据知识工程概述,先介绍了知识工程的背景、目的、意义和典型例子,然后从传统知识工程到大数据知识工程,分析了大数据知识工程面临的问题及其与新一代人工智能的关系。
第 2 章介绍大数据知识工程的“三跨”特点和面临的散、杂、乱三个挑战,提出大数据知识工程的“数据知识化→知识体系化→知识可推理”通用研究框架。
▲大数据知识工程的研究框架
第 3~6 章分别介绍大数据知识工程的 4 个核心环节,其中第 3 章总结知识表示的研究现状与趋势,介绍传统的知识表示方法及三种大数据知识表示方法。第4 章阐述大数据时代碎片知识的获取与融合,介绍知识图谱、逻辑公式和知识森林的自动构建方法。第 5 章阐述知识表征学习的研究现状与趋势,并分别给出知识图谱、异构图和逻辑公式三种不同知识结构的表征学习方法。第 6 章分别阐述传统知识推理方法、带有记忆的推理模型和符号化分层递阶学习模型,并论述知识推理在知识检索和智能问答中的应用。
第 7 章分别介绍教育、税务、网络舆情领域的大数据知识工程应用案例,分别是知识森林个性化导学、智能化税务治理、网络舆情的智能监控。
第 8 章分别从复杂大数据知识获取、知识引导+数据驱动的混合学习、脑启发的知识编码与记忆三个方面论述大数据知识工程的未来研究方向。
第 9 章对全书进行总结。
大数据知识工程
郑庆华 等 著
北京:科学出版社,2023.1
ISBN 978-7-03-073165-4
责任编辑:宋无汗
作者简介
郑庆华,博士,教授,国家杰出青年基金获得者,国家自然科学基金创新群体负责人,教育部创新团队和陕西省重点科技创新团队负责人,“计算机网络与体系结构国家级教学团队”负责人,获得3项国家科技进步二等奖,国家教学成果一等奖和二等奖2项以及6项省部级科技进步一等奖。现任智能网络与网络安全教育部重点实验室主任,国家督学,教育部科技委学部委员,教育部大学计算机教学指导委员会主任。获得何梁何利基金科技奖、中国科协“求是”杰出青年奖、中国青年科技奖、国务院政府特殊津贴专家、宝钢优秀教师特等奖、全国高等学校优秀骨干教师、Google中国优秀教师奖、IBM中国优秀教师、全国信息产业科技创新先进工作者等荣誉。研究领域:大数据知识工程。
内容简介
大数据知识工程旨在从大数据中获取知识、表示知识,并基于这些知识进行推理计算,解决大数据背景下的实际工程问题。大数据知识工程是信息化迈向智能化的必由之路。本书全面系统地介绍大数据知识工程的有关内容。全书共 9 章,第 1 章介绍大数据知识工程的背景;第 2 章介绍大数据知识工程的“三跨”特点及面临的“散、杂、乱”挑战;第 3~6 章介绍知识表示、知识获取与融合、知识表征学习、知识推理四个核心环节;第 7 章介绍教育、税务、网络舆情领域的大数据知识工程应用;第 8 章指出未来研究方向;第 9 章对全书进行总结。
本书适合计算机、人工智能、物联网等专业的教师和研究生阅读,也可供知识表征、知识图谱、信息知识检索、问答推理等领域的科研人员参考。
目录速览
前言
第1章 绪论 1
1.1 知识工程发展历程 1
1.2 大数据知识工程概述 3
1.2.1 产生背景 3
1.2.2 基本概念 4
1.2.3 与传统知识工程的区别 5
1.3 与新一代人工智能的关系 6
1.3.1 新一代人工智能的特点 6
1.3.2 大数据知识工程是共性技术 7
1.4 本书的组织结构 7
1.5 本章小结 8
参考文献 9
第2章 挑战与科学问题 11
2.1 “三跨”特点 11
2.2 散、杂、乱三个挑战 12
2.3 研究框架与科学问题 16
2.4 本章小结 18
参考文献 18
第3章 知识表示 21
3.1 研究现状与趋势 21
3.2 传统的知识表示方法 23
3.3 知识图谱 26
3.3.1 知识图谱的定义 26
3.3.2 知识图谱的分类 26
3.3.3 知识图谱的存储 28
3.4 事件图谱 29
3.4.1 事件图谱的定义 30
3.4.2 事件图谱的数据模型 31
3.4.3 常见事件图谱 32
3.5 知识森林 33
3.5.1 知识森林的提出背景 33
3.5.2 知识森林的定义 34
3.5.3 知识森林的存储模型 37
3.6 本章小结 39
参考文献 39
第4章 知识获取与融合 42
4.1 研究现状与趋势 42
4.1.1 研究现状 42
4.1.2 挑战与发展趋势 44
4.2 知识图谱自动构建 45
4.2.1 三元组知识抽取 45
4.2.2 三元组知识融合 49
4.3 逻辑公式抽取 50
4.3.1 逻辑公式的形式化定义 51
4.3.2 基于统计量的抽取方法 52
4.3.3 基于矩阵序列的抽取方法 54
4.3.4 基于关系路径的抽取方法 56
4.3.5 挑战与展望 57
4.4 知识森林自动构建 57
4.4.1 主题分面树生成 58
4.4.2 文本碎片知识装配 61
4.4.3 认知关系挖掘 63
4.4.4 知识森林可视化 67
4.5 本章小结 70
参考文献 71
第5章 知识表征学习 75
5.1 研究现状与趋势 75
5.1.1 研究现状 76
5.1.2 挑战与发展趋势 78
5.2 知识图谱表征学习 79
5.2.1 直推式学习 79
5.2.2 归纳式学习 82
5.3 异构图表征学习 84
5.3.1 浅层异质信息网络表征学习 85
5.3.2 深层异质信息网络表征学习 87
5.3.3 挑战与发展趋势 91
5.4 逻辑公式表征学习 92
5.4.1 基于序列的方法 93
5.4.2 基于树结构的方法 93
5.4.3 基于图结构的方法 95
5.4.4 挑战与发展趋势 97
5.5 本章小结 98
参考文献 98
第6章 知识推理 102
6.1 研究现状与趋势 102
6.1.1 基本概念 102
6.1.2 研究现状 103
6.1.3 挑战与发展趋势 106
6.2 带有记忆的推理模型 106
6.2.1 记忆机制在推理中的作用 107
6.2.2 神经图灵机 107
6.2.3 可微神经计算机 111
6.2.4 记忆模型总结 114
6.3 符号化分层递阶学习模型 115
6.3.1 SHiL模型 115
6.3.2 SHiL模型构建方法 116
6.3.3 复杂数据系统的层次划分和介区域识别 117
6.3.4 符号化可微编程的介区域控制机制 118
6.3.5 跨界区域推理路径生成 121
6.4 知识检索 124
6.4.1 基本概念 124
6.4.2 典型知识检索方法 126
6.4.3 知识检索中的why-not问题 130
6.4.4 挑战与发展趋势 132
6.5 智能问答 133
6.5.1 自然语言问答 133
6.5.2 视觉问答 137
6.5.3 教科书式问答 140
6.5.4 问题生成 145
6.6 本章小结 150
参考文献 150
第7章 典型应用 154
7.1 知识森林个性化导学 154
7.1.1 知识森林导航学习系统 155
7.1.2 知识森林AR交互学习 158
7.1.3 应用示范 161
7.2 智能化税务治理 163
7.2.1 税收知识库构建 163
7.2.2 税收优惠计算 171
7.2.3 偷逃骗税风险智能识别 176
7.3 网络舆情的智能监控 179
7.3.1 舆情网络的定义和构建 180
7.3.2 舆情网络应用分析 181
7.4 本章小结 185
参考文献 185
第8章 未来研究方向 186
8.1 复杂大数据知识获取 186
8.1.1 视觉知识 186
8.1.2 常识知识 191
8.1.3 知识增殖与量质转化 196
8.2 知识引导+数据驱动的混合学习 198
8.2.1 可微编程 199
8.2.2 反事实推理 203
8.2.3 可解释机器学习 208
8.3 脑启发的知识编码与记忆 212
8.3.1 双过程理论启发的认知图谱 212
8.3.2 海马体理论启发的知识记忆与推理 214
8.4 本章小结 217
参考文献 217
第9章 结语 222
致谢 224