郑庆华教授团队：大数据知识工程

作者：科学出版社发布时间：2023-02-13

“知识是人工智能的动力”，知识工程旨在研究解决人类知识的机器表征与计算问题，是人工智能学科重要的分支。知识工程由图灵奖获得者 Feigenbaum 在1977 年第五届国际人工智能大会上首次提出，但与之相关的研究工作却可以追溯到 20 世纪 50 年代，贯穿人工智能的整个发展历程。

▲专家系统的基本结构

▲20世纪 5 个著名的专家系统

早在 1956 年，计算语言学的先驱之一 Richens 就设计了 Semantic Nets 作为机器翻译的中间语言，这是后续语义网络与知识图谱的雏形。1958 年，另一位图灵奖获得者，也是“人工智能”概念的提出者 McCarthy 发明了支持符号推理的LISP 语言，该语言成为知识工程的重要工具。1965 年，Feigenbaum 与化学家Lederberg 合作研发了第一款专家系统 DENDRAL，用于识别未知的有机分子。20 世纪 70 年代，人工智能进入第一个“寒冬期”，但知识工程却得到了迅猛发展，并一直延续到 80 年代。主要进展包括三个方面：一是具有模式匹配、自动回溯能力的逻辑编程语言PROLOG；二是各种类型的知识库，如常识知识库Cyc、语义词典 WordNet；三是不同领域的专家系统，如用于感染菌诊断的 MYCIN系统、帮客户配置计算机的 Xcon 系统。这一时期，我国在该领域也取得一系列重要成果。吴文俊院士在自动推理方向提出了“吴消元法”。陆汝钤院士设计了知识工程语言 TUILI，并牵头研制了专家系统开发环境“天马”。人工智能史学家 McCorduck 对这一时期知识工程的快速发展进行了分析，她认为主要原因在于人们意识到智能很大程度上取决于知识处理。

90 年代，人工智能进入第二个“寒冬期”，这次知识工程未能幸免。主要原因在于传统知识工程暴露出一系列缺陷，除了众所周知的“知识获取瓶颈”外，传统知识工程还难以应对感知型任务以及需要常识、跨领域知识的任务。在实际工程问题中，这类任务广泛存在。

郑庆华教授团队正是在人工智能的第二个“寒冬期”开始从事该领域的研究，重点围绕专家知识库构建、规则冲突检测与消解、规则调度引擎三个问题开展了研究，所提的系列算法用于解决财政税收领域的预算外票据异常检测、加工企业冷轧工艺流程优化等实际工程问题。第一次尝试解决了人工难以解决的问题，在检测精度和生产效率方面取得了不错的效果。但是，这些问题总体上还属于场景确定、规则明确、边界清晰的简单问题。对于场景动态、规则事先未知、边界模糊的复杂问题，如偷逃骗税行为识别、无人驾驶、学习内容个性导航等，当时的研究工作还难以适用。以偷逃骗税行为识别为例，研究工作就面临了“知识获取瓶颈”困境，引发该问题的原因在于：偷逃骗税行为通常盘根错节、花样翻新，加上税收政策不断改革调整。因此，即便是资深的税务专家，也很难总结出比较系统完备的识别规则。由此，逐渐意识到知识工程不能仅靠专家知识。一方面，专家系统面临人工成本过高、专家经验局限等困境；另一方面，专家系统难以适应场景动态、规则不清的问题，必须从实际场景和数据中动态挖掘知识，并运用知识才能求解实际工程问题。

时代是出卷人。21 世纪，随着大数据时代的来临，知识工程面临了新的机遇和挑战，大数据知识工程应运而生。其核心任务是将大数据环境下散、杂、乱的碎片知识转化为机器可表征、可计算的结构化知识，这是教育、政务、金融、医疗等各领域面临的从信息化迈向智能化的共性需求和必由之路。麦肯锡全球研究院报告指出，知识工程是决定未来经济的 12 大颠覆性技术之一，具有广阔的应用和产业前景，将创造 5.2 万亿美元的产值，相当于 1.1 亿劳动力创造的价值。

然而，大数据知识工程面临了全新的理论和技术挑战，具有数据跨源、知识跨域、表示跨媒体的特点，面临着如何将空间分散、模态多样、内容片面、关联复杂的碎片知识融合生成知识体系的科学问题。传统的数据库、专家系统等无法解决此问题，知识图谱难以刻画层次化跨域知识体系，因而急需理论创新。作为大数据知识工程领域的开拓者，郑庆华教授团队在 2011 年提出知识森林原创性概念，建立了以知识森林为核心的大数据知识工程理论与技术体系。提出知识森林概念的灵感源自认识论中“既见树木、又见森林”的启发，创造性地利用“树叶—树木—森林”表示“碎片知识—主题知识—知识体系”，建立了从碎片知识到知识体系的形式逻辑，揭示了大数据环境下碎片知识的时空特性和分布规律，建立了层次化、主题化的知识森林模型，并研制了知识森林构建、推理等一系列模型、算法和工具，初步构建了一套大数据知识工程理论和方法，实现“数据拟合+规则归纳”和“数值计算+符号推理”两两优势互补的大数据知识工程新范式，推动知识工程从专家获取知识朝着从大数据中挖掘和融合知识的跨越发展。

▲与“三角形”相关的知识森林实例

▲知识森林示意图

▲知识森林的自动构建过程

大数据知识工程理论的价值在于，作为“知识引导+数据驱动”方式的融合体，能够突破传统深度学习模型固有的过程黑盒、参数规模大、训练代价高等深层问题。同时，其实用价值也在金税工程偷逃骗税行为识别、在线教育知识森林个性化导学等实际应用中得到证实。此外，该成果还成功应用于金融风险管控、司法卷宗事件溯源等领域。

大数据知识工程虽然取得了长足的进展，但仍然是一个新兴的研究领域。人工智能在由感知智能逐步迈向认知智能的过程中，对知识的获取、表征、记忆、推理等环节提出了新的挑战，特别是在复杂、时变、异质大数据环境（视觉知识、常识知识等）下，知识的获取与表征、因果推理与可解释机器学习、脑启发的知识编码与记忆等方向还面临很多悬而未决的难题。

《大数据知识工程》梳理了郑庆华教授团队及国内外同行在大数据知识工程领域的阶段研究成果，系统地呈现给读者，可帮助读者把握该领域的发展脉络，了解经典的模型与算法，明确未来的研究方向，力争成为读者进入该研究领域的“敲门砖”。

全书共 9 章，其组织结构如下图所示。大数据工程涉及的内容繁多，本书力求涵盖大数据知识工程相关的基本概念及关键技术。

▲全书组织结构

第 1 章主要内容是大数据知识工程概述，先介绍了知识工程的背景、目的、意义和典型例子，然后从传统知识工程到大数据知识工程，分析了大数据知识工程面临的问题及其与新一代人工智能的关系。

第 2 章介绍大数据知识工程的“三跨”特点和面临的散、杂、乱三个挑战，提出大数据知识工程的“数据知识化→知识体系化→知识可推理”通用研究框架。

▲大数据知识工程的研究框架

第 3～6 章分别介绍大数据知识工程的 4 个核心环节，其中第 3 章总结知识表示的研究现状与趋势，介绍传统的知识表示方法及三种大数据知识表示方法。第4 章阐述大数据时代碎片知识的获取与融合，介绍知识图谱、逻辑公式和知识森林的自动构建方法。第 5 章阐述知识表征学习的研究现状与趋势，并分别给出知识图谱、异构图和逻辑公式三种不同知识结构的表征学习方法。第 6 章分别阐述传统知识推理方法、带有记忆的推理模型和符号化分层递阶学习模型，并论述知识推理在知识检索和智能问答中的应用。

第 7 章分别介绍教育、税务、网络舆情领域的大数据知识工程应用案例，分别是知识森林个性化导学、智能化税务治理、网络舆情的智能监控。

第 8 章分别从复杂大数据知识获取、知识引导+数据驱动的混合学习、脑启发的知识编码与记忆三个方面论述大数据知识工程的未来研究方向。

第 9 章对全书进行总结。

大数据知识工程

郑庆华等著

北京：科学出版社，2023.1

ISBN 978-7-03-073165-4

责任编辑：宋无汗

作者简介

郑庆华，博士，教授，国家杰出青年基金获得者，国家自然科学基金创新群体负责人，教育部创新团队和陕西省重点科技创新团队负责人，“计算机网络与体系结构国家级教学团队”负责人，获得3项国家科技进步二等奖，国家教学成果一等奖和二等奖2项以及6项省部级科技进步一等奖。现任智能网络与网络安全教育部重点实验室主任，国家督学，教育部科技委学部委员，教育部大学计算机教学指导委员会主任。获得何梁何利基金科技奖、中国科协“求是”杰出青年奖、中国青年科技奖、国务院政府特殊津贴专家、宝钢优秀教师特等奖、全国高等学校优秀骨干教师、Google中国优秀教师奖、IBM中国优秀教师、全国信息产业科技创新先进工作者等荣誉。研究领域：大数据知识工程。

内容简介

大数据知识工程旨在从大数据中获取知识、表示知识，并基于这些知识进行推理计算，解决大数据背景下的实际工程问题。大数据知识工程是信息化迈向智能化的必由之路。本书全面系统地介绍大数据知识工程的有关内容。全书共 9 章，第 1 章介绍大数据知识工程的背景；第 2 章介绍大数据知识工程的“三跨”特点及面临的“散、杂、乱”挑战；第 3～6 章介绍知识表示、知识获取与融合、知识表征学习、知识推理四个核心环节；第 7 章介绍教育、税务、网络舆情领域的大数据知识工程应用；第 8 章指出未来研究方向；第 9 章对全书进行总结。

本书适合计算机、人工智能、物联网等专业的教师和研究生阅读，也可供知识表征、知识图谱、信息知识检索、问答推理等领域的科研人员参考。

目录速览

前言

第1章绪论 1

1.1 知识工程发展历程 1

1.2 大数据知识工程概述 3

1.2.1 产生背景 3

1.2.2 基本概念 4

1.2.3 与传统知识工程的区别 5

1.3 与新一代人工智能的关系 6

1.3.1 新一代人工智能的特点 6

1.3.2 大数据知识工程是共性技术 7

1.4 本书的组织结构 7

1.5 本章小结 8

参考文献 9

第2章挑战与科学问题 11

2.1 “三跨”特点 11

2.2 散、杂、乱三个挑战 12

2.3 研究框架与科学问题 16

2.4 本章小结 18

参考文献 18

第3章知识表示 21

3.1 研究现状与趋势 21

3.2 传统的知识表示方法 23

3.3 知识图谱 26

3.3.1 知识图谱的定义 26

3.3.2 知识图谱的分类 26

3.3.3 知识图谱的存储 28

3.4 事件图谱 29

3.4.1 事件图谱的定义 30

3.4.2 事件图谱的数据模型 31

3.4.3 常见事件图谱 32

3.5 知识森林 33

3.5.1 知识森林的提出背景 33

3.5.2 知识森林的定义 34

3.5.3 知识森林的存储模型 37

3.6 本章小结 39

参考文献 39

第4章知识获取与融合 42

4.1 研究现状与趋势 42

4.1.1 研究现状 42

4.1.2 挑战与发展趋势 44

4.2 知识图谱自动构建 45

4.2.1 三元组知识抽取 45

4.2.2 三元组知识融合 49

4.3 逻辑公式抽取 50

4.3.1 逻辑公式的形式化定义 51

4.3.2 基于统计量的抽取方法 52

4.3.3 基于矩阵序列的抽取方法 54

4.3.4 基于关系路径的抽取方法 56

4.3.5 挑战与展望 57

4.4 知识森林自动构建 57

4.4.1 主题分面树生成 58

4.4.2 文本碎片知识装配 61

4.4.3 认知关系挖掘 63

4.4.4 知识森林可视化 67

4.5 本章小结 70

参考文献 71

第5章知识表征学习 75

5.1 研究现状与趋势 75

5.1.1 研究现状 76

5.1.2 挑战与发展趋势 78

5.2 知识图谱表征学习 79

5.2.1 直推式学习 79

5.2.2 归纳式学习 82

5.3 异构图表征学习 84

5.3.1 浅层异质信息网络表征学习 85

5.3.2 深层异质信息网络表征学习 87

5.3.3 挑战与发展趋势 91

5.4 逻辑公式表征学习 92

5.4.1 基于序列的方法 93

5.4.2 基于树结构的方法 93

5.4.3 基于图结构的方法 95

5.4.4 挑战与发展趋势 97

5.5 本章小结 98

参考文献 98

第6章知识推理 102

6.1 研究现状与趋势 102

6.1.1 基本概念 102

6.1.2 研究现状 103

6.1.3 挑战与发展趋势 106

6.2 带有记忆的推理模型 106

6.2.1 记忆机制在推理中的作用 107

6.2.2 神经图灵机 107

6.2.3 可微神经计算机 111

6.2.4 记忆模型总结 114

6.3 符号化分层递阶学习模型 115

6.3.1 SHiL模型 115

6.3.2 SHiL模型构建方法 116

6.3.3 复杂数据系统的层次划分和介区域识别 117

6.3.4 符号化可微编程的介区域控制机制 118

6.3.5 跨界区域推理路径生成 121

6.4 知识检索 124

6.4.1 基本概念 124

6.4.2 典型知识检索方法 126

6.4.3 知识检索中的why-not问题 130

6.4.4 挑战与发展趋势 132

6.5 智能问答 133

6.5.1 自然语言问答 133

6.5.2 视觉问答 137

6.5.3 教科书式问答 140

6.5.4 问题生成 145

6.6 本章小结 150

参考文献 150

第7章典型应用 154

7.1 知识森林个性化导学 154

7.1.1 知识森林导航学习系统 155

7.1.2 知识森林AR交互学习 158

7.1.3 应用示范 161

7.2 智能化税务治理 163

7.2.1 税收知识库构建 163

7.2.2 税收优惠计算 171

7.2.3 偷逃骗税风险智能识别 176

7.3 网络舆情的智能监控 179

7.3.1 舆情网络的定义和构建 180

7.3.2 舆情网络应用分析 181

7.4 本章小结 185

参考文献 185

第8章未来研究方向 186

8.1 复杂大数据知识获取 186

8.1.1 视觉知识 186

8.1.2 常识知识 191

8.1.3 知识增殖与量质转化 196

8.2 知识引导+数据驱动的混合学习 198

8.2.1 可微编程 199

8.2.2 反事实推理 203

8.2.3 可解释机器学习 208

8.3 脑启发的知识编码与记忆 212

8.3.1 双过程理论启发的认知图谱 212

8.3.2 海马体理论启发的知识记忆与推理 214

8.4 本章小结 217

参考文献 217

第9章结语 222

致谢 224

一、写在最前▲虽然DDR5内存目前价格有稳定向下的趋势，但是想要兼顾游戏、创作生产和桌搭氛围，原生高频、低时序以及颜值灯效这三个属性作为衡量性能表现的电竞内存标准，必不可少。▲想要择优录取，我会推荐毁灭者DDR5 6000C28 32GB星际战舰内存条，颗粒是海力士原厂A-Die，外观是10层加厚PCB板+强化铝合金装甲+倒三角高密导光条，用料肉眼可见的扎实，具备更强电气性能，在内存超频时可承受更高电压电流，同时提升散热性能增加美观性，帮助玩家轻松打造具备硬核实力的主机。二、内存跑分测试▲除了日常使用，摸

神秘消逝xyyz 2024-12-26

这波澳康达二手车推荐别错过了，价格划算到你想不到？

那些你以为很贵，但实际上价格划算到你想不到的豪华车型，真的是太香了！年底想买车的朋友，这波澳康达二手车推荐别错过了，妥妥的花小钱办大事，20来万的价格，给到你50多万的排面，关键是路虎、保时捷都能买到了！你还不来看看吗？2017款保时捷Macan S 3.0T二手车市场上畅销的保时捷Macan，像17年附近的2.0T车型，现在都不用20万了，且在澳康达选择很多，不同颜色、选配等等，不过这里推荐的是天津澳康达在售的这辆2017款保时捷Macan S 3.0T，也就是采用贯穿式尾灯前的版本，更重要的是“S

澳康达二手车 2024-12-26

在当今社会，越来越多的人选择在工作之余备考公务员，以期在职业生涯中寻求更稳定的发展或实现个人价值的提升。然而，对于非全日制考生而言，如何在繁忙的工作、家庭与个人生活中找到平衡点，高效备考，成为了一大挑战。本文将从时间管理与学习策略两个方面，为非全日制考生提供一些实用的建议。一、高效时间管理：精准规划，灵活调整 1. 明确目标，制定计划首先，明确自己的备考目标，是国考、省考还是特定岗位的选拔考试，了解考试内容、形式和时间安排。基于此，制定一个长期与短期相结合的学习计划。长期计划可以设定每月或每季度完成的

佰师网 2024-12-26

数字营销徐嘉祥：星辰幻界从默默无闻到爆款之路

在游戏行业这个竞争激烈的领域，有一家初创公司，名为“幻光游戏工作室”，他们怀揣着打造一款具有独特魅力的角色扮演游戏的梦想，但在市场上却面临着巨头林立、资源有限的困境，其首款游戏《星辰幻界》的推广之路充满了挑战与机遇，而他们的市场营销故事，也成为了行业内的一段佳话。起初，幻光游戏工作室的团队成员们深知，他们没有雄厚的资金去进行大规模的广告投放和明星代言，于是决定另辟蹊径。他们首先将目光投向了游戏社区和论坛，这是游戏爱好者们聚集交流的地方，有着精准的目标受众。团队成员们纷纷注册账号，以普通玩家的身份深入各个

徐嘉祥 2024-12-26

郑庆华教授团队：大数据知识工程

推荐体验

相关资讯

同济郑庆华：教育强调同理性培养，ChatGPT还有较大差距

同济校长郑庆华：大模型已成当前人工智能巅峰，但存四大缺陷

大数据:大发回本团队实时计划群

政策持续加码，大数据50ETF(516000)探底回升，科华数据涨超2%

中职大数据专业介绍：大数据技术应用

近期资讯

凯仕铁参加海安市曲塘镇项目集中签约仪式

锋芒毕露的硬核实力派，低时序超频更稳的毁灭者DDR5 6000C28星际战舰内存条

这波澳康达二手车推荐别错过了，价格划算到你想不到？

郑州德龙配件X3000水壶托架经济耐用

年薪40w新媒体运营的日常工作是什么？

佰师网：非全日制考生备考公务员，高效时间管理与学习策略

数字营销徐嘉祥：星辰幻界从默默无闻到爆款之路

A100显卡解析与应用前景探讨

天赋和努力哪个重要

某宝商品详情采集

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响