当前位置:首页|资讯|ChatGPT

【正确利用ChatGPT辅助课程论文实例】知识图谱构建实践反思 课程论文分享

作者:Louis翔发布时间:2023-02-03

对小组所构建的知识图谱的反思

——我对知识图谱的偏见

姓名:王*翔  学号:2020****

摘要:本文基于重*大学“知识建模与智能体设计”课程及实践经历,总结了在“‘数字孪生’相关论文信息知识图谱”构建过程中的问题与不足,并从“多余的图结构”“‘涌现性’的缺失”“图谱构建中的‘强迫症’行为”三个方面提出疑问并进行分析,提出了自己的新思路以及对应的解决方案,最后得出以下结论:1.常用图结构库均提供大量图算法,使用图表示知识图谱并非多此一举;2.知识推理这一细分领域使得知识图谱能够具备涌现性,此外引入引用计数、垃圾回收等机制,可以使得知识价值决定知识图谱的演化方向;3.引入用户反馈机制可以进行知识去噪,此外学界也有方案进行知识去噪。

引言

笔者在本次知识图谱构建中,担任组长一职,具体工作上,对已有算法(如各NLP工具的调用、图构建脚本、问答机器人)进行了重构,并且基于httpx、flask分别编写了多线程的百度百科爬虫、问答机器人WebUI等等。在小组合作协调方面,利用Git工具,实时向小组成员分发并更新程序,并以压缩文件的方式,向各成员的分发数据爬取工作,在数据获取与实体填充上节约了时间。最终形成了从数据获取、本体学习、实体填充、图构建、简单的搜索意图挖掘的工作流,除了没有进行图谱的维护更新以外,实现了其基础的功能与目的[1]。

然而,由于部分技术的缺失,小组并没有进行实体对齐操作,也没有充分利用从百度百科中获取的同义关系,导致图谱中可能存在如BIM、建筑信息模型分别占用两个ID的状况;此外,在本体学习中,小组满足于从知网和百度百科上获取的高度结构化数据,没有对从文本中提取出的三元组进行有效利用(也没有能力)。这都是本项目中较为巨大的缺憾。

最后,随着笔者在整个实践中对知识图谱认识的逐渐加深,对于知识图谱的各种偏见也涌现而出。为了明辨这些偏见,笔者也查阅了一些文献,以下从“多余的图结构”、“‘涌现性’的缺失”、“图谱构建中的强迫症行为”三个方面出发,简单谈谈我的观点。

1.  多余的图结构

在小组的实践中,所有的实体、关系、属性均以字典的形式存储在json文件中:当需要查询某个关键词时,直接使用文本编辑器的查找功能也能够实现简单的查询,并且由于结构化的数据十分容易处理,利用Python从中查找目标也是一件十分容易的事情。据此,图数据结构在增删改查方面相较json没有任何优势。故笔者在构建知识图谱的过程中认为,将所有实体、关系、属性构建成图,除了视觉上的直观没有任何意义,仅将查询到的结果构建成图展示给用户才是更经济的选择。

巧合的是,不久后便看到一个讲解PageRank算法的视频,其中提到Neo4j本身实现了很多图算法(图 1),包括路径规划、度中心性计算、社群检测、关系预测、相似度计算、图嵌入等等[2]。于是,这才意识到,Neo4j并非简单的“增删改查”工具。



图 1

正是受到py2neo库的误导(此库的说明文档没有任何有关图算法的内容[3]),笔者才对Neo4j的算法功能并不知悉。之后通过与ChatGPT的交流(图 2),了解到还有Networkx,igraph,Pygraphviz等Python库可以用于网络的构建与处理。其它与Neo4j类似的产品就不再列举。




图 2

这里,需要注意Neo4j Embedding中node2vec[4]、GraphSAGE算法:Embedding是指将一个数据集中的高维数据转换为一个低维向量的表示的过程。这种表示可以使得数据的同质性与结构性更好地体现在低维空间中,使得我们能够更容易地对数据进行分析和处理。

而这个概念,对于下文有关涌现性的说明比较重要。

2.  “涌现性”的缺失

由于笔者此前对复杂网络一知半解,故错误地认为知识图谱是复杂网络的一种。也由此,产生了在构建知识图谱过程中最大的疑问:为什么我的知识图谱没有体现出涌现性?(我所做的似乎只是从数据中提取出知识,然后将知识储存起来,所有的知识都经由我手,没有任何让人意外的新知识出现。)

于是,我再次向ChatGPT提出问题(图 3):

图 3

ChatGPT认为,复杂网络中的关系是复杂的,会发生演化,所以具有涌现性;而知识图谱中的节点与关系虽然多,但都是人工指定的、结构化的,基本不会变化,所以不具有涌现性。

然而,相较复杂网络,知识图谱每个节点自身也具有属性,这也许能够弥补其复杂度不足的问题;并且,结构化的数据也能够进行“增删改查”,在时间序列上,并非一成不变,而是会渐渐丰富;这两点原因兴许会使得知识图谱出现涌现性。

通过文献检索,发现:在知识图谱与深度学习结合方面,大量研究围绕Knowledge Graph Embedding Model(KGEM)进行。而Embedding,即是前文提到的将知识图谱向量化的技术,这种技术能够将知识在较低维度空间中表示,这是将深度学习技术引入知识图谱构建中的理论基础。

2014年,Z. Wang等人[5]利用TransH模型改进TransE模型,较理想地实现了实体间关系的预测,并具备相当的扩展能力,拉开了各种KGEMs的序幕;2021年,M. Ali等人[6]开发了名为PyKEEN的Python库,用于简化KGEM的构建,并在GitHub上有了1.1k的stars(截止2022年12月14日);2022年,A. Zeb等人[7]提出complex graph convolutional network (ComplexGCN)用于优化常规图神经网络存在的distortion问题,更好地实现了实体间关系的预测;Z. Li等人[8]则提出Complex Evolutional Network (CEN)模型,在时间序列上预测知识图谱的演化方向,并且通过在线学习,实现了实时的对知识图谱演化模式的提取。

Complex GCN与CEN模型的实现,都说明从知识图谱的一部分或者某一时刻的知识图谱出发,推断知识图谱中没有被发现的关系以及图谱的演化模式,是可行的。这意味着,利用这些模型,可以实现知识图谱的自我优化。

而事实上,上述“自我优化”属于知识图谱领域中知识推理的“知识图谱补全”,包括连接预测、实体预测、关系预测、属性预测等任务。而上述所列举的思路均是基于神经网络的知识推理,此外,还有基于规则、基于分布式表示以及混合推理[9],各自优缺点现状见下表(表1)。

表 1

与之不同的,笔者还有一个构想:譬如,对于一个关于工程建设领域的知识图谱,现查询混凝土结构计算方面的知识,必然需要引用设计规范;对引用进行计数,则能够反映设计规范的重要性;若将计算得到结果缓存下来,当用户输入相同的约束条件时,可以直接返回已有结果,节省计算资源;久而久之,缓存的结果逐渐丰富,混凝土结构的知识就不再重要,此时可以考虑删除无人查询的知识,实现知识图谱的进化。通过引入垃圾回收机制、计数机制与缓存机制,使得知识图谱出现了与复杂网络相似的变化性,整个知识图谱的演化方向也由其中所包含的知识的价值决定,至此,涌现性出现了。

3.  图谱构建中的“强迫症”行为

前文提到,“受到技术水平限制,团队未能对三元组进行充分利用”。这其一是由于团队当时始终没有能够有效处理三元组的思路,其二是因为自大量论文摘要中提取的三元组大多意义不明或如同鸡肋。面对三元组客观存在的低价值密度特征,笔者认为人工筛选后才存入的做法是一种“强迫症”行为。

存入无用的信息仅会拖慢查询速度、降低结果质量,若利用上一部分提到的缓存机制、垃圾回收机制、计数机制,再加上用户反馈机制,在没有错误信息的前提下,就可以在使用阶段实现知识图谱的逐渐完善。这种自我完善,专业的术语为“知识图谱去噪(Knowledge Cleaning)”。

再者,掌握到存在Embedding这项能够将实体向量化的技术,可以设想将评分后的三元组向量化以作为训练集,利用深度学习为三元组评分,从而实现有价值信息的自动提取。

上述两种方案是很自然能够想到的,此外,对“知识图谱去噪”进行检索,发现,Jiang等人[10]利用马尔可夫逻辑网(Markov Logic Network,MLN)与neighborhood-based grounding实现了为候选事实去噪;Heiko Paulheim等人[11]则利用统计分布(Statistical Distributions)实现了为连接数据(Linked Data)添加遗漏连接并找出可能的错误连接。

结论

本文从“多余的图结构”、“‘涌现性’的缺失”、“图谱构建中的‘强迫症’行为”三个方面论述了在本次知识图谱构建中产生的想法以及通过文献检索等方法后的处理结果。

对于“多余的图结构”,实则是受到py2neo的误导,忽视了neo4j等图构建库拥有的诸如图算法的其它功能。

对于“‘涌现性’的缺失”,进一步发现在知识推理中,存在“知识图谱补全”这一细分领域。当前学界对于知识图谱的补全存在诸多方案,同时,认为通过引入引用计数、垃圾回收等机制,也能够丰富知识图谱的功能、实现演化。

对于“图谱构建中的强迫症行为”,笔者也提出利用用户反馈等机制逐步完善知识图谱的方案。进一步检索文献触及到“知识图谱去噪”这一领域,发现了很多自动预测连接、识别错误连接的方法。

综合上文以及笔者的切身体会,本次课程存在以下问题:

1.     没有原创的代码。实践课程中给出的所有代码,笔者都在GitHub中找到了项目地址。尤其对于三元组抽取的代码,存在Python版本落后的问题,并且提供的利用jieba进行三元组提取的算法存在bug,笔者已提交修改,但仓库所有者始终没有回应。其他代码如问答机器人,过于丑陋,让人忍不住重构。

2.     没有包管理工具。尽管本专业对于计算机的要求并不十分严格,但在教学过程中,由于包管理工具、命令行工具不统一等问题多次出现教学滞塞,对于小组成员合作也造成了较大影响。建议使用Anaconda或MiniConda进行包管理与Python版本控制。

3.     没有实用的案例。尽管课程中展示了诸如《百年孤独》人物关系、疾病医疗忌口、政策发布时间机构等知识图谱,但凭良心认为这些案例十分鸡肋,导致学生看衰知识图谱前景,不禁发出“我学这个难道只是为了给用户推广告”的疑问。

4.     教学内容存在断层。在三元组提取与知识图谱构建之间存在内容缺失,学生没有了解到处理已有三元组(知识图谱去噪)的技术。

此外,限于篇幅,缺乏知识推理内容、没有智能体设计内容的问题就不再详谈。

参考文献

[1]    李涛, 王次臣, and 李华康, 知识图谱的发展与构建. 南京理工大学学报, 2017. 41(01): p. 22-34.

[2]    Neo4j Docs. [cited 2022 12-18]; Available from: https://neo4j.com/docs/graph-data-science/current/algorithms/.

[3]    py2neo docs. [cited 2022 12-18]; Available from: https://py2neo.org/v5/index.html.

[4]    Grover, A., and J. Leskovec. node2vec: Scalable feature learning for networks. in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016.

[5]    Wang, Z., et al. Knowledge graph embedding by translating on hyperplanes. in Proceedings of the AAAI conference on artificial intelligence. 2014.

[6]    Ali, M., et al., PyKEEN 1.0: A Python Library for Training and Evaluating Knowledge Graph Embeddings. J. Mach. Learn. Res., 2021. 22(82): p. 1-6.

[7]    Zeb, A., et al., Complex graph convolutional network for link prediction in knowledge graphs. Expert Systems with Applications, 2022. 200.

[8]    Li, Z., et al. Complex Evolutional Pattern Learning for Temporal Knowledge Graph Reasoning. in 60th Annual Meeting of the Association for Computational Linguistics, ACL 2022, May 22, 2022 - May 27, 2022. 2022. Dublin, Ireland: Association for Computational Linguistics (ACL).

[9]    官赛萍, et al., 面向知识图谱的知识推理研究进展. 软件学报, 2018. 29(10): p. 2966-2994.

[10]  Jiang, S., D. Lowd, and D. Dou. Learning to refine an automatically extracted knowledge base using markov logic. in 2012 IEEE 12th International Conference on Data Mining. 2012. IEEE.

[11]  Paulheim, H. and C. Bizer, Improving the quality of linked data using statistical distributions. International Journal on Semantic Web and Information Systems (IJSWIS), 2014. 10(2): p. 63-86.



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1