开源之夏个人专访与项目经验分享持续开放中,欢迎正在参与和已从开源之夏毕业的学生、导师一同加入专访行动,填写文末专访问卷,与大家分享你的开源经验与收获!
本期开源之夏2024导师专访来自 OpenSPG 社区的韩冬(炫荆)老师,他在本届活动中指导的项目是:知识图谱引导的可控生成项目
项目链接:https://summer-ospp.ac.cn/org/prodetail/24e260492
ospp:请您介绍一下自己及从事的技术领域。
韩冬:我是蚂蚁集团知识引擎技术专家,目前专注于大模型LLM知识力、GraphRAG领域,参与KAG开源的研发,擅长技术架构、中间件和AI技术。从业计算机行业有10+年的一线开发经验和多年的一线团队管理经验,在工作期间有几个关键时刻,是第一个将生物识别人脸支付技术用在IOT线下交易的程序员、第一个将LBS实人实地考勤防作弊架构用在钉钉考勤场景中等,负责主导过亿级别用户,10w+qps的高流量产品,也参与跨多BU团队大型复杂项目经历。从2021年后开始投入AI领域,参与蚂蚁核心AI native支小宝、支小助应用架构开发,以及基础大模型百灵的知识引擎开发,2024年开始参与到OpenSPG开源社区开发中,开源社区为开发者提供了一个共同成长的平台,不仅推动了大模型技术的发展,也为行业带来了更多的合作与共赢。后续通过开源社区中贡献和交流,将有助于我们更好地迎接未来的技术挑战。
ospp:OpenSPG 是怎样一个开源社区?。
韩冬:OpenSPG是一个开源的、可扩展的、可编程的图谱框架,用户可以基于OpenSPG完成知识图谱的构建和应用,如自然语言问答、复杂决策和信息检索等。OpenSPG提供了一种灵活的方式来定义领域知识图谱的构建过程,使得用户可以根据业务需求的不同构建的知识图谱。此外,OpenSPG还支持多种数据源和数据格式,可以方便地与现有的数据处理系统集成。OpenSPG 社区致力于打造统一的企业级领域知识管理框架,统一的技术框架可以大幅降低应用门槛,提升框架跨领域的可迁移性,促进知识图谱社区繁荣发展。OpenSPG 社区与同济大学、天津大学等高校,恒生电子、浙江创邻、达观数据、PlantData 等企业达成了密切的合作关系,共同发布了《语义增强可编程知识图谱 SPG》白皮书,加速 SPG 标准在知识图谱生态的落地。
最近,OpenSPG发布了国内首个专业领域的知识增强框架KAG(Knowledge Augmented Generation),KAG利用知识图谱与混合检索等策略增强了RAG在向量召回、知识推理两方面的局限,可快速构建私域知识库,支持垂域场景定制开发专业智能体,同时提供了用户友好的产品界面。
社区官网:https://spg.openkg.cn/
OpenSPG GitHub:https://github.com/OpenSPG/openspg
KAG GitHub:https://github.com/OpenSPG/KAG
ospp:请介绍一下您在开源之夏2024中指导的项目,据了解您专注于大模型LLM、GraphRag领域,在设置该项目时您做了哪些考虑?
韩冬:当前LLM面临几个关键问题,如不具备严谨的思考能力、事实逻辑和精准性错误、通用RAG的LLM幻觉问题以及专业知识服务的挑战和要求。OpenSPG项目在积极推进知识图谱与大语言模型之间的双向驱动,以加速推进可控生成能力在垂直场景的落地。OpenSPG发布了完整的知识语义、知识生产和推理框架。可以实现多元事件、多元实体、二元概念的知识建模和管理,构建知识生产和可控生成的任务。今年的开源之夏,我们设置这个课题,就是希望参与者基于OpenSPG与LLM双向增强编程框架构建可控问答任务。首先,构建一个垂直领域知识图谱,然后,基于knext/ca框架构建自然语言交互式问答服务,理解用户意图并转化成逻辑推理规划,基于OpenSPG DSL、LLM等获取知识,最后,完成推理计算并输出用户问题的答案,同时判别回答对用户意图的满足度。
ospp:本届开源之夏中,OpenSPG共上线一个项目,受到了很多同学的关注,您认为学生对此类项目感兴趣的原因是什么?您对这个项目的重要性和潜在影响有何评价?项目产出有什么实际意义?
韩冬:了解当前LLM现状及指标评价体系,对学生后续实验方案有很大帮助。项目影响和实际意义:1、推动技术创新:该项目对AI大模型幻觉抑制和问题拆解理解有技术创新的推动,开发者可以在现有的基础上进行改进,推动相关技术进步。2、社区协作:开源项目能够集结来自全球的开发者和研究者,他们可以贡献代码、报告错误和分享意见,从而推动项目的完善和发展。3、实际意义:项目可能会产出新的算法或工具,优化某些技术领域的应用实现技术提升,同时在经济效益上会降低成本,提升LLM问题理解和幻觉抑制的推进。
ospp:在学生报名和申请阶段,您是如何评估学生申请的?您更重视申请学生哪些能力或特质?您认为学生参与开源项目可以很好地完成吗?
韩冬:会更关注学生开源社区活跃情况、阅读源码能力、对LLM、RAG了解情况及学生项目方案实施和实验等背景考量。很多学生在开源社区、阅读源码及实验数据能力都有很好的基础能力,可以参与并完成开源项目。
ospp:学生的开发工作是否顺利完成?在这个过程中有没有深刻的体验可以分享?
韩冬:工作整体较顺利,特别类似LLM这种创新项目可参考经验较少,时间方面挑战很大。本次张航同学参与的工作内容主要包括阅读源码、RAG调研、项目方案实施及实验数据效果对比。通过阅读了OpenSPG开源项目knext-ca可控生成的代码模块,并梳理client、agent、modules、tools及runner代码组件。通过调研RAG分析模型回答质量的问题,并总结出问题拆解、信息检索、子问题回答排序、答案合并等关键步骤,同时也调研了相关的学术论文作为论证。在实施阶段,结合相关数据集特点优化了相关prompt、增加check检测代码块及实验效果数据,在优化过程中,张航不仅实现了基于上下文的 Prompt 优化,还设计并验证了问题分解检查模块的有效性。总体来说,张航同学提交的代码数量可观且质量上乘,所有提交均按时合并入社区,充分证明了其在代码贡献和开发能力方面的突出表现。
ospp:在当前时代下,您认为高校学生在专业学习、技能提升等方面应该如何使用好AI这一工具?
韩冬:高校学生可以将AI工具用在例如辅助教学、专业技能培训、学术研究探索及校园创新创业等实践方面。
ospp:有什么建议或鼓励想对参与开源和开源之夏活动的同学们说的么?
韩冬:OpenSPG开源社区和开源之夏活动非常鼓励更多同学们参与,在这些活动中可以从理论和实践中收获很多,在过程中可以阅读了解很多优秀开源项目的源代码、国内外先进技术的现状和难点、分析总结出自己重点突破研究的技术方向以及未来发展技术空间等。具体些例如可以积极贡献OpenSPG代码PR、文档撰写或issue等,关注OpenSPG最新技术报告,比如我们最新发布的国内首个专业领域知识增强服务框架 KAG 技术报告(地址:https://arxiv.org/pdf/2409.13731)。
END
专栏编辑:HungryFish
校对:校大山、韩冬
制图:GoodWhite
专栏投稿请联系开源小助手:kaiyuanzhixia ,或填写下方专访信息收集问卷。