日前,由浙江大学文学院张涌泉教授和计算机学院吴飞教授所在团队合作的交叉学科成果论文Reconnecting the Broken Civilization: Patchwork Integration of Fragments from Ancient Manus(中文名称《重新拼接断裂的文明:古代写本残片的智能缀合》),被中国计算机学会(CCF)所推荐的顶级会议(A类)ACM国际多媒体会议(ACM Multimedia)录用。这标志着利用人工智能技术探索敦煌残卷缀合工作实现了新的学术突破,也是浙江大学文科与人工智能交叉研究的一项新成果。
20世纪初,敦煌莫高窟藏经洞发现了七万件写本,是中国近代学术史上的一件大事。这些敦煌写本既是东西方文化交流的结晶,也是丝路文明最宝贵的实物遗存,更推动了世界显学敦煌学的诞生。藏经洞开启后,各国探险家在翻检藏品时,破坏了洞窟的原生存放状态,也使原本相对完整的写本被撕裂为多件,流散到世界多个国家和地区。对破碎残片进行缀合是敦煌文献全面研究的基础。自20世纪50年代起,有学者开始意识到敦煌残卷缀合的重要性,但受限于条件,几乎没有成果。
2010年以来,张涌泉教授带领博士后和研究生组建学术团队,开始对敦煌残卷进行全面研究,探索缀合原则,梳理一般方法。十余年来,团队在各类学术期刊发表了一百多篇论文,成果《敦煌残卷缀合总集》被列入国家“敦煌文献系统性保护整理研究工程”,还申报了国家社科基金重点项目“敦煌残卷缀合研究”。浙江大学的敦煌残卷缀合成果,完全引领了敦煌学的最新潮流,具有标志性意义。
十年间,张涌泉教授团队利用文献学的基本操作原则,缀合了约2.2万件敦煌残卷,占藏经洞出土写本全部体量的三分之一。通过缀合,一块块破碎的残卷和残片得以拼合,原本断裂的丝路文明被连结在一起。不过,从各类图版来看,余下的三分之二的敦煌残卷,纸张残损程度较大,字迹存留比例较小。这些现实情况,给传统的缀合工作带来了很大的阻碍。
基于既有成果与现实困难,张涌泉教授团队与吴飞教授团队跨学科合作,利用数据驱动和知识引导的新一代人工智能方法,通过使用人工智能、计算机视觉和自然语言等多种技术,构建敦煌残卷缀合自动缀合算法工具箱和平台。
人工智能辅助自动缀合成果《摩诃僧祇律》(局部)
学术团队经过多次讨论交流,确定由敦煌残卷天然具有的文本、图像多模态性质入手,形成“特征提取+组合优化”的思路,提出了“文本—残卷轮廓”的多模态联合缀合路线。该思维路线首先将原始碎片进行“背景提取—色彩尺度统一”的预处理,整理为待缀合残卷数据集,随后引入深度神经网络和CNN架构孪生网络,实现文本特征提取、文本比对确定和轮廓特征筛选等功能。经过轮廓比较与文本深度学习后,再引入“多层级组合架构”构件,最终实现残卷的整体自动化缀合。
基于特征学习和组合优化的敦煌残卷缀合流程图
在本次录用的论文中,合作团队正式提出了“基于特征学习和组合优化的敦煌残卷自动缀合系统”理念,通过“文本—残卷轮廓”多模态识别,解决单一模态难以实现的“稀疏特征提取”与残卷缀合,实验论证多模态自动化缀合代替人工缀合的高效和准确性。录用该论文的会议是计算机顶级会议ACM国际多媒体会议(ACM Multimedia)。这是细分多媒体领域最顶级的会议,会议论文录用率为29.3%,属《中国计算机学会推荐国际学术会议和期刊目录》A类(CCF-A)。
这项研究成果是实现计算机全流程自动化缀合敦煌写本工作的初步探索,将多模态特征提取和组合优化引入写本复原,并将成果归纳为首个图像文本多模态敦煌残卷数据集。AI技术的运用,既有助于解决当前敦煌写本缀合的难点,也为世界各地写本修复和研究提供宝贵经验和方法论。这是浙江大学交叉学科研究的新突破,在“AI+文献学”和“AI+考古学”等领域具有开创意义。
此外,合作团队还准备将视野扩展到敦煌垂类大模型基座的构建上,继续探索“AI+”的合作新范式,希望利用最先进的AI技术,让历史从碎片中走出来、从文字间活过来,让记录在每一件写本中的地点、人物、事件、物品,清晰生动地进入公众的视野。
撰稿丨张钰清
编辑丨方圉潼
审核丨楼煦昂