AI大模型辅助破译甲骨文？厦门大学正探索

作者：多知网发布时间：2024-12-17

大模型正在为古文字考释工作添砖加瓦。

近日，据厦门大学官方公众号消息，厦门大学宣布该校信息学院自然语言处理实验室史晓东教授团队正尝试利用人工智能多模态大模型，结合甲骨文的音、形、义等多元信息，辅助专家进行更高效的甲骨文考释工作。

甲骨文距今已有三千多年历史，是世界四大古文字之一。传统的甲骨文字考释工作极其耗时费力，依托于专家进行人工释读，多采用字形分析、辞例研究等方法，需要考古专家以深厚的知识积累和大量的文献阅读为基础，结合多方面的知识去破译甲骨字，已经难以为继。

据人民日报援引清华大学出土文献研究与保护中心常务副主任、中国文字博物馆馆长黄德宽教授的观点表示，甲骨文考释当前还有许多问题没有悬而未决，一是认字，二是片数，三是断代。以认字为例，学者编纂的甲骨文字典收字已有4300多个，其中2000多字有人进行过研究，但目前取得共识的破译字仅1300多个，一大半字还不认识，只能放在字典的附录中存疑待考。

另据大河网曾援引古文字学博士、河南财经政法大学讲师武亚帅的观点剖析了许多甲骨文难以破译的原因：“这些未识字或是字形未被后世传承，或是出现频率很低，或是辞例残缺，无法提供有效信息，所以使得考释工作举步维艰，因此，现存的未识字多是难啃的‘硬骨头’。而且甲骨文考释不同于看图说话，需要从形、音、义多方面寻找证据，只有达到‘字形无误，文义大安’的效果才算是比较可信的考释意见。”

为了激发古文字研究工作者积极主动地破译甲骨文，中国文字博物馆于2016年发布通告，对破译未释读甲骨文并经专家委员会鉴定通过的研究成果，单字奖励10万元;对存争议甲骨文作出新的释读并经专家委员会鉴定通过的研究成果，单字奖励5万元。

近年来，近年来AI技术迅猛发展，利用深度学习模型超强语义表示能力来实现甲骨文的辅助考释，优势已经崭露头角。

据介绍，厦门大学信息学院自然语言处理实验室史晓东教授团队研究人员针对甲骨文数据稀缺、图像质量参差不齐的现状，系统整理相关古文字数据，构建更大规模、更高质量的甲骨文多模态数据集，提出了“基于甲骨文多模态大模型的多元信息辅助考释模型”的技术方案。

项目将设计一系列与实际考释过程密切相关的任务和评估方法，如跨字体图像映射、跨字体IDS(表达结构的部首偏旁序列)解码和甲骨字现代字对译关系等，以有效训练多模态大模型。利用其强大的跨模态理解能力，辅助甲骨文考释。在大模型提供的语义嵌入基础上，本项目还将设计融合音、形、义、用多元信息的端到端甲骨文综合考释模型，综合利用字形结构、语义关联、同音通假和用法聚类分析，开发一种更加轻量的考释系统，以适应资源有限的实际考释场景。