当前位置:首页|资讯

#5 字典工具类

作者:楠风研究部发布时间:2024-10-06

现在,我们实现字典工具类DictionaryUtils。之所以需要查询字典,是因为动词类型存在较多例外,无法依靠单纯的逻辑判断准确确定其类型。用字典可以大幅提高准确率。

这里的字典采用的是JMdict。原始文件为xml格式,且包含词语释义等大量信息,直接读取效率较低。因此,我们对它进行了预处理,筛选出动词,只保留写法、读音、动词类型,以逗号分隔,每个词语一行保存在src/main/resources/dictionary/verbDictionary.txt中。

在loadVerbDictionary中,我们从verbDictionary.txt读取词语并载入verbDictionary变量。verbDictionary为ArrayList,每个元素都保存HashMap类型的单词,其中的"kaki"、"yomi"、"type"这三个key值分别对应写法、读音、类型。

考虑到字典的特性,我们还做了一些特殊处理:

  • 三类动词-する:字典不包含する后缀,需要添加

  • 写作假名的动词:字典不包含写法,需要转化为平假名并添加

载入完成后,便可以利用getVerbType方法查询动词类型了。该方法遍历所有单词的写法kaki,并返回命中的动词。

此外,我们还实现了getVerbNameByKanjiOrKana方法。该方法优先匹配写法kaki,再匹配读音yomi。考虑到有可能匹配到多条,因此返回类型为ArrayList。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1