金融界2024年12月18日消息,国家知识产权局信息显示,北京鸿鹄云图科技股份有限公司申请一项名为“PDF查找模式结合OCR识别的内容检索方法”的专利,公开号CN 119128192 A,申请日期为2024年11月。
专利摘要显示,本申请提供了 PDF 查找模式结合 OCR 识别的内容检索方法,涉及信息检索技术领域,通过识别当前图像化 PDF 文件的内容格式,获取多个内容格式;在多个内容格式之间进行 OCR 识别异同性分析,获取对应的多个异同性指标;根据多个异同性指标进行分类,输出 N 类内容格式;按照内容格式的文本特征,构建 N 个内容识别模型;获取用户检索关键词,调用 N 个内容识别模型在文件中进行关键词检索,输出对应的多个内容检索返回结果,并在文件中进行定位显示。本申请解决了现有检索方法无法有效识别不同格式之间的关系和差异,导致极易出现识别错误和遗漏的技术问题,达到了提升图像化 PDF 文件内容检索的效率和准确性的技术效果。
来源:金融界