AutoPatent框架能够自动化生成高质量的专利文档,大幅提高专利撰写效率,有望简化专利申请流程,降低成本,促进创新保护。
在科技日新月异的今天,专利作为保护创新成果的重要法律工具,其撰写过程却往往繁琐且耗时,传统的专利撰写工作通常由熟悉专利法律和技术领域的专利代理人完成,这一过程耗时费力,且效率较低。因此,开发一种能够自动化生成高质量专利文档的方法,对于提高专利撰写的效率和准确性具有重要意义。
最近,来自中科院深圳先进院和大连理工大学的研究团队联合开发了一个名为AutoPatent的自动化的多智能体专利生成框架,能够在十分钟左右的时间依据发明人的专利技术底稿生成一篇完整的专利文档。
论文地址:https://arxiv.org/abs/2412.09796
代码链接:https://github.com/QiYao-Wang/AutoPatent
一份完整的专利申请文件通常包含标题、摘要、技术背景、详细描述和权利要求等内容,其平均长度在17,000 Tokens以上。以往的专利申请流程通常为发明人依据发明的具体可实施内容撰写专利技术底稿委托专利代理人起草专利申请文件。
专利起草是一个复杂的知识密集型任务,需要专利代理人对专利法熟悉并且具备该发明所属技术领域的知识,从而能够完成对发明人技术底稿的审查和规范化重写。
目前这一过程仍然完全由人工手动完成,具有较高的人力成本和时间成本,从技术交底书到正式向专利局提交的时间通常在一个月以上,无法有效保护迭代更新较快的技术领域的相关发明。
以往的专利撰写任务通常关注专利文件内部文本的相互转化,例如专利的摘要与权利要求之间的相互转化等。
研究人员通过模拟真实场景中的专利撰写工作,引入了一项新颖的专利起草任务Draft2Patent,将发明人技术底稿转化为完整的专利文件,提升专利代理人的专利撰写效率。
该任务主要有两个主要困难:
底稿和完整专利的平均长度分别为4,000 Tokens和17,000 Tokens。
一份高质量专利需要具有专利性(非显而易见性、有用性、新颖性以及符合专利法律规范),同时需要满足专业技术领域和法律的相关规范。
研究人员构建了Draft2Patent任务对应的基准数据集D2P,其中包含1,933条底稿专利文本对和其他元数据,并将其划分为包含1,500条数据的训练集,133条数据的验证集和300条数据的测试集。
随着大语言模型的发展,基于大语言模型的智能体展现了在知识密集型领域的意图理解、规划、记忆、重复思考及任务执行的强大能力。
针对Draft2Patent任务,研究人员提出了一个新颖的多智能体自动化专利起草框架AutoPatent,其中使用写作、规划及审查三大类八个智能体在短组件生成、专利写作规划树构建(PGTree)、参考-审查增强生成(RRAG)三步骤的驱动下完成完整专利的撰写。
该篇文章的主要贡献有:
自动化生成,提升专利撰写效率
通过自动化生成专利文档,文章提出的AutoPatent框架显著提高了专利撰写的效率,能够在十分钟左右的时间内生成一篇完整的专利文档,减轻了专利代理人和发明者的工作负担,使他们能够更专注于创新和专利内容的优化。
多智能体协作,提升专利质量
AutoPatent框架通过多智能体协作,其中规划智能体构建PGTree(Patent Writing Guideline Tree,专利写作指南树),专利详细描述写作智能体与审查智能体基于RRAG(Reference-Review-Augmented Generation,参考审查增强生成)协作撰写占据专利文本80%以上的详细描述部分,确保生成的专利文档符合法律和技术标准。这提高了专利的合规性和保护范围,增加了专利被授权的可能性。
由此及彼,推动知识产权服务创新
文章提出的Draft2Patent任务和AutoPatent框架为知识产权服务领域带来了新的思路和方法。这有助于推动知识产权服务的创新和发展,提高整个行业的服务水平和竞争力。
研究团队构建了D2P基准数据集,包含1,933个草稿-专利对和其他专利元数据。
由于专利局仅公开授权专利,而发明人和专利代理人不会公开其发明的底稿。
为此,团队通过与专业的专利代理人沟通,构建了涵盖发明所有相关信息的五个问题
,对于单个专利P,将GPT-4o-mini模拟为发明人,通过询问五个问题得到对应的回答
,并将其与问题组合为底稿。
为了保证底稿的有效性,研究人员构建了对应问题的审查标准,通过将GPT-4o模拟为专利审查员来评估每个答案是否能够准确描述该发明,并且通过人工筛选后,获得了1,933条高质量的专利底稿数据。
D2P数据集中不仅包含底稿专利文本对,还包含底稿与其他专利元数据文本对,如底稿标题文本对等用于智能体的微调,同时还构建了底稿-PGTree文本对数据,用于微调规划智能体。
对于单个专利P,研究人员将GPT-4o-mini模拟为人工智能助手总结专利P的详细描述中每一部分的内容,并将其组织构建为预设的双层多路专利写作规划树的数据结构。
统计数据集中各部分的文本长度后,可以看到标题、摘要、权利要求、总结及技术背景等内容的长度小于2000 Tokens,而专利的详细描述部分长度超过了14,000 Tokens,占据完整专利的80%以上,生成高质量专利详细描述是本基准的一大挑战。
研究人员提出了一个新颖的多智能体自动化专利起草框架AutoPatent,其中包含三大类八个智能体在三大步骤的驱动下完成完整专利的撰写。
在AutoPatent框架中,定义了八个智能体,并将其分为三类:写作智能体、规划智能体及审查智能体。
写作智能体:由于专利的各个部份之间存在着一定的格式及风格差异,如专利的摘要一般较短而权利要求通常为具有编号的结构化文本。将六个写作智能体分为两大类,即短文本写作者和详细描述写作者。
规划智能体:由于专利的详细描述的平均长度超过14,000 Tokens,为大语言模型一次性生成详细描述带来了困难。通过引入双层多路的专利写作规划树PGTree,指导详细描述写作者在RRAG过程中分步生成完整的详细描述。
审查智能体:通过模拟真实场景中的专利撰写步骤,定义了审查智能体。其需要依据事先设定的评价规范完成两类任务,即发明人提交新底稿后的质量审查和与详细描述写作者协作评估详细描述的质量并提供反馈达到优化的效果。
提供了相应的逻辑框图和伪代码。通过模拟真实场景中的专利撰写过程将AutoPatent框架的整体工作流程分为三步。
短组件生成:在Step I中,利用不同的短文本写作者将专利底稿并行转化为对应的短文本。之后将这些短文本与专利底稿共同组成参考(Reference, R)。
专利写作规划树构建:在Step II中,利用规划智能体构建该底稿对应的PGTree。PGTree是一个双层多路树,将详细描述的生成任务拆解为双层级的大纲式多步生成任务。第一层节点提供该部分的整体概述,第二层节点向详细描述写作者提供每个子部分的具体指令。
参考-审查增强生成:在Step III中,详细描述写作者首先根据PGTree中二层节点的具体写作指令从参考R中检索对该部分写作有用的信息,提升内容的一致性和可靠性。详细描述写作者之后根据二层节点的具体写作指令和检索到的内容生成子部分的内容,审查智能体将主动介入依据审查标准判断生成的子部分的质量,并通过与详细描述写作者的多轮交互完成子部分的内容优化,直至通过审查。
研究人员采用了n-gram基于的BLEU指标和ROUGE-1、ROUGE-2、ROUGE-L指标作为客观指标,同时提出了一种新的逆重复率(IRR)指标来衡量专利文档中句子的重复程度,从而去除由于重复句子过多对基于n-gram的指标的过度奖励。
其中真实专利的IRR在t=0.2时为91.33,t=0.4时为98.57,真实专利的文本重复率较低。
其中基于Jaccard相似度和设定的阈值超参数判断专利文本内部句子的重复,函数f(si, sj)定义为:
同时,实验邀请了三位熟悉专利法和专利撰写的人类专家对生成的专利文档进行质量评价。评价标准包括准确性、全面性、逻辑性、清晰度、连贯性和一致性等六个维度。
将AutoPatent框架与零样本提示生成方法和监督微调生成方法进行了对比,以评估AutoPatent框架的性能。
实验结果显示,AutoPatent框架在多个维度上均优于基线方法,其中AutoPatent框架使用Qwen2.5-7B作为基座模型时的性能超过了参数量更大和能力更强的模型,生成的专利文档在长度、内容质量、重复率等方面均表现出色。
与此同时,三位人类专家均认为基于AutoPatent框架生成的专利文本质量好于其他方法。
AutoPatent的出现在未来可能对知识产权行业产生深远影响:
https://arxiv.org/abs/2412.09796
本文来自微信公众号“新智元”,作者:LRST,36氪经授权发布。