4月28日,科技创新与知识产权信息服务商智慧芽旗下的大模型开发团队在arXiv发表技术报告PatentGPT: A Large Language Model for Intellectual Property(智慧芽专利大模型:一个应用于知识产权领域的大语言模型),介绍“智慧芽专利大模型”的训练策略,及其在知识产权场景表现超越GPT-4等方面的应用优势。此前,智慧芽已发布“垂直领域大模型”并成功训练“专利大模型”和“生物医药大模型”。
arXiv是国际知名的学术平台,于1991年创立,目前在物理、数学、计算机科学等八个主题领域,收录了超过200万篇学术文章,由康奈尔大学的arXiv领导团队及工作人员维护运营。
在该篇技术报告中,智慧芽提出了一种用于训练面向知识产权领域的大语言模型,满足知产领域的独特需求。该模型在2019年中国专利代理师资格考试中成绩超过GPT-4,达到了人类专家水平。同时,鉴于其采用SMoE架构,因而在长文本任务上展现了更高的资源效率。此外,智慧芽提出了一个更接近大模型在知识产权领域用例的基准“PatentBench”,为知产领域大模型的全面评估提供参考。
亮点一:专业能力超越GPT-4
根据技术报告,智慧芽提出了知识产权领域大模型的标准训练程序,包括数据预处理、预训练、对齐和评估,并基于此训练了“智慧芽专利大模型”。
为了证明“智慧芽专利大模型”在知识产权领域的专业能力,团队使用2019年中国专利代理师资格考试对各项大模型进行测试。实验结果表明,商业通用大模型未能通过考试及格线,而“智慧芽专利大模型”取得65分,达到知识产权专家的水平。上述结果揭示了通用大模型在知识产权领域专业能力的不足,并再次强调了预训练领域特定大模型的有效性和必要性。
上图呈现了智慧芽专利大模型考试成绩高于商业通用大模型(图源arXiv)
需要强调的是,上述考试结果不仅仅是通过将知识产权知识整合到模型中实现的,还通过一系列数据增强技术提高了模型消除选项顺序干扰的能力,这种能力可以用PPA来表示。结果显示,“智慧芽专利大模型”的PPA显著优于GPT-4-1106-preview。
在技术报告中,智慧芽还使用了MoZIP,一项专门为知识产权行业大模型设计的开源测试基准,包含三项挑战任务:IP基础知识多项选择测验(IPQuiz)、IP基础知识问答(IPQA)和专利内容匹配(PatentMatch)。
其中,“智慧芽专利大模型”在专利内容匹配任务上的表现均超过了GPT-3.5-turbo,这表明智慧芽大模型在把握各种专利之间的关系方面更为优秀,该能力有助于协助专利审查员识别潜在的侵权内容。可见,智慧芽的预训练数据和策略有效提高了大模型在知识产权领域的性能。
上图呈现了智慧芽专利大模型在专利内容匹配任务上的表现优异(表源arXiv)
亮点二:推理效率更胜一筹
除了性能外,模型的响应延迟和运营成本对于其商业可行性至关重要。智慧芽大模型开发团队对所有“智慧芽专利大模型”进行了4位量化,并使用了Text-Generation-Inference(TGI)-1.4来评估它们在输出第一个标记时的资源消耗。所有实验都在配备NVIDIA A100 80GB GPU的服务器上进行。
下图展示了输入序列长度与推理阶段资源消耗之间的关系。结果表明,所有模型的GPU内存使用量与它们的参数数量和输入序列长度都呈正相关。其中,“智慧芽专利大模型-1.0-MoE”在输入序列长度增加时GPU内存使用量的增加最小,表明其在涉及长上下文场景的应用中更具资源效率。
上图呈现了智慧芽专利大模型-1.0-MoE在长上下文场景应用中更具资源效率(图源arXiv)
实验结果还揭示了在模型性能水平几乎相等的条件下,“智慧芽专利大模型-1.0-MoE”在推理效率方面更胜一筹。知识产权领域大模型尤为注重长上下文序列的计算资源管理。该模型的设计允许处理长上下文并保持高性能水平,而不会对系统资源造成不必要的负担,提供了一个可能的优越折衷方案。这或许是在资源管理与处理复杂和长数据序列的能力同样关键的环境中部署先进的知识产权导向模型的关键一步。这些发现表明,类似“智慧芽专利大模型-1.0-MoE”这样的SMoE模型在知识产权行业中得以应用的可行性,以及选择模型架构以开发功能强大、高效和专业使用的解决方案的重要性。
亮点三:建立PatentBench评测基准
目前市面上缺乏系统性评测大模型在知识产权领域专业能力的开源基准,为此智慧芽提出了PatentBench,率先将专利代理和审查过程中涉及的任务,如专利规格起草、专利分类以及总结专利的关键技术点,纳入评估知识产权领域大模型的基准。值得一提的是,智慧芽计划在2024年第四季度开源PatentBench,为开源社区和行业发展做出贡献。
PatentBench的主要评估任务包括:专利问答Patent QA、专利撰写Patent Writing、专利分类Patent Classification、专利摘要Patent Summary、专利推理Patent Reasoning、专利校正Patent Correction、专利翻译Patent Translation。
具体来看,智慧芽首先使用GPT-4和NLP中广泛使用的指标评估“智慧芽专利大模型”在PatentBench上的零样本性能。为了评估模型的总结、撰写和对话能力,使用GPT-4作为评委,对比不同模型输出结果的质量。
结果显示,“智慧芽专利大模型”在起草和知识产权领域的开放式问答方面显著优于ChatGPT-3.5-turbo,表明“智慧芽专利大模型”有潜力作为专利助手,帮助人类起草专利说明书、阅读专利以及理解专利法律法规。
随后根据不同的指标评估了分类、审查、翻译、文本校正和推理能力。“智慧芽专利大模型”在除了推理之外的其他能力上整体优于ChatGPT-3.5-turbo。这些结果证明了智慧芽的预训练和专利大模型在知识产权领域的先进性。
上图呈现了智慧芽专利大模型在多项能力上表现优异(图源arXiv)
未来,智慧芽大模型的开发将专注于增强长上下文支持,以满足更多样化的知识产权工作场景。此外,还将积累英文预训练语料库和SFT数据,以进一步提高智慧芽垂直领域大模型在英文方面的表现。
来源:科技快报