前言
2023 年是当之无愧的“大模型之年”,据瑞银集团的一份报告显示,ChatGPT 推出仅仅两个月后,月活用户已经突破了 1 亿,成为史上用户增长速度最快的消费级应用程序。
在炙热的大模型赛道里,基于中文大模型的发布也是层出不穷,相较于通用大模型的“大而全”,幂律联合智谱 AI 此次联合发布基于中文千亿大模型的法律垂直大模型 ——PowerLawGLM,聚焦于法律细分领域,针对中文法律场景的应用效果具有独特优势,具备丰富的法律知识和法律语言理解能力。
一、“法律垂直大模型”的诞生
通用大模型是具有强大语言理解能力和生成能力的人工智能模型,但由于专业知识及数据的欠缺,将通用大模型直接应用在法律领域,往往存在着严重的效果问题,例如法律知识错误、专业引用偏差、法律体系差异等问题。比如前段时间美国律师使用 ChatGPT 来提交法庭简报,结果引用的 6 个案例都是 ChatGPT 编造的虚假案例,这种“人工智能幻觉”现象在法律场景屡见不鲜,也说明了目前通用大模型难以保证法律专业层面的真实性、正确性。
幂律智能自 2017 年成立以来即深耕于法律 + AI 领域,基于领先的法律 AI 能力,向企业提供智能合同产品,并且深度参与了清华大学自然语言处理实验室的 OpenCLaP、LawFormer 等法律大模型的研发及应用。而智谱 AI 作为领先的通用大模型厂商,法律领域是其大模型迭代及布局的重要方向,基于双方达成的战略合作,在法律大模型上展开深度合作,来加快推动大模型在法律行业应用落地及商业化。
自 2023 年初双方成立联合项目组,启动法律大模型研发以来,经过千亿规模的基座模型增量训练、对话层监督微调、应用层工程优化,推出了基于中文千亿大模型的法律垂直大模型 ——PowerLawGLM。
二、“PowerLawGLM”的打造
PowerLawGLM 法律大模型,基于智谱目前效果最好的 ChatGLM 130B 通用千亿对话大模型进行联合研发。在 2022 年 11 月斯坦福大学基础模型中心对全球 30 个大模型的评测结果中,GLM-130B 是亚洲唯一入选的 Top10 大模型。
训练法律垂直大模型第一步 —— 基座层:阅读大量法律文本。
通用大模型在法律场景的应用效果问题,最基础的原因在于基座大模型没有经过大量高质量专业法律文本数据的训练。双方基于 ChatGLM130B 的基座大模型 GLM 130B,经过了多轮多次高质量法律文本数据(裁判文书、法律法规、法律知识问答等)清洗及模型增量训练,得到法律版基座大模型 LawGLM 130B。
训练法律垂直大模型第二步 —— 对话层:与法律对话场景对齐,具备法律场景的对话能力。
LawGLM 130B 基座模型具备了文本生成能力,但在法律对话能力上存在欠缺,因此需要利用大量的法律领域对话数据进行监督微调。双方利用了近百万对高质量法律知识问题数据,来训练得到 PowerLawGLM beta 版,此时,它已经初步具备了法律场景的端到端生成式对话能力以及独特的回答习惯。
训练法律垂直大模型第三步 —— 应用层:保证输出结果质量和可靠性。
法律问答的很多场景都有其特殊性,对于结果准确性的要求、可解释性的要求较高,直接大模型来端到端生成回答,会面临很多效果问题,例如引用失效法律、杜撰法条案例、与法律人处理逻辑不一致等等。因此幂律设计了一系列通用型及场景特定型的工程化优化方案,来提升法律问答的有法可依和引用法条内容的准确性,最终提升法律问答的专业性和可靠性。
通过以上三层结构,在基座层、对话层、应用层上提升了大模型对法律专业文本的理解、推理与生成能力:
﹒理解能力:理解复杂的法律文本,包括各种法律条款、判例、合同和其他法律文件。
﹒推理能力:从法律文本中推断出潜在的问题,提供可能的解决方案,或者预测出可能的法律后果。
﹒生成能力:回答法律问题,为用户提供咨询,甚至帮助起草法律文件。它还可以进行法律对话,帮助用户理解复杂的法律问题。
三、“PowerLawGLM”的实际能力
为了测试 PowerLawGLM 与通用大模型之间的效果对比,幂律的法律团队收集了互联网上法律相关的 Top100 高频问题,进行了不同模型的效果人工评测,并且从法律专业人员的角度,与 ChatGPT 等典型的通用大模型进行的效果对比。评测的维度包括:对问题点的把握是否准确、对问题所含信息的分析是否全面准确、答案的操作可行性强弱、答案的法律专业性程度、法律依据有无,以及准确性全面性程度。最终的评测结果显示,100 个问题的最优答案中,PowerLawGLM 接近 70% 是最优答案,并且在操作可行性、法律专业性等方面差异显著。
如图所示,以下是部分 ChatGPT 和 PowerLawGLM 的回答:
1.针对某一法律问题的咨询:
ChatGPT 对于彩礼问题的回答
PowerLawGLM 对同一问题给出的回答
在此法律问题上,ChatGPT 没有对能否请求对方返还彩礼进行正面解答,也没有对彩礼问题从法律角度进行分析并给出相关法律依据;而 PowerLawGLM 则对此问题进行了明确回答,对题目进行分析并给出了相关法律依据。
2.关于买卖合同的起草:
ChatGPT 对于合同起草的回答
PowerLawGLM 关于合同起草的回答
如图所示,ChatGPT 起草的合同较为简略,整体合同格式及条款表述与一份真实可用的合同差距较大,经常出现引用失效法律、条款缺失、信息不完备等问题;而 PowerLawGLM 将用户提问中的主体、标的物、单价、诉讼法院等信息准确无误的体现在合同正文中,并且合同条款的完整性、专业性差异显著。
四、基于 PowerLawGLM 大模型的对话产品 ChatMe 正式上线
基于 PowerLawGLM 大模型的能力,幂律打造了法律对话产品 ChatMe,现已正式上线,首批开放 50 个内测名额,扫码文末二维码即可直接预约报名体验。
ChatMe 的功能和特点:
﹒合同咨询:ChatMe 拥有丰富的合同知识数据,能够回答诸如“合同租期期限”等合同知识问题。
﹒合同起草:贴近中文合同起草场景,模版起草、条款组合起草、端对端生成起草等多种解决方案,让生成的合同质量更高。
﹒合同信息抽取:能够识别合同中的关键信息进行提取,如主体信息,合同总金额等等。
﹒合同审查:能够针对合同条款的风险点给出相关建议,提示风险。
﹒通用法律咨询:提供具有专业法律依据的法律咨询服务。
未来,幂律智能将持续专注法律垂直大模型的技术提升和落地应用,将法律大模型能力深度融入智能合同管理产品 MeFlow 及智能合同审查产品 MeCheck 中。同时,幂律将面向企业客户开放能力接口,企业可以将法律大模型能力快速接入现有业务流与系统中,带来显著效率提升。
幂律也会不断更新和改进模型,面向不断变化的法律知识和应用进行针对性的效果优化,进一步提升 PowerLawGLM 大模型的进化能力。