当前位置:首页|资讯|金融|提示工程

文因互联首席科学家宋劼:Turn On The“文因LED”——企业专家智能体的精益迭代

作者:文因互联发布时间:2024-11-20

点击蓝字,等你关注

分享人:

文因互联首席科学家,宋劼博士

What's that?

企业专家智能体

在一家企业中,业务专家可以说是企业生产的原动力。一名业务专家需要具备多层次的素质,除了思维逻辑清晰和具有该行业和领域的专业知识以外,还需要对于企业有专属的认知,同时对于很多专业的任务,需要强有力的执行能力。

培养一名业务专家,需要一段漫长的时间。而专家数量的增加,经验的传递和知识的传递,可以说是决定了企业的竞争力。

面对企业长期存在的业务专家培养难题和人才短缺问题,当前大模型技术的发展为我们提供了新的解决方案。我们有机会通过基于大语言模型去打造各领域的专家智能体,以专家分身的方式实现能力的拓展和复制。

Why Need?

更高层次的业务专家

在金融领域深耕很多年,我们深刻体会到了业务专家对于企业的重要性。因此,在大模型时代,我们致力于用这个技术帮助企业去打造业务专家智能体。下面就让我们一边梳理大模型的发展层次,一边来看如何实现更高层次的业务专家。

L0层

在L0层次,通用大模型主要基于各种的通识语料,对模型进行从0到1的训练,这样的模型具有了基本的常识和思维逻辑的能力。

L1层

在这一层次,文因依托于过完积累的语料和数据,训练了自有的三个行业模型,包括金融大模型、航空大模型和工业大模型。这些模型能够为特定行业提供更加专业化和精准的服务。

L2层

在大模型的企业落地过程中,行业模型通常已经能够为企业带来显著的效能提升。可以根据具体情况通过后训练的方式,利用企业内部的专有语料构建企业定制模型。

L3层

L3层次我们将其定义为任务模型层次。在这一阶段,通常需要对模型进行特定任务的微调,以便模型能够完成特定的下游任务。

当前企业大模型应用的问题与解法

01

能力局限性

在企业应用中,大模型虽然强大,但仍存在一些局限性。例如信息遗忘问题、复杂任务执行不精确等。这就需要我们对企业的需求进行分解,并针对具体任务进行详细的规划。

而对于一些已经非常成熟且传统的任务,大模型的表现可能还不如专门设计的小模型。在这种情况下,我们通常让大模型调用其他工具或小模型来补全其能力。

02

构建企业智能体

整合大模型的能力,赋予其记忆、规划和工具运用的能力,使其更加适应企业的具体需求。在这个过程中,提示工程、思维链的构建以及逻辑推理能力的应用至关重要,它们共同推动智能体的有效构建和优化运作。

大模型的产业落地最终体现在AI智能体上,虽然通用大模型的效果显著,但在企业实际应用中,结合中小型模型和企业自身的数据可能会带来更高的性价比。

03

企业应用ROI

企业内部通常非常关注ROI(投资回报率),当前企业对投资回报率有了更强的诉求。因此,文因绘制了一个展示大模型赋能的ROI曲线,以反映其在企业中的价值和效益。

探索大模型破局之路

“暴力美学”的算力迷局

企业对内部模型的需求主要集中在高度专业化的任务上,这些任务不仅要求高精度,还要求高可靠性。常见的任务包括信息提取、文档审核和信息问答等。

企业大模型准确率问题

根据过去十年在金融领域的实施经验,我们了解到客户对于任务的完成度期望通常在90%以上,才能满足实际应用的要求。虽然通用大模型为任务提供了坚实的基础,但其准确率往往只有40%~60%。通过后期针对特定行业和任务的训练,我们可以将行业模型或任务模型的准确率提升至70%。

在L2 阶段之后,单纯依赖算力的“暴力美学”已不再可行,我们应更加注重通过数据和算法优化来实现高性价比的目标。在大模型应用于企业的过程中,需要特别关注“最后一公里”的问题。在过去五年中,这一直是我们面临的挑战。我们认为,在不同的阶段,应采取不同的策略。

新局面:智能体阶段

在 L1 到 L3 阶段,需要根据企业的具体任务进行细致的微调训练。此时,高质量的数据集比大量数据更为重要,我们需要加强数据处理环节,并可通过运用小型模型来提升特定数据的质量。

L3 到 A0 阶段,我们称之为智能体阶段,引入迭代训练以加速智能体的研发。将复杂的端到端任务拆解为更细致的原子任务,并建立工作流水线,提升模型输入和输出的质量与稳定性。

模型效果如何评估?

通过建立多维度的自动化评估体系,加快模型构建、评估和迭代的速度。

我们可以从六个维度对模型效果进行评估:传统的机器学习和深度学习的判定指标、准确率、召回率、F1值、大模型特有的幻觉评估以及针对模型效能的训练质量评估。还可以通过引入置信度评估来更好地判断输出结果的可靠性。

企业智能体构建的关键步骤

工程化的方法

大模型时代相比过去,一个显著的变化是提示学习正在逐步替代传统的模型训练方法。精心设计的提示词能够有效提升模型的输出质量,因此,快速迭代和优化提示词变得尤为关键。

通过建立基于反馈的提示词优化机制,在模型迭代中实现速度的显著提升。任何模型阶段,数据都是企业最宝贵的资产。在这个过程中,我们需要充分积累并有效管理数据,把这些高质量的数据重新回馈到系统中去反哺模型。

我们的目标可以用一句话概括:采用工程化方法构建智能体,确保整个过程成本可控、过程可追溯。为此,我们定义了两个关键指标,一是降低业务建模的总拥有成本(Total Cost of Ownership, TCO),二是提高业务数据的投资回报率(Return on Investment, ROI)。

TCO用于评估模型开发整个生命周期内的所有成本,为了降低TCO,我们提出以下3个步骤:

1、构建工具链,实现人机交互过程中的高效协同。

2、加快反馈迭代速度,包括快速建模、验证和迭代。

3、构建用户友好的可视化工具,使业务专家能够直接参与建模和验证过程。

企业落地为何不选择端到端?

针对这个问题,我们进行了尝试和验证。结果表明,在处理复杂且精细的任务时,大型语言模型仍有其局限性:

1、准确度不高。以审核任务为例,这类任务对语义和业务理解的要求较高,而模型的平均准确率可能仅在30%左右。

2、输出不可控。输出格式的不可控性,增加了数据清洗的工作量;输入错误和输出错误的原因不可控,增加了测试验证中判断错误原因和归因的难度。

3、幻觉问题。大型模型有时会生成原始文档中不存在的内容,这要求业务分析人员进一步进行逻辑理解以找出原因,增加了后续数据使用的难度。

4、缺乏可解释性,可信度不高。企业内部遇到的任务往往对后续流程有深远的判定意义,或与后续流程紧密相关。在缺乏可信度和可解释性的情况下,用户对这些数据的使用会持谨慎态度。

SO:尽管通用大型模型在某些方面表现出色,但在需要高度准确性和稳定性的业务场景中仍然存在局限性。因此,在企业级应用中,我们需要更加谨慎地评估和选择适合的技术方案。

新篇章:精益迭代路径

精益迭代的发展与思考

在人工智能的发展历程中,工程化始终是一个关键且不可避免的挑战。文因坚持精益迭代的思维,并将工程化的“拆解工作”划分了三个发展阶段:知识图谱时代的图谱拆解、深度学习时代的模型拆解、大语言模型时代的任务拆解。

在知识图谱时代,尽管图数据库拥有显著的优势,但在数据检索和存储效率方面,与传统的关系型数据库相比仍有所不足。

在深度学习时代,我们见证了暴力美学的极致表现——通过大量样本和标注数据进行训练,获得出色效果。然而,在真实的业务场景和生产环境中,很难完全满足“大量样本”的训练数据需求。

在大语言模型时代,大模型并不能解决所有问题,因此通常会结合大模型和小模型的方式来使用。利用基于提示工程的技术,我们可以通过不同的提示词与大模型交互,从而获得类似多种模型输出的结果。

基于大模型时代的技术成果与实践总结,未来我们想持续不断地实现“精益迭代”,兼顾ROI、降低TCO,需要一套更精细、更灵巧的方法论指导。而这个方法论也将为企业专家智能体的构建与发展,带来新的活力。

How To?

Turn On The“文因LED”

文因总结出一套自己“精益”迭代的方法论—— LED(Lean Expert Develop)。

文因 LED

Lean

快速开发、快速迭代,通过少量的标注进行快速验证。

Expert

引入专家知识。借助大模型通过人机交互的方式,将专家知识转化为机器可控的语言。

Develop

建立一个标准的智能体开发流水线,快速组合模型生产工具流,同时保证整个工具流可复制,数据可沉淀。

基于大语言模型的技术,我们对知识建模过程进行了重构。改造前模型的迭代周期通常需要两到三天,并且伴随着大量的沟通交流和信息对齐工作。改造后业务分析、数据标注、模型审核评估和调优阶段都可以由业务专家或提示工程师独立完成,整个迭代流程缩短至10到20分钟。

核心改进在于智能化的知识注入,利用大模型将自然语言转化为决策模型,并通过人机结合的方式,基于小规模样本,进行快速验证。这样的建模工程可以由业务专家或提示工程师独立完成,大幅减少了沟通过程中的信息损耗和数据摩擦。

落地

用“文因LED”重塑知识管理

基于上述思考和工作,我们正在逐步建立自有的智能体服务体系。我们的愿景是重塑企业级知识管理,并帮助企业构建专家智能体。我们的目标是通过精益构造机制来提高面向企业服务(ToB)的ROI,目前已经在逐步推动产业落地。

在资产管理领域,我们基于资管大模型的构建,为企业打造了风险控制、投资研究和辅助决策等环节的投资地图和风险预警系统。

在投资研究和决策领域,我们开发了智能会议、智能研报、智能知识库等智能体,以辅助企业在投研过程中的文档分析、撰写、阅读和整个运营流程。

在航空领域,我们构建了航空的大模型,在飞行品质监控,SOP的偏差分析,数据治理和维修辅助等方面,进行了智能体的构造,包括智能维修,仪表回放,看板问答等等。

在工业领域,我们构建了工业大模型,并基于此进行了智能审核,资源规划,资源管理等智能体的构建,辅助企业进行智能制造,运营自动化等等一系列的产业升级。

未来已来,一起Turn On The“文因LED”,开启企业专家智能体的规模化之门。

还在写一堆规则吗?大模型+抽取:智能数据治理“新姿势”

财报季减压副驾驶 | 大模型时代的智能撰写平台

大模型+航空 | LOSA 数字化解决方案

解决方案 | 大模型+智慧工业:工业 4.0 的超能CP

解决方案 | 大模型+智慧工业:工业 4.0 的超能CP

Memect/ 关于我们

文因互联——AI 重塑知识管理先驱者,提供企业级的大模型应用解决方案。以大模型技术为基座,结合 NLP、提示工程、知识图谱等技术,通过多年行业实践积累,实现对业务文本进行文档解析、智能信息提取、智能内容生成、深度语义理解与关联分析,致力于企业知识的深度挖掘与有序传承,进而助力企业实现大规模的流程自动化和敏捷的市场响应。

自成立以来,已服务过金融、建筑、媒体、医疗、航空、通讯等 20 多个细分行业核心业务场景,落地上百项目,有丰富的智能化实战经验。

作为国家高新技术企业,获得中国证监会首批科技服务商备案,已获得中国信通院、CMMI、ISO 27001信息安全管理体系等权威机构资质认证,以及IDC、CBInsights、毕马威等权威机构金融科技 50 强认证。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1