智东西
作者 | 程茜
编辑 | 漠影
智东西6月28日下午,昨日下午,科大讯飞的星火大模型迎来重磅升级,基于全国首个国产万卡算力集群“飞星一号”的讯飞星火大模型V4.0性能表现已超越GPT-4 Turbo,并且相关应用已经在医疗、教育等领域落地。
星火大模型核心性能的升级以及与千行百业业务场景的深入结合,与当下大模型产业的两大焦点问题密切相关。
一开场,科大讯飞董事长刘庆峰就谈道,一方面,底座大模型的能力决定了我们可以在通用人工智能的浪潮中走多远;另一方面,大模型未来不仅将改变信息获取、内容生产模式,还会改变整个产业竞争格局、科研范式,因此对于企业而言,让大模型真正科学合理地在刚需场景中落地才更有价值。
星火大模型V4.0在国内外多个主流权威评测体系中,在多项能力中已经全面超越GPT-4 Turbo,成为支撑大模型走向应用的核心底座,与此同时,科大讯飞推出星火企业智能体平台,通过交互的方式大幅降低智能体创建门槛,让每个岗位都能拥有AI智能体。
可以看出,星火大模型V4.0以及基于其打造的自主可控、软硬一体解决方案,就是科大讯飞为当下大模型产业面对这两大核心技术问题亮出的最优解之一。
一、全面对标GPT-4 Turbo,可执行复杂指令、空间推理等高阶任务
国内大模型已经在全面赶超GPT-4 Turbo之路上突飞猛进,能力持续跃升必然是大模型产业当下的必答题。
去年,科大讯飞参与设计的国产通用认知智能大模型测评体系,形成覆盖7个方面481个测试项的评估基准。在七大衡量大模型的关键指标中,星火大模型V4.0已经在其中的文本生成、语言理解、知识问答、逻辑推理、数学能力已经全面超越GPT-4 Turbo。
另外的代码能力和多模态能力上,星火大模型V4.0略有差距。刘庆峰谈道,代码能力是未来的产业信息化和信息产业化的核心,星火大模型预计在今年8月达到当前GPT-4 Turbo 86分以上的水平。此外在多模态能力上,星火大模型图文识别能力在科研、金融、医疗、司法、办公等场景的应用效果已领先GPT-4o。
不仅如此,在国内外中英文12项主流测试集中,星火V4.0在其中8项测试集中全面超越了GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Pro。
在具体的业务场景中,讯飞星火V4.0的能力也在不断进阶。
实际情况中,大模型往往需要听懂多元化的复杂指令,或者基于已有的空间信息进行推理、基于逻辑关系进行多模理解等。并且大模型生成内容更为准确、能够减少幻觉对于应用端来说都至关重要。
因此,星火大模型长文本能力在长文档要素抽取、长文档总结摘要、长文档问答、长文档文本生成能力全面升级的同时,还首发了内容溯源功能。也就是说,用户在查阅大模型生成的文本内容时,可以点击答案附近的超链接,就能准确找到这部分答案的出处。
中英文长文档以及音视频等的解读、问答,星火大模型V4.0均可胜任,同时在溯源时能帮用户快速定位到文字、视频的相应位置。
当根据两篇长文档提问孙悟空的金箍棒和哈利波特的魔杖有什么相同点和不同点时,星火大模型V4.0从神奇属性、身份象征以及材质来源、功能等方面进行了详细分析。遇到不理解的部分,用户可以直接点击链接分分钟找到内容出处。
同时,星火大模型的图文生成能力还从单张图进阶到了多张图片之间的逻辑理解、生成文本,可以根据多张图片生成小故事并且进行语音朗读。正如下图所演示的,将小兔子和小鸟的互动情节进行了生动串联。
大模型的能力正在从单一的生成、问答、理解能力进阶,向着更高阶的能力演进,同时也逐渐朝着大模型走向落地应用,解决企业或者个人真正需求的底座演进。
二、两大路径、三大优势,科大讯飞为企业大模型落地铺路搭桥
从整个产业的发展格局来看,大模型的竞争焦点已经逐渐外延,从百模大战、排名刷榜逐渐深入行业应用中。
今年上半年,已经有数十个大模型大单公布中标结果。以讯飞星火大模型为代表的越来越多大模型玩家已经奔赴大模型落地战,伴随着下半年的新一批大单涌现,AI落地应用竞争进入白热化态势。
这背后,如何让企业对于大模型应用落地的感知度更强,让大模型与企业业务场景的结合更便捷、高效,且真正融入其核心痛点中至关重要。
相比于C端,企业业务场景的需求更为明确,且能深度集成至企业业务场景中进行定制化,能在帮助企业解决复杂问题、真正提质增效,对于大模型玩家而言,其产品价值的体现也更具针对性。
总体来看,大模型赋能企业的核心路径有两条,一是基于认知大模型的能力直接完成任务,二是认知大模型作为大脑,调度内外部工具完成任务。
对大模型落地应用的思考,正从讯飞星火大模型的全体系升级布局中清晰呈现出来。刘庆峰将大模型的能力边界在企业应用中进行了更为细致的拆解,一般难度指的是代码生成、文案翻译、文本摘要等大模型可以拿来即用,中等难度就是需要企业对基座大模型进行定制优化,例如检索类的知识问答、多轮对话等应用化的服务。
而高难度任务就是更难的数学推理、多阶推理类知识问答,这一能力需要开放域的通用智能体来完成,但短期内还没有实现。
这对应到企业中就是一个核心问题,如何用更少的算力、更高的效率打造专属模型和专属应用。这就对大模型玩家本身产品是否易用、好用、可用提出了更高的要求,这也是企业为大模型买单的关键。
因此,科大讯飞在锚定真正让大模型落地应用这一核心目标之后,将自己的技术优势、应用经验、生态范式真正打通。
从去年发布至今,讯飞星火大模型能力不断跃升,且打造了面向企业的智能体开发平台,进一步降低企业业务与大模型能力相互影响、对齐的门槛。
与此同时,作为AI国家队的科大讯飞,在加速当下国内大模型商业化加速落地过程中具有天然的优势,其技术实力在AI产业的发展中已经被充分验证。以智能语音交互技术为例,深耕十余年且近日科大讯飞拿下过去十年人工智能领域首个国家科学技术进步奖一等奖——作为第一完成单位的“多语种智能语音关键技术及产业化”项目斩获国家科学技术进步奖一等奖。
技术创新与产业落地在科大讯飞的业务布局中相辅相成。科大讯飞已经在教育、医疗、汽车等诸多赛道上有了大量的商业化积累。讯飞星火大模型已经应用于国家能源集团、中国石油、中国移动、中国人保、太平洋保险、交通银行、奇瑞汽车、中国一汽、海尔集团、美的集团等各赛道头部玩家的业务场景中。
在这些优势的支撑之上,科大讯飞正在朝着构建面向未来的AI新生态突围,以源头技术生态、智能体生态、应用生态、行业生态真正在大模型的发展过程中流转起来。
科大讯飞正为大模型落地企业提供了无限的想象空间。
三、企业的专属岗位AI助手,对话交互就能搞定智能体
伴随着讯飞星火V4.0的重磅升级,科大讯飞为大模型赋能企业亮出了另一大杀手锏——星火企业智能体平台,为每个岗位打造专属的AI助手。
在解决企业大模型应用最后一公里上,刘庆峰谈道,企业首先要科学地认识大模型能力的边界,根据任务难度选择合适方案,并且用更少的算力、更高的效率,打造企业专属大模型。基于星火V4.0的强大能力,他认为用智能体平台打造每个岗位的专属助手的时间已经到了。
智能体在企业的业务场景中,可以通过拆解分析用户的任务需求并进行任务执行的步骤规划,然后匹配相应的任务工具,同时调用打通内外部知识信源,最后能够准确执行用户的任务需求。
现在科大讯飞将企业创建智能体的门槛降低,只需三个步骤:提出需求、构建智能体、功能验证。用户只需说出需求,就可以实现一句话创建。在对话框中,用户只需要说出智能体的相应功能,该平台就会自动生成开场白、所需信源、技能规划等。
如果企业内部的办公平台已经与星火智能体平台连接,智能体还会自动同步到企业内部办公平台上,用户就可以进行功能验证。
以下图演示的彩页智能分析专家为例,用户可以直接上传彩页图片,该智能体就可以通过OCR识别并将其中的信息进行结构化呈现,并且迅速检索给出企业的核心业务以及与其他公司的合作方向等供用户参考,最后将这些内容进行总结梳理,以分析报告的形式发送到用户邮箱中。
如见简便高效的智能体生成流程,这背后依靠的是星火企业智能体平台的三大关键能力,AI原子能力、集成外部信源、打通内部IT系统。
刘庆峰透露,目前AI原子能力集成已经超过400多家,涵盖90多个重要外部信源,打通了超过100个的内部IT系统,包括公司的财务、法务等诸多部门。
在常见的生产、科创、办公和管理领域,科大讯飞已经首批创建了32个企业智能体,企业可实现即插即用。
特别在AI编程领域,正如前文所所提到的,其在信息化产业与产业信息化的发展中至关重要,因此科大讯飞不断迭代代码智能体iFlyCode,可以满足代码生成、架构设计、代码问答、测试、数据库优化、代码审核方面实现应用。在科大讯飞内部,代码智能体的代码采纳率已经从30%提升到52%。
此外,还有企业中需要大量数据分析处理、信息检索或者耗时耗力的商机线索、评标等方面,讯飞创建的企业智能体已经深入不同的企业业务流程中,帮助不同环节的员工实现了将本增效。
面向企业,科大讯飞还在人机交互领域,全面升级了支持37个语种、37种方言自由对话的星火语音大模型,重构用户的交互体验,已应用在星火汽车智能座舱等产品里。在家电、机器人、运营商等行业场景下,科大讯飞的云边端和软硬件一体化解决方案也为这些玩家提供了更具灵活性的方案,去释放大模型潜能。
当下,企业的数字化转型需求,与大模型日益进阶的性能提升相契合。科大讯飞已经形成了底座大模型支撑,外加通过智能体平台深入业务“细枝末节”,为企业搭建起坚实的技术底座。
还有更为重要的一点是,刘庆峰强调,新的AI生态体系建设的根基就是底座技术完全可控,总结起来就是“软硬一体+自主可控”。这也正是讯飞星火大模型V4.0此次升级迭代的底层逻辑,既真正为企业释放大模型价值,又要让软硬件一体化的解决方案成长于中国自己的土壤之上。
结语:大模型商业化落地爆点降至,科大讯飞率先布局
大模型在企业的各个业务环节中发挥作用、释放价值已经成为这一产业发展的重要趋势,因此,大模型玩家与不同的企业需要对大模型本身的能力以及企业的核心痛点进行拆解与对齐,在此之上才能让AI能力真正普惠,落地到千行百业之中。
点点“星火”,已成燎原之势。讯飞星火正在以基座大模型为核心,进一步助攻大模型技术在各行各业的规模化普及。对于国内的大模型玩家而言,既需要科学理性认识到中美科技的综合差异,还需要在朝着通用人工智能加速前进的同时,以长期主义来打造真正自主可控的AI产业生态。
科大讯飞已经成为先行者,并且让大模型在企业刚需场景的更多应用价值逐渐被释放出来,加速大模型应用生态的蓬勃发展。