7月4日-6日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)在上海召开。
作为国内在政务领域开展 AI 大模型的公司,蜜度科技股份有限公司(MIDU,以下简称“蜜度”)今年在WAIC期间发布自研的蜜巢3.0大模型,支持MoE(专家混合)架构,在预训练、微调与RLHF阶段分别新增200亿、10万、1万高质量语料数据,并且从训练到推理全流程融入国产化软硬件生态,为客户提供安全可控的落地解决方案。
会前独家对话时,蜜度首席技术官(CTO)、蜜度蜜巢总裁刘益东对钛媒体App表示,基于去年政务垂类的蜜巢2.0模型,今年3.0模型更加注重落地场景的针对性训练,利用MoE架构实现细分场景的业务应用,用更泛化的系统解决20多个场景的实际问题。他指出,从整体来看,蜜巢3.0 MoE模型的性能提升10%左右,而更大的效果提升将体现在基于高质量数据集、多任务架构和全流程国产化的新模型所广泛应用的落地场景当中。
蜜度CTO、蜜度蜜巢总裁刘益东
据悉,蜜度成立于2009年,是一家以 AI 技术为核心的语言智能和垂直大模型企业,专注于多模态、多语言智能科技,利用跨模态检索(CMR)、多语言校对(MLC)、计算机视觉(CV)、自然语言处理(NLP)、知识图谱(KG)等技术,为政府、媒体和企业各类场景提供AI产品以及“AI+”解决方案。
2015年,蜜度获新浪微博股权投资;2020年公司获人民网旗下投资基金的股权投资。
2023年,蜜度完成股改,并发布蜜巢政务大模型、文修智能校对大模型,并于2024年初,蜜巢、文修两个垂直大模型均完成备案。与此同时,蜜度还与华为昇腾深度合作,目前蜜度已使用华为基础设施产品展开业务商业落地。
去年WAIC发布蜜巢大模型时,刘益东向钛媒体App直言,团队一直致力于打造优质数据构建、数据训练输出能力,以此形成ChatGPT、DALL·E 2这类产品体验。而与GPT不同的是,蜜巢大语言模型更多用于政务、媒体行业等垂直领域,并非ChatGPT这种千亿级通用大模型。(详见钛媒体App前文:《蜜度推出自研行业大模型蜜巢系列》)
而相较于蜜巢2.0,蜜巢3.0主要新增3个核心点:首先,蜜巢3.0在预训练、微调与RLHF阶段分别新增200亿、10万、1万高质量语料数据,进一步提升模型输出内容的专业性、精准度与安全对齐能力,使其在实际应用场景表现增强;蜜巢3.0采用Llama Pro+MoE架构,在蜜巢2.0基础上采用Llama Pro架构训练,并进一步将其扩展为MoE架构进行训练,让其具备处理多种复杂领域任务的能力;此外,蜜巢3.0从训练到推理全流程融入国产化软硬件生态,为客户提供安全可控的落地解决方案。
那么,在大模型“价格战”和MoE、多模态等技术不断延展下,国内 AI 大模型下一步应该“卷”什么?
刘益东表示,大模型应用已经进入到了“白热化”阶段,一部分在打造自己的模型优势,另一部分可能在同质化基础上“卷”价格战。比如230多个大模型公开招投标结果当中,很多头部大厂的解决方案已经下探到百万、甚至数十万以下,因此,To B大模型的确进入了一个非常内卷的阶段。
“相对于其他的基座模型,我们主要针对的是注重安全、国产本地化部署的政务垂直场景,我们认为还是能够去很好地满足客户想要的东西,并且我们的服务响应还是很及时的。那么,我们希望在这样的一个‘内卷’阶段,能够用比较优质高效的服务去打动我们的客户,从而能够在某几个场景实现规模化,后续边际成本才有可能是越来越低的,我们的竞争力就起来了。”刘益东对钛媒体App表示。
但与此同时,刘益东也坦言,相较于传统AI时期,近两年,国内大模型热潮一下子完成了整个市场的教育,导致客户对于 AI 的预期拉的很高。
“所以,现在我们遇到的客户需要我们要去做两类预期管理:一是说明大模型要做的工作是否能达到客户想要的效果,是一步到位还是有更多的工作要做;二是蜜巢聚焦的方向主要是智能知识管理、文稿智能写作和智能舆情分析,所以客户需要了解这三个核心能力能够解决什么业务场景,如何在某一些能力、某些场景上能够实现大模型的规模化落地,这个才能形成持续的成本和收益交叉点。”刘益东表示。
刘益东指出,下一步,蜜度将计划推进多模态的大模型应用,科研团队正探索在蜜度已知场景、客户效能提升等方面,多模态大模型能够发挥怎样的作用。“这一部分研发是探索的路,我们有专门的同事在跟进。”
谈到是否相信Scaling Law(规律效应)的发展,刘益东坦言,无论是基础模型,还是垂直模型,目前都在遵循Scaling Law的落地,这是一个指引性规律,所以至少从定量角度来说已经被证明(正确)了。
刘益东强调,“我们一定要找到一些比较垂直的场景,实现规模化落地的场景解决方案。因为如果纯粹去追求技术前沿发展,那就背离了我们商业的本质,我们的技术研发最后是要赋能客户,给客户带来价值,从而给企业自身带来价值。”
在刘益东看来,当前中美 AI 存在的差距很难用时间来估算。而对于蜜度本身,更像是在做“爬坡”阶段,通过小的行业场景切入,推动大模型技术落地、场景标准化和规模化。“这个过程中‘爬山’就是最辛苦的时候。一旦在3-5个场景跑通,以及获得语料数据的积累,可能慢慢速度就会快起来,之后与别人的差距可能慢慢拉大,优势就出来了。”
“大模型技术绝对降低了人与机器打交道的门槛,可完全用自然语言交互,让更多智能体连接等方式解决更多需求。所以从这个角度上来说,大模型促使我们实现一个 AI 效率工具时代,从而普及到更多的人,推动 AI 产业革命。”刘益东表示。
(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)