出品 | 搜狐科技
作者 | 梁昌均
阿里通义大模型在发布一年后,迎来最新升级,号称追上当前最领先模型。5月9日,阿里云推出通义千问2.5,并正式官宣推出1100亿参数的开源大模型。
根据阿里云公布的数据,这款开源大模型在多项基准测评中超越了Meta的Llama-3-70B模型,并在HuggingFace推出的开源大模型排行榜上冲上榜首。
这意味着,阿里成为像Meta一样坚定走开源路线的大厂,也是国内目前唯一开源了超千亿参数模型的公司。
此前,开源闭源引发不少争议。百度的李彦宏就认为,模型开源不是众人拾柴火焰,跟传统的软件开源情况不同,闭源模型会持续领先。
阿里云CTO周靖人则在沟通会上对搜狐科技等媒体强调称,开源生态对全球技术的发展贡献毋庸置疑。
“我们希望把最先进的技术开源出来,让企业、开发者去做并行的探索,不单单是模型能力的提升,更重要是能把模型的前景和潜力能够深度地挖掘出来。”周靖人称,这是阿里云坚持开源的初心。
对于大模型的落地,他表示,不如最初预期的那么顺利,但今年整个应用会逐渐爆发,很多领域都在做系列创新和突破,有些行业其实已经在被颠覆。
开源价值毋庸置疑,阿里要做最强的开源模型
此前,业内不少大佬就模型开源、闭源的问题引发争议,马斯克、扎克伯格、周鸿祎等相信开源的力量,而奥特曼、李彦宏等坚持走闭源路线。
阿里则站在了开源阵营,去年8月以来就陆续推出十多款开源模型,最新参数规模则升级到千亿。目前,通义开源模型下载量已超700万。
为何要坚定开源?周靖人强调称,模型开源的价值毋庸置疑。“现在已是2024年,如果还有人对开源的价值有疑惑的话,可能真不是活在我们这个时代”。
他表示,开源代表了阿里的一种胸怀,阿里云也不是非常功利性低去做开源生态。
“阿里云开源的最终目的是希望能够把阿里领先的AI技术能力赋能给企业和开发者,把最先进的技术跟产业应用有机融合在一起,让更多的人给到反馈,让更多的人在这样的模型体系上面去搭建很多的应用。”周靖人称。
对于模型开源意义不大的观点,阿里云副总裁张启提到,通义有非常活跃的开发者社区,他们每天会提供非常好的反馈,这对模型本身的进步非常重要,同时对大模型在各行各业的应用普及,也有着巨大的推动。
“这将推动整个AI技术和产业的发展,对每家企业能够真正去做创新性的开发,将会起到至关重要的作用。”周靖人提到,阿里云不是说简简单单的开源,而是要做开源最强的模型。
对于开源闭源到底谁能领先的争议,周靖人认为,不是所有闭源的模型都能做过开源的模型,闭源模型的水平至少能够超过开源模型,才有机会参与讨论。
但他也强调称,阿里云在做开源的同时,也有在做闭源的模型,实际上形成的是开源和闭源的整体的体系,为企业提供多种选择。
“模型不是越大越好,也不是说能力越强越好,这跟服务成本等各个方面都相关,希望企业、开发者做自主的选择。”他表示,阿里云的开源不会以黑盒的形式去绑定企业,而是秉持开放的心态,让企业、开发者没有后顾之忧。
实际上,模型开源是阿里云想要打造的开放生态的重要方式,而阿里还在通过投资等对外扩张生态,其投资了月之暗面、百川智能等多家国内头部的大模型创业公司,但它们在一定程度上也和阿里云形成了竞争。
张启对此表示,所有的模型公司,包括训练和应用推理的公司,都是阿里云期望深度合作的客户。“未来的市场一定是百花齐放,各家都会有很多的特色。”
在去年10月的云栖大会上,阿里云方面透露,中国超过一半的大模型公司的训练都在用阿里云。张启称,今天这个集中度可能在进一步提升,而且阿里云还在推理方面提供了高性价比的方案,也会吸引这些公司来合作。
“打造开放的生态,不闭门造车,要让更多的人参与进来。只有把饼做得更大,才能带来整个行业的发展。”周靖人说。
通义赶超GPT-4,大模型应用将迎更大爆发
阿里通义大模型此次还迎来升级,周靖人表示,通义已成为地表最强中文大模型。
据介绍,相比通义千问2.1版本,2.5版本的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。
在中文语境下,通义2.5在文本理解、文本生成、知识问答、闲聊对话、安全等能力赶超GPT-4。在上海人工智能实验室开源的大模型评测平台OpenCompass上,通义千问2.5得分追平GPT-4 Turbo,是首个达到该成绩的国产大模型。
在技术不断升级之下,外界也非常关心,国内第一大云厂商到底如何推动大模型商业落地?对此,阿里云则推出升级为大模型定制与应用服务平台的百炼2.0。
周靖人介绍,当下企业应用大模型存在三种范式:一是对大模型开箱即用,二是对大模型进行微调和持续训练,三是基于模型开发应用,其中最典型的需求是RAG(检索增强),以企业数据对大模型进行知识增强。
他表示,百炼打造了模型中心和应用中心,是全方位的模型生态。“希望有这样一个平台,能够真正把模型的能力和业务场景的需求建立起很好的纽带,只有这样,才能帮助大模型在各行各业落地。”
最新数据显示,通义大模型通过阿里云服务企业超9万,通过钉钉服务企业超过220万,覆盖PC手机、汽车航空、教育医疗、餐饮文旅、游戏社交等领域。
不过,对于大模型的落地应用情况,周靖人表示,大模型的潜力还没有真正的被挖掘出来。“至少过去一年,前期可能有很多期望,但落地的过程不是那么顺利。”
他认为,这涉及基础模型本身能力的问题,更关键的是如何把模型的能力发挥出来,实现快速定制。“每家企业都有自己特殊的需求,基础模型直接去对接需求是很难的,必须要把模型能力和业务场景结合起来。”
“这是落地非常重要的一环,如果做得不够好,其实会阻碍整个AI模型的发展,就会出现雷声大雨点小,市场火热,其实企业没怎么用。”周靖人说。
他提到,阿里内部各条战线也在拥抱AI,第一个阶段已经完成,但没有止境。“不管是淘系,还是钉钉、夸克等,都有自己的业务的场景,这不简简单单是一个AI能力,还涉及到业务创新、产品创新。”
周靖人认为,所有的软件、行业都会因为这次的AI升级而重新定义自己。“如果现在任何一个应用或业务场景,还不考虑用AI技术的能力去整合,那短期或中期一定会有很多担忧和忧虑。”
当然,这个过程也会催生一些新的业务场景,出现所谓的AI原生应用,这是技术发展必然的趋势。“如果只有当前的这些SaaS产品,没有新的创新,反而会变得不正常。”
不过,国内大模型目前也面临同质化的问题,在长文本、RAG等方面都有所趋同。周靖人称,很多大模型公司都在讲同样的故事,最后比拼的就是能力,包括技术的能力,产品的能力,如何落地的能力。
“我们代表生态的力量,如何把它做好,将是我们最大的一个差异点。”在周靖人看来,大模型的落地将是一个“never ending story”。
他判断,随着AI技术的发展,模型能力的提升,会有越来越多的行业积极拥抱,在三个月、六个月后,能够看到全行业更大规模的爆发。