开源还是闭源,这是一个难题,背后涉及多方因素考量,阿里云的选择是两个都要
文 | 吴俊宇
编辑 | 谢丽容
阿里云在大模型市场正在形成开源、闭源两条腿走路的布局——核心目的是激发中国的大模型生态。值得注意的是,阿里云是目前中国头部云计算厂商中,唯一一家选择开源的企业。
开源部分,阿里云的策略是,通过免费大模型,降低模型使用门槛。在阿里云的魔搭社区上,同时包括阿里云和第三方的开源模型,开发者可以参与开源模型的技术迭代。
近两个月来,阿里云已连续开源了多款通义千问版本模型。8月,阿里云开源了通义千问70亿参数模型等多个版本模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat。9月25日,阿里云再次宣布开源通义千问140亿参数模型Qwen-14B和Qwen-14B-Chat,继续供全社会免费使用。
通常基础大模型的参数规模在千亿或万亿级别,70亿、140亿参数的开源大模型需要的算力、数据更少。大模型开源意味着个人开发者、中小型企业能够用较低的成本使用,不用花高昂的成本采购闭源大模型。它最大的价值是扩大用户规模、培育产业生态。
阿里云还同时针对开源和闭源模型,采取了生态开放的策略。阿里云会提供灵积(DashScope)这一MaaS(Model as a Service,模型即服务)平台和底层算力资源,专注商业应用、产业落地。灵积平台对第三方是开放的,上面包括阿里云通义模型和第三方大模型,可以调用各类大模型API和工具链。
9月25日,阿里云CTO(首席技术官)周靖人在通义千问开源发布会上表示,阿里云将持续拥抱开源开放,推动中国大模型生态建设。阿里云相信开源开放的力量,希望率先开源自研大模型,让大模型技术更快触达中小企业和个人开发者。
大模型市场长期存在开源和闭源两种路线。但事实上,开源、闭源两者是相辅相成的。开源模型和开源社区可以在上游用免费策略负责扩大用户基数、拓展产业生态、迭代模型技术。闭源部分依旧可以在下游专注产品化、行业化、商业化。
一种解读是,开源、闭源只是手段。开源的意义在于,降低大模型使用门槛,给开发者足够的选择空间。大模型技术目前尚处于高速发展阶段,技术路线远远没到收敛、明确的时候。阿里云的开源策略最大程度保证了可能性、开放度,对激发中国大模型生态大有裨益。
两条路线
从软件发展历史来看,开源、闭源一直是两条路径。两条路径都可以跑出成功的企业,甚至存在可以同时兼顾开源+闭源两种路径的企业。手机操作系统市场,安卓是开源的,iOS是闭源的。电脑操作系统,Windows是闭源的,Linux是开源的。数据库市场,Oracle更是同时掌握了闭源的Oracle商业版和开源的Mysql。
闭源软件的收费模式一般分成两种,一是软件订阅,二是软件license(许可证)授权。开源软件通常没有完整闭环的商业模式,主要依靠社区捐赠生存。
大模型市场同样存在开源和闭源两种路线。大模型开源,指的是公开提供源代码、模型结构、训练方法、数据集等一系列内容。这比开源软件只公开提供源代码更进了一步。
一般情况,闭源版本约等于付费版本。企业付费意愿强,追求产品稳定、可靠、少折腾,会选择闭源版本的大模型。开源版本约等于免费版本。企业如果不想付费,有一支技术水平较强的开发团队,愿意愿意花时间、人力成本去修改定制,通常会选择开源版。
在美国市场,典型的开源大模型包括Meta的Llama2,典型的闭源大模型是OpenAI的GPT-4。在中国市场,阿里云是“开源+闭源”两条腿走路,百度、腾讯等头部企业的大模型走闭源路线,智源、百川智能等一批创业公司的大模型也选择了开源路线。
大模型闭源路线的观点是,开源大模型和开源软件的逻辑不一样。开源软件研发成本可以靠社会化开发者参与而摊薄,但开源大模型训练、推理成本太高,开发者参与非但无法降低研发成本,还会推高算力成本。
一位云厂商高管在今年8月曾明确表示不打算发展开源大模型。在他看来,传统软件开发,开发者为开源软件写代码后,可以很快check in(写入代码),软件能力会因为开发者参与而提高。大模型情况不一样,以Facebook的开源大模型Llama2为例,“国内不管有多少人在用Llama2,都没法check in回去,数据、算力、能力都放不回去。”
这位云厂商高管的判断是,未来中国大部分创业公司的开源大模型都难以生存,只有少数背靠云厂商的开源大模型才有空间。他的判断与其所在的云厂商算力资源相对有限,希望战略聚焦不无关系。
与之相反,阿里云CTO(首席技术官)周靖人表示,阿里云走大模型开源路线,希望让算力更普惠,让AI更普及。在他看来,大模型现在还在演进的初级阶段。是否要自己开发、要使用何种的模型,都应该由效果决定。应该站在开发者视角,给开发者工具和选择,让他们自己去选型。
做出这种选择的一种解读是,阿里云是目前国内云厂商中算力资源最丰富的。阿里云长期支持开源这一技术文化。比如,早在2022年,阿里云牵头建设国内首个AI开源社区魔搭ModelScope。无论是从底层算力、MaaS层的模型平台、开源社区建设来看,阿里云的布局都很完整。因为布局广、算力大,阿里云有机会跑通大模型开源这条路,而且无论是开源、闭源,对阿里云都有利——只要能做大生态,带来更多算力消耗,走哪条路都可行。
一个不争的事实是,国内外开源大模型已经吸引了一大批用户。在云上部署一个开源模型成为了模型二次开发的主流做法。例如,云上部署Meta的Llama2、图像大模型Stable Diffusion等明星开源大模型的热度一直居高不下。
开源在很大程度上可以降低基座模型研发的门槛。模型参数大小与模型算力消耗通常呈正相关,模型越大,模型的训练和推理成本越高。在有效控制模型训练和推理精度的前提下,模型越小开发成本越低,算力成本也越低。这也越容易被企业、开发者所使用。
开源大模型通常都是“小型化”版本,参数规模在数十亿到百亿级别。对大模型应用层的企业和开发者来说,大量应用场景也不一定需要超大规模尺寸模型。基于小尺寸的开源大模型,能简化模型训练、部署过程,让模型更快试水、验证,并进行应用开发。
浙江大学人工智能研究所所长吴飞一个观点是,开源大模型非常有价值。因为任何开源的基座模型,都是在大数据、大算力的支撑之下把它锤炼出来的,不是所有公司和机构都具备这样的能力。在开源模型之上进行二次训练,成本则要小很多,这部分算力资源可以通过云资源解决。
如何做好开源?
要做好大模型开源生态,要解决几个层面的问题——一是有较强的开源产品,对外公开;二是建立社区,扩大开发者规模,三是搭建好工具链、商业化平台,让合作伙伴能因此赚钱。
阿里云在大模型开源在这三个维度都已经初步搭建起了完整生态。
开源首先要有供开发者持续迭代的产品。阿里云目前已经公布了多款开源大模型产品。其中包括,70亿参数模型的通用模型Qwen-7B和对话模型Qwen-7B-Chat,140亿参数模型Qwen-14B和Qwen-14B-Chat。
一位阿里云人士表示,在“模型开源-社区反馈-技术优化”这样的正向循环中,可以最大程度提升模型研发效能。得益于采用了更高质量的数据,并有效了控制模型训练、推理精度,Qwen-14B取得了较强的性能。
在一份来自阿里云通义千问团队的学术论文中,此次发布的140亿参数开源模型Qwen-14B在自然语言理解、知识、代码、数学、推理等12个测评中超越了Meta的Llama2-13B等多个主流模型。Qwen-14B与Llama 2的34B、70B模型相比并不逊色。
开源还要有社区——在技术文化中,开源和社区是密不可分的。因为社区可以聚集一批开发者,开发者的自发参与会让技术实现涌现式的迭代。
大模型这种处于发展早期的技术,更需要社区凝聚开发者。在国际市场,Hugging Face这样中立、第三方的开源模型社区正在崛起。包括Google、Meta和微软以及第三方开发者都在社区内发布模型、参数、数据集等。Hugging Face已经是国际市场开发大模型的首选社区。截至2023年8月底,Hugging Face平台上公开的人工智能模型数量已经超过30万个。
魔搭ModelScope正在成为中国的Hugging Face,其活跃开发者超过230万人。早在2022年,阿里云牵头建设国内首个AI开源社区魔搭ModelScope。在魔搭平台上,所有模型开发者、生产者都可上传模型,验证模型的技术能力,探索模型的应用场景和商业化模式。
目前,魔搭社区模型贡献者覆盖国内大模型赛道核心玩家,如百川智能、IDEA研究院、兰丁股份、澜舟科技、清华TSAIL、深势科技、元语智能、浙江大学、智谱AI、上海人工智能实验室等。魔搭ModelScope目前已经聚集了230万AI开发者和由30多家顶尖人工智能机构贡献的1200多个优质AI模型,模型累计下载量突破8500万。相比2个月前,模型下载量同比增长近100%。
除了提供开源大模型、开源社区,阿里云还在为大模型玩家提供灵积(DashScope)平台和智能算力资源——这些举措能推动大模型应用落地,也为后续商业化铺垫好了道路。
阿里云的灵积(DashScope)平台能为第三方大模型提供训练、推理、部署、精调、测评、产品化落地等工具链。这个生态正在滚雪球式壮大,已经有部分第三方大模型玩家开始通过灵积平台商业化。
其中已经上线的第三方大模型包括Meta的Llama2、智谱AI的ChatGLM、清华大学的ChatGLM、百川智能的百川开源大模型、IDEA研究院的姜子牙、Databricks的Dolly、复旦大学OpenLMLab的MOSS等。
一种传统观点是,开源开放共享、免费使用的策略会限制商业化版本落地。这也是部分技术人士对开源大模型担忧的原因。阿里云CTO周靖人则认为,大模型要先做大生态,再考虑商业化。把社区、开发者培育起来,才是需要首要考虑的问题。
事实上,近年来另一种流行观点是,开源、闭源是技术发展上下游关系,两者并不矛盾。开源处于技术上游,其目标是考虑研发迭代、社区参与,确保技术领先同行。闭源处于下游,其目标是商业化,专注于提供个性化服务和解决方案,满足客户需求。一个典型案例是,数据库市场,Oracle就是“开源+闭源”两条腿走路。Oracle收购的开源数据库MySQL,开源社区、商业应用均取得了巨大成功。
大模型开源的逻辑其实也类似。开源模型和开源社区在上游用免费策略负责扩大用户基数、拓展产业生态、迭代模型技术。闭源部分依旧可以在下游专注产品化、行业化、商业化。
从这个角度来看,阿里云已经把大模型上下游生态三个环节——开源产品、开源社区、商业化路径都搭建起来了。此后,这三个环节需要在实践中逐渐跑顺。
事实上,目前已经有部分企业、机构基于阿里云的大模型实现了落地应用。一位阿里云人士表示,其中不仅包括创业企业、科研机构,还包括阿里系的淘宝、钉钉、未来精灵(原天猫精灵),以及阿里之外的大型科技互联网企业、创业团队及高校。
比如,初创企业浙江有鹿机器人科技在一款路面清洁机器人中集成了通义千问7B开源模型Qwen-7B。有鹿机器人因此获得了语音控制能力,可以基于对话分析地理位置、导航、识别烟头、清洁、返航,从而完成整套清洁任务。浙江大学联合高等教育出版社基于通义千问7B模型训练了自己的智海-三乐教育垂直大模型。该模型9月已在全国12所高校应用,可提供智能问答、试题生成、学习导航、教学评估等服务。
激发大模型生态
无论是模型开源,还是开放生态,阿里云这一系列举措,都是在培育“模型越强、应用越多、用户越广、算力越大”的市场飞轮。这种做大生态的做法,才能让大模型在中国市场真正快速、广泛落地应用。
当被问及“开源和商业化”的关系时,阿里云CTO(首席技术官)周靖人解释称,不管是闭源大模型还是开源大模型,自研大模型还是第三方大模型,大规模参数模型还是小规模参数模型,通用大模型还是行业、企业专属大模型,阿里云全部欢迎和支持。
仅从阿里云魔搭ModelScope社区截止9月的数据来看,大模型的生态飞轮刚刚转动起来——230万AI开发者,30多家顶尖人工智能机构,1200多个优质AI模型,模型累计下载量突破8500万。相比于全球最大的AI模型社区Hugging Face,它还有差距,但随着大模型快速普及,它在中国市场的空间还会更大。
阿里云副总裁、公众与客户沟通部总经理张启表示,阿里云希望建设大模型自由市场,让所有大模型都能更快、更便宜、更安全地跑在阿里云上。因此,阿里云率先开源7B、14B模型,并将持续开源开放,为开源社区贡献力量。
只有大模型落地速度足够快、规模足够大,才能真正改变中国云市场的现状。中国云市场过去2年长期在要规模还是要利润的这组矛盾之间摇摆。由于集成、定制化等传统业务长期存在,云厂商健康可持续增长的目标很艰难。
市场的一个期待是,AI和大模型将改变云计算市场的游戏规则。一位数字化企业高管今年9月对记者打了个比方,中国市场的客户经常想要传统的马车,但你不能真的只给他提供更快的马车,而是要用新技术给他换汽车。AI和大模型就是这样的新技术,它会真正改变过去传统软件、集成业务的游戏规则。
目前,大模型无论是技术迭代、产业落地、商业转化、都处于非常早期的阶段。一个来自多位云厂商高管的判断是,随着政策放开、商务谈判、落地交付逐步推进,2023年四季度、2024年一季度之后,国内大模型商用案例会规模化出现。事实上,在微软2023财年四季度(2023年二季度)财报电话会议中,微软管理层对投资者直言,2024年一季度之后,大模型会在微软云的业绩数据才会有明显的体现。
模型开源、开放生态,是让大模型技术快速落地的有效策略,也是让“模型越强、应用越多、用户越广、算力越大”这个飞轮旋转起来的唯一途径。