时间过得真快,从去年初次体验通义千问到现在已经一年了,还记得那时国产模型们能力都还不强,弱智吧问题答不对,鸡兔同笼还算错。
在这一年里,国产大模型的发展之路也逐渐分化,有的专注闭源模型,有的深耕ToC应用,而通义则坚持开源模型和产品应用一同发力,最终成为国产最强开源大模型。
说起模型能力的进步,我还觉得挺有趣的。从我自己的体验来讲,通义一直在持续进步,而GPT-4则出道即巅峰,最近是越来越难用了。过去通义做不对的题,现在能做对了;反倒是ChatGPT开始胡说一通最后给个错误答案。
举个例子,也是我之前比较喜欢测的一个corner case:「假如某个闰年的1月1日是周五,那这一年有几个周日?」
实事求是地说,这道题通义以前是做不对的(历史记录):
今天我又测试了一次,通义已经可以避开陷阱,轻松答对:
又或者尝试使用代码工具来变成解决:
反倒是ChatGPT一通操作,最后给个错误答案:
类似这样的逻辑+数学题,是比较考验模型基础能力的,不管是纵向和自己的过去比,还是横向和行业对标的GPT-4比,都能看出通义的基础能力在不断地取得进步。
如果说通义的产品帮助了普通用户,那通义的开源才是真正造福了万千开发者。通义坚持走模型开源、合作开放的路线,已经构建起了「全模态、全尺寸」的开源生态。
从领域上,千问已经开源了LLM模型、Qwen-VL视觉模型、Qwen-Audio音频模型和CodeQwen代码大模型;从语言模型的尺寸上,Qwen1.5涵盖了0.5B, 1.8B, 4B, 7B, 14B, 32B, 72B和最近刚刚发布的110B尺寸和一款MoE模型。
作为开发者,我选择用Qwen的另一个原因就是Qwen团队部署适配工作很完善。以Qwen1.5-72B为例,除了基础模型和Chat模型,官方还提供了GPTQ-INT4、GPTQ-INT8、AWQ、GGUF四个量化模型,最大程度地给用户本地化部署提供方便,真的可以说是总有一款适合你,我自己电脑上就用LM Studio跑的32B模型。
更何况,不论是Chatbot Arena还是OpenCompass测评,Qwen系列模型都在开源模型的前列。这样扎实的开源工作,也就不奇怪会有国内外那么多开发者都在线催更Qwen2了。
聊回开源和闭源之争。我其实并不反对企业做闭源产品,因为总是要恰饭的嘛,可以理解。但我永远旗帜鲜明地支持并佩服开源模型。开源工作真的是需要愿景的,只有信仰开源的公司,才会如此坚定地走开源路线。国外有Meta,国内有阿里,都是大模型的开源之光。
去年GPT-4刚发布的时候我还挺悲观的,觉得AI会是一个赢家通吃的赛道,因为用户只会选择使用最强的模型。但蓬勃发展的开源社区改变了我的想法——做开源模型,即使不是最强,也会有很多开发者来共同构建生态。阿里云开源通义系列模型,我想一方面是在证明自研能力和技术储备,另一方面也想要在开源生态上做出表率。
开源在生态上一定会比闭源更强,毫无疑问。开发者可以自己下载、部署、微调模型,构建自己理想中的AI应用而不受大公司控制,能有更安全的数据环境和数据合规要求,这些都是闭源产品不能提供的。开源社区会不断地优化模型运行,提高运算效率,反哺模型开发,甚至反过来节约开发资金。
阿里云这样积极做开源,是真的有AI普惠的愿景,推动国内企业特别是中小企业落地AI应用,构建繁荣的大模型生态。
阿里云的愿景显然不止通义千问,魔搭社区对标HuggingFace,做大模型领域的Github。在大模型时代,Github已经不能满足大家开源模型权重文件的需求,从模型库、数据集到在线运行的创空间,魔搭上已经有了4500多个模型,累计用户已超过500w+。
要做「中国大模型的自由市场」魔搭的底气来自阿里云的基础算力设施,来自阿里云在AI Infra和MLOps上的持续投入,开发者可以以MaaS形式在阿里云完成一站式的搭建、部署、测试、上线。
不止通义,百川、智谱、零一万物、昆仑万维等中国最强大模型都跑在阿里云上,阿里云依然是AI时代最具性价比的上云选择。
可以说通义一周年,交出了非常漂亮的成绩单。但我还是想问一句:Qwen2啥时候发布啊,等不及要用了。
以上。