作者:郝俊慧 来源:IT时报
4月7日,阿里云通义千问开源320亿参数模型Qwen1.5-32B,加上此前已经开源的5亿、18亿、40亿、70亿、140亿和720亿参数的六款大语言模型,截至目前,通义千问共开源了7款大语言模型,至此凑齐阿里云的开源“葫芦娃”家族。
参数,意指大模型在训练中不断调整的变量和权重。简单理解,AI的训练过程就是一个不断接近和仿真真实世界的过程,在输入大量真实数据后,大模型不断调整参数从而逐步提高结果的准确性。某种意义上,参数越多,AI的结果越有可能具备“智能”,但相应的算力成本也越高。
据阿里云透露,7款大模型中,几款小尺寸模型可便捷地在端侧部署。3月28日,阿里云和联发科联合宣布,通义千问18亿、40亿参数大模型已成功部署进天玑9300移动平台,这是通义大模型首次完成芯片级的软硬适配,即使在离线状态下,仅靠手机芯片的算力,用户也可以通过通义千问完成多轮AI对话,实现AI推理。
720亿参数模型是目前通义千问大家族中参数规模最大的开源大模型,于去年12月1日正式开源,并在12月8日登顶全球最大的开源大模型社区HuggingFace的开源大模型排行榜。
不过,也有专家认为,达到性能质变的奇点后,参数规模与模型性能之间的关系将不再完全正相关。
这一点在通义千问32B和72B两个不同参数规模大模型的能力对比方面似乎得到部分印证。
据阿里云透露,基础能力方面,通义千问320亿参数模型在MMLU、GSM8K、HumanEval、BBH等多个测评中表现优异,性能接近通义千问720亿参数模型。
Chat模型方面,Qwen1.5-32B-Chat模型在MT-Bench评测得分超过8分,与Qwen1.5-72B-Chat之间的差距相对较小;多语言能力方面,通义千问团队选取了包括阿拉伯语、西班牙语、法语、日语、韩语等在内的12种语言,在考试、理解、数学及翻译等多个领域做了测评。Qwen1.5-32B的多语言能力只略逊于通义千问720亿参数模型。
通义千问团队希望32B开源模型能为下游应用提供更好的解决方案,在性能、效率和内存占用之间实现更理想的平衡。例如,相比14B模型,32B在智能体场景下能力更强;相比72B,32B的推理成本更低。