通义千问开源720亿和18亿参数两款大语言模型

作者：新京报发布时间：2023-12-01

新京报贝壳财经讯（记者罗亦丹）12月1日，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B，这是继通义千问此前开源140亿参数大语言模型后又一次开源之举。此外，通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此，通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型，实现了“全尺寸、全模态”的开源。

阿里云CTO周靖人在接受包括新京报贝壳财经在内的媒体采访时表示，自从宣布72B模型将要开源后，就得到了很多企业持续的关注，因此这是一个“强企业需求”的模型，“我们已经形成了全系列的大模型家族，能够为开发者、企业提供更丰富的选择。”

具体来看，Qwen-72B基于3T tokens高质量数据训练，在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超越闭源的GPT-3.5和GPT-4。

英语任务上，Qwen-72B在MMLU基准测试取得开源模型最高分；中文任务上，Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基准，得分超越GPT-4；数学推理方面，Qwen-72B在GSM8K、MATH测评中断层式领先其他开源模型；代码理解方面，Qwen-72B在HumanEval、MBPP等测评中的表现大幅提升，代码能力有了质的飞跃。此外，Qwen-72B可以处理最多32k的长文本输入，在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能，使之能更好地被下游应用集成。

此前，中国大模型市场还没出现足以对标Llama 2-70B的优质开源模型，对此，Qwen-72B填补了国内空白，基于Qwen-72B，大中型企业可开发商业应用，高校、科研院所可开展AI for Science等科研工作。

如果说Qwen-72B“向上摸高”，抬升了开源大模型的尺寸和性能天花板；发布会上的另一开源模型Qwen-1.8B则“向下探底”，成为尺寸最小的中国开源大模型，推理2K长度文本内容仅需3G显存，可在消费级终端部署。另外，阿里云也开源了音频理解大模型Qwen-Audio，该大模型能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。用户可以输入一段音频，要求模型给出对音频的理解，甚至基于音频进行文学创作、逻辑推理、故事续写等等，音频理解能够赋予大模型接近人类的听觉能力。

从18亿、70亿、140亿到720亿参数规模，用户可在魔搭社区直接体验Qwen系列模型效果，也可通过阿里云灵积平台调用模型API，或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配，推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

周靖人在接受记者采访时表示，开源生态对促进中国大模型的技术进步与应用落地至关重要，“技术发展一定不是由一家公司完成的，技术落地背后一定还有很多工作要做，没有创业者的参与，一项技术是难以落地的，只有拥抱开放生态，才能有效地把我们的技术能力融入到各行各业。”

校对赵琳