阿里巴巴日前宣布,开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B。据称,此款新模型在各项性能指标上都展现出了显著的能力,特别是在与业界领先的Meta-Llama3-70B模型的对比中,其基础能力不遑多让。
Qwen1.5-110B沿用了Qwen1.5系列一贯的Transformer解码器架构,并引入了分组查询注意力(GQA)机制,使得模型在推理时更加高效。值得一提的是,该模型支持长达32K tokens的上下文长度,并且具备多语言支持能力,涵盖英、中、法、西、德、俄、日、韩、越、阿等语言。
据了解,阿里巴巴将Qwen1.5-110B模型与目前最优秀的语言模型Meta-Llama3-70B以及Mixtral-8x22B进行了详细的性能对比。对比结果显示,新推出的110B模型在基础能力上至少与业界标杆Llama-3-70B模型旗鼓相当。阿里巴巴方面表示,此次性能的提升主要得益于模型规模的扩大,而并非预训练方法的重大改变。
在Chat评估方面,阿里巴巴采用了MT-Bench和AlpacaEval 2.0基准进行了测试。结果显示,与先前发布的72B模型相比,110B模型在两个Chat模型的基准评估中均表现更为出色。这一持续改善的评估结果表明,即便没有大幅改变训练方法,更大规模、更强大的基础语言模型也能显著提升Chat模型的性能。
阿里巴巴强调,Qwen1.5-110B不仅是Qwen1.5系列中规模最大的模型,更是该系列首个参数超过1000亿的模型。其出色的性能不仅与最近的SOTA模型Llama-3-70B不相上下,而且明显优于先前的72B模型。