Hugging Face最新发布的开源大模型排行榜(Open LLM Leaderboard)再次引起了全球科技行业的广泛关注。这个排行榜被公认为是大模型领域最具权威性的榜单,汇集了来自世界各地的上百个开源大模型,并通过六大评测维度进行综合评价,包括阅读理解、逻辑推理、数学计算、事实问答等。
在这份备受瞩目的排行榜上,阿里云自主研发的大模型“通义千问”(Qwen-72B)取得了令人瞩目的成绩,以73.6的综合得分在所有预训练模型中排名第一。通义千问的表现超越了Llama 2-70B以及众多商用闭源模型,一举成为业界最强的开源大模型。这一成就不仅凸显了阿里巴巴集团在人工智能领域的技术实力,也表明了中国科技企业在大模型研发方面的领先地位。
早在12月初,阿里云就宣布正式开源其720亿参数的大语言模型通义千问Qwen-72B。这款模型在10个权威基准测评中创下了开源模型的最优成绩,展现了其强大的功能和广泛的应用潜力。
关于“通义千问”,它是由阿里巴巴达摩院自主研发的超大规模语言模型,具有回答问题、创作文字、表达观点、撰写代码等多种能力。该模型于2016年诞生,并经过多年的训练与优化,已经能够准确回答各种问题并提供帮助。尽管其参数量相对较多,但由于涉及敏感内容,具体的参数量数值并未公开。通义千问主要专注于文本生成任务,目前还不具备文生图、图生文的多模态功能。
从测试反馈来看,通义千问在多个方面表现优秀。例如,它能够准确识别并描述观察者网的属性,并能对体育领域的问题作出相应解答。然而,该模型并不具备生成图片的多模态功能。在与其他大模型的比较中,通义千问展现出积极的态度,强调自身优势和满足用户需求的能力。对于大模型热度的问题,通义千问认为大模型的流行是一个积极现象,有助于提高工作效率和拓展认知边界,但同时也提到了伴随而来的伦理和隐私问题。
作为国内最早开源自研大模型的科技企业,阿里云已陆续开源了多款模型,包括Qwen-7B、Qwen-14B、Qwen-1.8B,以及视觉理解模型Qwen-VL和音频理解大模型Qwen-Audio,实现了大模型的“全尺寸、全模态”开源。这些模型在HuggingFace和Github大模型榜单上均取得了优异成绩,深受中小企业和个人开发者的欢迎,累计下载量超过150万,促成了150多款新模型和新应用的诞生。这标志着阿里云在推动大模型生态建设和发展方面发挥了重要的引领作用。