阿里云开源通义千问140亿参数模型
封面新闻记者 欧阳宏宇
国产大模型的开源季正在跑出加速度。
9月25日,阿里云开源通义千问140亿参数模型,并宣布Qwen-14B及其对话模型Qwen-14B-Chat免费可商用。据介绍,Qwen-14B是一款支持多种语言的高性能开源模型,整体训练数据超过3万亿Token,最大支持8k的上下文窗口长度。就在一个多月前,其刚刚开源了70亿参数模型Qwen-7B等模型。
大模型的未来是否走向开源虽然还没有明确定论,但在国产大模型中,开源仍是主流。《中国人工智能大模型地图研究报告》显示,超过一半国内发布的大模型已经实现了开源,并朝着通用类大模型和垂直领域的专业类大模型两个方向加速迭代。
除了通义千问外,由王小川创立的人工智能创新科技公司百川智能也在一个月间将通用类开源模型参数规模翻倍。其在今年6月推出了70亿规模参数的Baichuan-7B开源模型后,又在7月开源了拥有130亿的参数规模的Baichuan-13B模型。
专业类大模型则受行业数据、适用程度等方面制约,开源模型参数规模差异较大。在大模型最先落地的搜索场景,知乎已于今年5月开源了有100亿参数规模的CPM-Bee 10b。而在金融行业,度小满在9月才开源了拥有70B参数量级和上下文长度可达8k以上的金融大模型“轩辕70B”。
不同参数规模模型
不过,也有业内人士指出,在一些垂直领域并不需要参数量很高、通用能力很强的模型,几十到百亿左右参数规模的模型,结合垂直领域数据,就可以发挥很好的价值。
对行业而言,开源大模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。这正是开源大模型推动各行业高质量发展的底层因素。
对此,阿里云CTO周靖人表示,头部科技公司应推动中国大模型生态建设,开源自研大模型能让大模型技术更快触达中小企业和个人开发者。网易杭州研究院执行院长汪源则预测,预计到今年年底,基础、开源的大模型从技术上能够达到较好水平,两三年以内基于大模型的智能化应用会成为普遍现象。