今年以来,以预训练大模型等为代表的新兴技术正在掀起新一轮人工智能热潮,百“模”共生,百家争鸣下,大模型的真正用处却依旧朦胧。
在经历半年多的“狂飙”后,即便是曾经爆火的ChatGPT流量也不再继续。当C端热度逐渐褪去,产业界的噪音开始多了起来:仅凭聊天作画等功能,大模型就可以重构人类社会?人工智能的下一步该如何发展?
“盘古大模型不作诗,只做事。”7月7日下午,华为常务董事、华为云CEO张平安在华为开发者大会2023上再次明确了华为在大模型领域的定位,不做“ChatGPT”类产品。他表示,盘古大模型3.0是一个完全面向行业提供服务,以行业需求为基础设计的大模型体系。
在华为云看来,人工智能已经成为目前众多科技企业的战略竞争焦点,在与实体经济的结合中,行业大模型扮演着重要作用,这将带来更大的产业机会。
不做“ChatGPT”
自2022年12月ChatGPT问世以来,AI大模型加速了新一代人工智能的发展。当大模型和生成式AI的技术不断取得突破,众多行业人士纷纷开始思考大模型技术在商业化运营中,将会产生何种效用。
在上述开发者大会中,华为认为,大模型正在引领新一轮人机革命,为用户带来颠覆式使用体验。如果说在PC时代,“鼠标+图形用户界面”开启了第一次交互革命;“触屏+手势”开启了移动互联时代,而“对话+5G”则开启了智能互联时代,标志就是以ChatGPT为代表的大模型技术。
2015年12月,硅谷的企业家们开启了OpenAI的引擎,ChatGPT计划也在这个时候开始酝酿。而在前一年,谷歌已经收购了DeepMind,并且依靠DeepMind团队研发的AlphaGo在全球掀起了一场AI风暴。
随后,谷歌在2017年发布了Transformer大模型,成为了AI大模型的新分水岭。但令谷歌没有想到的是,Transformer随后却成为了OpenAI滋养ChatGPT的土壤。
OpenAI火爆之后,也激发了科技巨头对大模型的军备竞赛。今年3月,百度发布了文心一言,并开始将其融入百度的所有业务;4月,阿里发布了通义千问,并于6月将大模型的布局拓展至AI音视频赛道。据不完全统计,当前仅国内已发布超过80个大模型产品,对应不同行业、不同应用场景,“百模大战”发展如火如荼。
但在大模型领域走得越久,华为对大模型赛道的态度却越来越谨慎。“在华为看来,面对当前形势,既要乐观,又要保持冷静。”华为轮值董事长胡厚崑在6日举行的第六届世界人工智能大会上表示,人工智能的发展,关键是要脚踏实地,推动人工智能走深向实,真正为千行百业服务。
从华为在大模型领域的布局来看,立项于2020年,并于2021年4月发布“盘古大模型”,摸索中,华为逐步确立在这领域的新定位。
从7号发布的内容来看,盘古行业大模型3.0升级后,盘古将是其“大模型系列”的统称,既包括了语言大模型、视觉大模型在内的基础模型,也包括了具有行业的属性的金融,制造,药物分子的行业模型以及场景开发类别的模型服务。第一财经记者从华为内部了解到,前期,华为云AI已经在各行业有超过1000个项目,这也为盘古大模型在行业中的落地起到了铺垫作用。
华为创始人任正非曾指出,未来在AI大模型方面会风起云涌,不只是微软一家。人工智能软件平台公司对人类社会的直接贡献可能不到2%,98%都是对工业社会、农业社会的促进。
在任正非看来,模型的应用有时比模型本身还有前途,华为会做AI的底层算力平台,但应用平台不是华为的选项,“在2%的平台贡献里,我们占一点点就行。ChatGPT对我们的机会是什么?它会把计算撑大,把管道流量撑大,这样我们的产品就有市场需求。”
大模型如何从概念走向落地?
在从目前全球市场的竞争格局来看,3000多个可用的生成式AI应用,全球数千家科技公司参与。大模型的一路“狂飙”下,企业需更加明确应用落地的方向才有可能在这场硬仗中突围。
张平安表示,“目前大模型大多数应用都集中在2C领域,在面向行业应用时,由于行业数据获取难,技术与行业know-how结合难,大模型在行业的落地进展较慢。”
而华为选择的突破口一个是放大来自于人工智能芯片的算力优势,另一个则是在多个场景中进行大模型的深耕。
华为昇腾计算业务总裁张迪煊7月6日接受记者采访时表示,华为目前已经帮助孵化了20多个基础大模型,比如科大讯飞的星火大模型,“中国大模型中约一半由昇腾AI支撑”。
2019年8月,华为宣布自研的AI训练芯片昇腾910商用,7nm制程,称同等功耗下算力是英伟达V100芯片(英伟达A100上一代产品)的两倍。根据华为此前公开的信息,每个集群需要1000张昇腾910。在被制裁的情况下,目前华为把昇腾计算集群的规模从最多4000张卡提升到了1.6万张卡。
这意味着华为成为英伟达之外的“另一个选择”,为其他行业企业提供大模型的算力并带动自身产品出货,形成商业正循环。而在盘古大模型3.0的官方介绍中,该模型已经可以客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型训练。
此外,张平安在演讲中提到了盘古的“5+N+X”三层架构。
L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求,L1层是N个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型。
L2层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供“开箱即用”的模型服务。
换句话,华为的大模型不仅仅面向于对零基础的行业客户,也包括了本身做大模型应用的企业。
张平安表示,盘古大模型已覆盖金融、金融、制造、医药研发、煤矿、铁路等诸多行业。“比如,在药物研发领域,原来一款新药研发平均需要10年时间、花费10亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球40年来首个新靶点、新类别的抗生素,并将先导药物研发周期缩短至1个月、研发成本降低70%。”
值得注意的是,除了华为云,目前腾讯、阿里、字节、360等科技企业也看到了行业端的机会,并瞄向行业大模型进行布局。
“对话、写诗、作画绝不是大模型的全部。我们需要去深入思考大模型的应用方向。”中国工程院院士邬贺铨认为,要将大模型切实投入到城市发展、金融科技、生物医药、工业制造、科学研究等领域,也需要专业的企业和组织加速其在实体产业落地,为产业刚需带来实实在在的大价值,真正意义上大规模服务社会。