当前位置:首页|资讯|ChatGPT|通义千问|AI大模型|百度

阿里入局,最接近ChatGPT技术的AI大模型?

作者:凯恩斯发布时间:2023-04-11

原标题:阿里入局,最接近ChatGPT技术的AI大模型?

今天上午的阿里云峰会上,阿里云智能首席技术官周靖人正式宣布推出大语言模型通义千问。

4月7日,阿里云就开启了企业邀测的通义千问。

在百度急急忙忙抢先发布自己的大语言模型之后,其他各家厂商也在蠢蠢欲动,连美团合伙人王慧文、搜狗创始人王小川之类的可能也要复出涌入AI市场了。当然能推出或者训练大模型的厂商也是少数,很多AI板块的个股都没有什么实际的产品,这几天AI市场热度下来之后,也就没什么炒作了。能够推出产品的多是一些有实力有技术的大厂。

这次推出的“通义千问”大模型主要方向是聊天AI,更多的是支持文字类的输入和输出。这和ChatGPT第一版看起来有点像,都是提供了很多预设的模,像可以写邮件,可以写文案、写电影脚本,不过这些大模型的算法可延展性很高,需要基于足够的数据不断地优化,只要有大量不断的数据输入,算法是可以持续改进的。

当下的难题:仍是数据、算法与算力

阿里在大模型的研究上有些技术积累,2020年阿里就开始研发多模态大模型,6月研发出3亿参数的M6。2021年是3月,阿里发布千亿参数多模态大模型M6,4月发布首个中文语言大模型 PLUG(270亿参数),5月发布万亿参数大模型 M6,10月又发布10万亿参数大模型M6。去年,阿里「通义」大模型体系出世,接连推出过多个版本的大模型。上个月,也就是今年3月份,阿里在“魔搭”上线了“文本到视频生成扩散模型”,实现视频生成功能。该模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿,扩散结构采用典型的U-Net网络架构,通过反向扩散过程,实现视频生成的功能。阿里迭代的速度还的挺快的,也是国内少数能做出千亿参数大模型的厂商。

大模型对算力是越多越好,厂商训练大模型需要庞大算力作为支撑,这只是训练层次,之后商业化对算力需求更是重量级,肯定是越多越好。

基于阿里电商,阿里有海量的数据资源,在电商这个垂直领域本就让阿里有规模优势和数据优势,不过十年前,阿里就将Oracle数据库彻底从淘宝核心系统中下线,且用开源数据库来应对多种流量峰值场景,且在不久后便成功推出自研云数据库PolarDB、Lindorm以及AnalyticDB等。以云数据库领域来说,阿里已经扛起了国产云计算大旗,已连续三年跻身Gartner全球云数据库管理系统第一梯队象限。

在算力上,阿里建设了一个智能算力系统——飞天智算平台。飞天智算融合了通用计算、异构计算等多种计算形态,单集群算力峰值高达12 EFLOPS,对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力,其中专设的机器学习平台 PAI 部署了分布式训练框架 EPL(训练 M6 的功臣)能大幅度能耗、提升速度。阿里的超大集群规模,能够适应海量计算的服务器规模,可以提供多集群的计算资源。

基于阿里在算力、算法、数据方面的优势,让阿里在训练模型上不费力,比如2021年5月,阿里达摩院的团队只采用了480卡GPU就训练出万亿参数多模态大模型M6,后来阿里达摩院将M6的参数规模扩大10万亿,训练据说是只用了512卡 GPU。

像阿里、华为都在做大模型,它们在算法、算力、数据都有各自的优势,拿数据来说,百度有用户搜索的需求数据,还有爬虫和阿拉丁获取的公共web数据。阿里凭借电商建立了交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。阿里也有像微博和高德这类社交数据、移动数据。另外就是腾讯,腾讯有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,腾讯可以从里面挖掘出商业价值。

大模型只是基础,赚钱的是生态

我们说过,大模型只是基础,能否建立生态才是最后赚到钱的关键,大模型是连接技术生态和商业生态的桥梁。在ChatGPT的插件功能上线之后,我们逐渐看见了AI大模型的商业化模式,无论文心一言、通义千问还是ChatGPT,任何一款问答机器人产品都只是它背后的大型语言模型能力的体现,难以从单纯的操作系统里赚到钱,生态才是最关键的。苹果有iOS系统,其他的手机有安卓系统,在这些系统之上,正是美团、滴滴这类的应用软件以及它们背后广阔的应用场景赚到了钱。

在AI市场里,现在考验的是算法、模型、生态的竞争,AI大模型要落地,未来考验的是怎么落实到产业上,怎么与产业进行结合,怎么打开各实体产业的发展上限。哪个厂商能先在生态上占据有利地位,就能够在这场AI之争里占据优势,这不仅会拥有更多的落地应用,也会拥有更多的训练数据。像谷歌打造了自己的深度学习框架TensorFlow,Tensorflow是广泛使用的实现机器学习以及其他涉及大量数学运算的算法库之一。Google几乎在所有应用程序中都使用Tensorflow来实现机器学习。这款模型在感知任务方面,功能非常强大,若是我们使用过Google照片或Google语音搜索,那么我们便间接地使用了Tensorflow模型。

Facebook与AWS合作推出了PyTorch模型服务库TorchServe,PyTorch也是深度学习开源库之一,可以帮助开发者和研究人员更轻松地构建和训练模型。借助TorchServe,PyTorch用户可以更快地将其模型应用于生产,而无需编写自定义代码。除了提供低延迟预测API之外,TorchServe还为一些最常见的应用程序嵌入了默认处理程序,例如目标检测和文本分类。TorchServe可以支持任何机器学习环境,包括Amazon SageMaker、容器服务和Amazon Elastic Compute Cloud(EC2)。

亚马逊打造了MXNet深度学习框架,这款产品拥有像Tensorflow数据流图,可以给多GPU架构提供良好的配置,还拥有像Lasagne和Blocks的更高级别的模型构建块,MXNet提供了对Python、R、Julia、C++、Scala、Matlab、Golang和Java的接口,能够在任何硬件上运行。

华为也有自己的昇思MindSpore社区。2022年,昇思MindSpore开源社区使能AI大模型,打造一站式大模型平台,开发者可以在线体验大模型推理任务,从而最便捷地使用基于昇思的创新大模型。像华为的盘古大模型侧重的是B端,要给企业提供相关服务。华为对于AI的认知,就是AI的核心价值在于应用到工业为主的实体经济领域。所以AI不仅是产品,更是一种服务,生态会是这些企业竞争的核心战场。如何对外输出AI能力,又如何用最低的成本来提供更好的服务,会是这些企业竞争的关键。阿里、华为、腾讯这些互联网大厂又有不同的优势和侧重点。

阿里研发了魔搭ModelScope社区,ModelScope属于一款开源模型平台,里面提供了很多的热门模型供使用体验,可以和阿里云服务进行联动,不需要额外部署机器进行模型的运行调试,就可以自动在阿里云进行实例创建。这款产品兼容主流深度学习框架,提供灵活简单的python SDK,方便开发者构建自己的专属模型。在魔搭社区里,没有能力研发AI开发者或中小企业可以在该平台上就能体验AI模型,构建自己所需的AI能力。

其实阿里的策略应该也是为B端客户提供技术服务,利用B端去触动C端,铺设成一张网。中小企业可以下载使用免费开源的模型,可以对模型采取二次优化的方式,不用布卡就能快速生成基于AI模型的服务应用,目前已经有澜舟科技、深势科技、智谱AI、启智社区、哔哩哔哩等等十多家知名机构贡献模型,魔搭社区模型量已超过600个。

围绕这些社区,国内外的各大厂商也在打造自己的开发者生态。像钉钉在SaaS办公软件已经在国内行业里占据一定的市场,这也给应用落地提供了很强的市场基础,达摩院研发的通义千问最先实践的场景也可能会对接在阿里云的业务,这里已经有优势的钉钉可能是最佳落地场景之一。国内外厂商都在搭建自己的社区,推出自己的大模型,在反复实践中建立自己生态。

吕长顺(凯恩斯) 证书编号:A0150619070003。【以上内容仅代表个人观点,不构成买卖依据,股市有风险,投资需谨慎】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1