当前位置:首页|资讯|ChatGPT|人工智能

“盘古”大模型刷屏,官媒刊文点评,泡沫还是机会?

作者:凯恩斯发布时间:2023-03-27

原标题:“盘古”大模型刷屏,官媒刊文点评,泡沫还是机会?

华为盘古大模型曝光,今天概念股开盘大涨,常山北明一字涨停,同方股份、四川长虹、拓维信息、软通动力、润和软件等纷纷高开。

ChatGPT带火了人工智能,我们看见了ChatGPT展示了在文字创造方面的能力,而不是简单的通过网络搜索引擎来搜集资料。另外ChatGPT-4也已经可以对图片、音频等素材基础上,进行二次创作,同时,ChatGPT还将逐步开放端口,后续ChatGPT还可以接入更多的第三方软件,比如传统的OFFICE软件、金融软件等等,通过ChatGPT可以实现大数据的筛选、判断,从而提供更加准确的建议和意见,让使用者在决断上可以依靠更加准确的信息。

在ChatGPT呈现出一家独大的局面时,百度和华为都带来了好消息。在2023年3月16日百度发布了旗下AI大模型文心一言,文心一言具有智能绘画功能,用户只需要提供几个关键词,文心一言就能够按照关键词绘画出用户想要的图片。

不少网友参与了画图,但是画着画着就画出了不对劲的情况,比如某位博主想让文心一言画一副起重机,结果文心一言给出了这样的回答:为什么画出来一只鹤呢?随后这位博主去查了下资料,发现了问题的所在:起重机翻译成英文叫“crane”,这个单词就像是我国的多音字,同样也是“鹤”的意思。

没过多久,百度也进行了相关回应,并且提到文生图能力来自文心跨模态大模型ERNIE-ViLG。文心一言也使用了Stable Diffusion框架来增强绘画能力,同时也借鉴了OpenAI开放平台上近40多种预训练语言模型,以及Coursera、Udemy等公司的优秀资源。文心一言大模型还基于腾讯会议中超过2000个小微语音样本进行了定制化的改进,使得模型在自然对话方面的表现更加出色。

由此来看,文心一言确实借鉴的有点多,不像是一个完全自己打造的,能够对标ChatGPT的一个产品,但英文标准和中文标注只是一个工程问题,百度能训练出画图AI,不影响算法进步的实质。我们对ChatGPT还是有容忍度的,主要是我们会觉得这款产品是基于国外人的习惯或者思维模式做出的产品,若是用中文去问其答错了,会觉得确实和我们的思路不一样,把错误归结到打造思路上。而国内自己做的生成式AI搜索引擎,回答一个中文的问题,如果出现了刚性的硬错,我们的容忍度确实就没有那么高了,毕竟我们的思维模式应该是差不多的,首先得适用国人的思路。

这几天,华为称旗下的盘古系列AI大模型或可能在4月份上线,目前在华为云官网显示盘古系列AI大模型中的NLP大模型、CV大模型、科学计算大模型已经标记为即将上线状态。

据华为云介绍,盘古NLP大模型可用于内容生成、内容理解等方面,并首次使用Encoder-Decoder架构,兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。在下游应用中,仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配。2019年权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分83.046,多项子任务得分业界领先,是目前最接近人类理解水平(85.61)的预训练模型。据官方介绍,该模型拥有超过1.7万亿个参数,是目前世界上最大的中文AI模型。

我们可以理解为,和GPT等外国AI模型不同的是,盘古大模型的特色是更注重针对中文语言的优化,使用了大量的中文语料库进行训练,可以更好地理解中文语言的语法和语义。

盘古大模型的这些特色让其更多的可以应用在智能客服、机器翻译、语音识别等场景。像在智能客服场景,盘古大模型能够利用自然语言处理技术实现自动回复、意图识别等功能,为客户提供更加智能化的服务。在机器翻译场景,盘古大模型能够将英文或其他语言翻译为中文,并进行语言流畅度和语法纠错等处理,提高翻译的准确度和质量。在语音识别场景,盘古大模型能够利用语音识别技术实现语音转文字,并进行语音分析和语义理解,为用户提供更加智能化的语音识别服务。

未来的AI ,不管是自然语言理解还是计算机视觉,我们看到无论是ChatGPT还是文心一言再或是盘古大模型,未来人工智能的发展,都会向大模型方向演进。大模型会是人工智能的发展趋势和未来。

在传统模型中,根据不同场景,需要定制不同的算法模型,这就就难以形成通用化可复制化,厂商难以利用复制来赚钱。各行各业有了不同的需求,特色化的需求,为了提过不同的场景需求,AI厂商也需要设计专网专用的个性定制化神经网络模型,打造出的一个场景一个模型的作坊式模型,并不能在许多垂直行业场景里通用。

而大模型导致了AI产业应用新范式的出现。新的范式是通用大模型加行业数据变成行业大模型,再针对不同场景使用少量数据就能得到场景的模型,场景的模型还可以做数据回流来增强行业大模型的能力。大模型给企业最大的意义就是,降低AI使用门槛,并且方便快捷的使用各种AI能力。

影响大模型打造的壁垒在哪?

现在我们已经意识到了大模型的重要性,可能每个厂商都构造一个大模型。但是能做大模型的只有少数企业有实力做,像谷歌、微软、Meta这样的企业,它们有海量的数据、有强大的算力支持,也有尖端的算法支持。有了大模型就可以不断地进行技术升级,来实现和下游的使用场景对齐,从理论上技术上完善,顺利的对接下游的需求场景,使得产业形成更为高效的,这样的一个分工合作协作安排。

虽然早在几年前国内头部厂商以及就开始了相关大模型的研究与实践,甚至有些头部云厂商还推出了自家的大模型。诸如去年9月阿里达摩院推出“通义”大模型,此外,为推进中文大模型的开源生态建设推出了 AI 模型开源社区魔搭;京东推出了言犀大模型,但是和这种既有模型的总理论架构的创新,又能够对接模型的落地实践的大模型还很少。

像百度、华为等这类综合厂商的优势好一些,像华为拥有全栈全场景Al解决方案,从芯到云,从训练到推理,从硬件到软件,从框架到生态,帮助华为在AI的技术上进入大规模的落地应用。

算力是企业打造大模型成功与否的关键之一,也正是目前大模型不能真正落地的困扰之一,大模型因为参数规模大、数据体量大通常需要强大的算力支持,而算力的核心是人工智能芯片。也就是说,缺少芯片会导致算力不足,算力不足意味着无法处理庞大的模型和数据量。美国市场研究机构TrendForce在3月1日的报告中测算称,处理1800亿个参数的GPT-3.5大模型,需要的GPU芯片数量高达2万枚,未来GPT大模型商业化所需的GPU 芯片数量甚至超过3万枚。算力来源于芯片,而我们的芯片受困于7nm无法突破,也意味着我们的算力或许很难和美国抗衡。

除了需要芯片,需要算力,打造大模型也需要耗费巨大的时间和资金成本,比如训练一个ChatGPT的模型通常需要几天甚至数周的时间。资金也是不可忽视的成本,据国盛证券报告《ChatGPT 需要多少算力》的估算,训练一次GPT-3大概要140万美元,对于一些更大的 LLM(大型语言模型),训练成本大概要200万美元到1200万美元之间。

从ChatGPT在1月的独立访客平均数1300万进行计算的话,这个过程中对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元,每日电费在5万美元左右。

这些都是投入芯片所需的的成本。此外,还不包括大模型所需的数据采集、人工标注、模型训练等成本。比如模型训练上,就有一支比较精干的AI系统工程团队来完成分布式训练调优,系统容错处理、算子计算调优,并且要配合模型团队随着模型结构和训练策略的变化,对训练系统实现进行必要的调整。

也就是说,想要AI落地大规模的使用应用,少不了大模型,随着AI任务复杂性的提高以及应用范围的拓宽,会需要更高的精度更大的规模不断,这些模型在数据中心等云端AI场景完成训练和推理,会产生巨大算力需求,所以大模型发展到后面,肯定还会去转向GPU,或者说转向专业AI芯片来做算力的承载。这个产业环节里涌现了很多相关的公司,可能每个公司的重点不一样,像有些公司做GPU,有些公司做CPU,围绕的是训练和推理,还有做ASIC芯片的这类芯片公司,也都是抓住其中的重点。

另外能不能成功打造大模型,还需要大量的数据,GPT3它披露的是45TB的全网的数据,经过清洗以后可能就几百个GB,但是它的输入要依靠大量的通用数据,大模型对于数据会变得需求量特变大。

像Chatgpt模型也需要海量数据支撑才可完成训练,我们在不同消费场景里,有时候会被精准的人工智能推送击中,比如能够推送给我们有需求的物品,或者是在好友搜索之后,再把好友的搜索结果推送给我们,这些都是利用对我们的消费习惯、搜索偏好进行分析,平台系统根据分析的这些结果进行判断后再做出引导,这一切的基础,是基于大量的、丰富的数据样本。利用大数据,平台构建出了适用于该领域的专用模型,进行精准的推送。

所以,相比大模型的落地应用,人工智能最先发展的应该是做算法数据这类层面。然后是AI+应用软件,我们认为的机会有:AI+汽车=智能驾驶,AI+医药,AI+金融。

吕长顺(凯恩斯) 证书编号:A0150619070003。【以上内容仅代表个人观点,不构成买卖依据,股市有风险,投资需谨慎】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1