没有百亿参数的大模型，不敢奢谈ChatGPT

作者：中国电子报发布时间：2023-02-24

当业界几乎把所有的目光都聚焦到ChatGPT上，原本有些克制的科技大厂突然有了紧迫感，纷纷在类ChatGPT产品中证明自己的实力。一时间，数百亿、千亿乃至万亿级参数规模的人工智能大模型（下面简称“大模型”）相继涌现，这场ChatGPT引发的全球大模型竞赛趋于白热化。

“有大模型的企业能做ChatGPT，没有的则是在蹭热点。”对于互联网公司蜂拥扎堆做ChatGPT，阿里达摩院M6大模型前带头人杨红霞言辞犀利地说。在她看来，只有参数规模100亿以上的大模型才有实力提供高质量的对答。

百度、阿里已有比肩ChatGPT的大模型

大模型的核心特征是模型参数多、训练数据量大。有研究估测，训练1750亿参数语言大模型GPT-3，需要上万个CPU/GPU24小时不间断地输入数据。其能耗相当于开车往返于地球和月球，一次运算就要花费450万美元。高昂的研发成本意味着，主流的大模型只能由大型科技公司或少数研究机构掌握。

据了解，ChatGPT是基于8000亿个单词的语料库，包含了1750亿个参数。前者是ChatGPT的训练数据，后者是它从这些训练数据中所学习、沉淀下来的内容。这种海量参数规模让ChatGPT能够捕获更复杂的语言模式和关系，从而提高复杂自然语言处理任务的准确性。

从参数规模来看，国内已经诞生了能够比肩ChatGPT参数量的大模型。百度既有20多万企业用户的飞桨平台，也有2600亿参数量的文心大模型；阿里巴巴有“通义”大模型，多模态大模型M6的参数规模已经突破10万亿，规模远超谷歌、微软，成为全球最大的AI预训练模型。OpenAI前政策主管Jack Clark公开点评阿里巴巴：“这个模型的规模和设计都非常惊人，是众多中国AI研究组织逐渐发展壮大的一种表现。”

当参数规模迅速攀升至几百亿、千亿时，大模型的训练方式也出现了分野。有业内专家认为，参数数量并不代表模型结果，更为关键的是训练方式。在华为诺亚方舟实验室语音语义首席科学家刘群看来，虽然我们训练了几千亿或者几万亿的数据，但训练的充分程度仍远远不够。

ChatGPT有一个巨大先发优势

2018年，业界分化出两个预训练模型主流方向——谷歌的BERT和OpenAI的GPT。在很长一段时间里，BERT在自然语言理解类任务中的表现比GPT更好，训练方式是通过“蒙住/遮盖”一个语言片段，让模型根据前后文双向进行猜测，不断提高猜中的概率。BERT利用海量的无标注文本自监督学习，即可掌握大量语言知识，刷新了多个AI权威榜单的记录，是当时NLP领域被更多押注的方向。

百度的文心大模型也是基于BERT技术路线——通过进行不同的“蒙住”训练，采用无监督学习，有效提高训练数据规模；自回归和自编码网络被融合在一起，进行多范式统一的预训练，能够兼具理解、生成和零样本学习的能力。这些能力也让文心3.0在国际权威的复杂语言理解任务评测SuperGLUE榜单上一度登上榜首，为百度加入这场竞赛提供了“弹药”。

而GPT则是按照人类输出文本的方式，从左到右进行预测。中国人民大学应用经济学院教授潘伟告诉记者：“直到GPT-3.5 出现后，模型智能表现上的鸿沟骤然被拉大——引入了指令微调和人类反馈强化学习，才真正解锁了ChatGPT如今出色的对话能力。”

一位接近微软的消息人士透露，ChatGPT有一个巨大的先发优势，就是它通过抢先开始公测，收集了大量用户的使用数据。这部分宝贵的数据被微软独家占有。“只要ChatGPT仍然是最好用的自然语言处理类大模型，这个‘雪球’就会越滚越大，其他企业将越来越难追上。”该业内人士称。为了防止ChatGPT输出有害信息，OpenAI还花大价钱找印度和肯尼亚的外包公司标记了大量的有害文本，用来训练大模型不要输出有害信息，对数据数年持续的投入，逐步构成了OpenAI筑起的“数据壁垒”。

此外，数据质量也是大模型表现结果的重要决定因素。中国并不缺数据，百度、阿里巴巴、字节跳动这样的公司都有海量的数据积累，不过后续包括数据清洗、标注以及模型的结构设计、训练、推理等都需要时间积累，这可能是国内大模型表现结果不如国外惊艳的重要原因。“百亿级数据中可能只有10%的数据是好的，昆仑万维仅仅使用自己的专有算法清洗数据，就整整花费了近两年。”昆仑万维CEO方汉解释道。

微软、谷歌的大模型已与原有业务深度绑定

“OpenAI非常重视真实世界数据的调用，以及这些数据对模型的迭代。”清华大学计算机科学与技术系长聘副教授黄民烈表示，在GPT-3之后，OpenAI所有模型都没有开源，在这个过程中，它干了一件事——建立起了真实用户调用和模型迭代之间的飞轮。

全球科技创新产业专家、海银资本创始合伙人王煜全也持有类似观点：“真正好的创新不是你能够向大众示范多么酷炫，而是能够被广泛使用。例如马云知道互联网的优势是能在网上做电商，劣势是电商没有信用证明。他创办淘宝后，引入支付宝，将平台作为第三方中间人，解决了诚信问题。这种成功，不是因为马云的技术多么领先，而在于利用技术解决了应用痛点。”

对于已经推出大模型的厂商来说，应尽快利用这个基础工具，找到应用的痛点，找对商业模式，获得竞争优势。

除收购苹果“Siri”背后的对话式人工智能公司Nuance外，微软在生成式AI领域最核心布局就是对OpenAI的投资与合作。此次基于ChatGPT，微软与OpenAI进行了更加深度的绑定，旗下的搜索、办公等各个产品体验均有望“智能升级”。

如何提供更多排他性、独占性强的优势产品将成为大厂抢占赛道的关键所在。“谷歌推出类似ChatGPT的大模型Bard之后，料想未来与微软的竞争将聚焦在元宇宙、人工智能等这些新兴领域。”晟云磐盾信息技术有限公司总裁郝峻晟告诉记者，微软更多的还是会聚焦在B端（如办公软件、云计算和人工智能相关产品）以及游戏等相关领域；谷歌则在互联网领域的优势更明显一些，未来可能会更多的在C端市场推出更多定制化产品。

百度、阿里、华为积极探索场景应用

大模型因“大”而效果好，但在许多产业应用中也会因为“太大”而难以落地部署，导致商业模式不够清晰。“近十年来，AI的研究发展迅猛，但AI的应用始终是一大难题，使用门槛过高限制了AI的潜能。”阿里巴巴集团资深副总裁、达摩院副院长周靖人表示，AI模型较为复杂，尤其是要应用于行业场景，往往需要重新训练，这使得AI只掌握在少数算法人员手中，难以走向大众化。

在AI领域深耕已久的百度，其文心大模型在商业价值以及应用上的走向似乎更为明晰和开阔。百度方面表示，ChatGPT相关技术，百度都有，且有全栈布局，包括底层芯片、深度学习框架、大模型以及最上层应用。IDC日前发布《2022中国大模型发展白皮书》指出，百度文心已进入AI语言生成类大模型的第一梯队。

据了解，文心大模型已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等重要产品，服务数亿用户；在行业落地中，文心率先提出行业大模型概念，通过百度智能云在制造、能源、金融、城市、传媒等行业广泛应用，此外，还有越来越多的开发者使用文心大模型。

按照百度集团副总裁吴甜的说法，文心大模型做技术创新的同时做落地应用，收益一方面来源于在百度自身业务中的应用，另一方面来自行业客户具体场景服务的价值。这也是百度在漫长的AI探索过程中，调试出的发展方式，用李彦宏的话就是“摸着‘反馈’过河”。

有企业负责人对记者表示，现在人工智能技术都在与企业的核心业务流程做深度融合，而像ChatGPT这个基于大模型的应用服务，更像一个独立的外挂，如何深度绑定，这也成为企业使用它的一个待解决问题。

记者了解到，目前，中国企业不仅致力于开发出能力媲美ChatGPT的大模型，还在着力降低大模型的应用门槛，让其真正成为产业智能化的基座。

为了让大模型更加融会贯通，阿里达摩院在国内率先构建了AI统一底座，在业界首次实现模态表示、任务表示、模型结构的统一。在不引入任何新增结构的情况下，可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务，如同打通了AI的感官，受到学界和工业界广泛关注。

通过部署超大模型及轻量化版本，阿里巴巴通义大模型系列已在超过200个场景中提供服务，实现了2%～10%的应用效果提升，典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。

“实现通用AI——降低使用门槛和使用成本”也是华为对AI大模型的规划，实现从开发到产业化完整的系统流程。2021年到2022年，华为与鹏城实验室推出了“鹏城·神农”大模型，与中科院推出全球首个三模态大模型“紫东·太初”，与中国商飞联合推出业界首个工业级流体仿真大模型“东方·御风”，与武汉大学合作推出全球首个遥感影像大模型“武汉.洛迦”，2月中旬华为与清华大学合作推出了自动驾驶领域大模型。

其中，“紫东·太初”大模型解决了当前人工智能技术“一专一能”、小样本学习能力欠缺、跨模态语义鸿沟的痛点，通过跨模态多任务自监督学习实现图像、文本、语音三模态数据间的“统一表示”与“相互生成”，理解和生成能力更接近人类，向通用人工智能迈出重要一步。

“我们希望打通从技术到商业的断点，在大模型开发、Transformer API的封装以及大模型部署多个环节设计了相应的工具，简化开发难度，同时将10多个主流的预训练SOTA大模型开放到昇腾社区，让开发者可以直接调用做二次开发。”华为昇腾计算业务总裁张迪煊说。

ChatGPT，云厂商“流量密码”？

作者丨齐旭刘晶宋婧

编辑丨刘晶

美编丨马利亚

监制丨连晓东

没有百亿参数的大模型，不敢奢谈ChatGPT

推荐体验

相关资讯

如何使用 xFasterTransformer 加速百亿级参数大模型

华为发布AI大模型存储新品可支持百亿级参数规模的模型

通义千问再开源超百亿级参数规模大模型

华为发布两款AI大模型存储新品，支持百亿级参数规模

周鸿祎免费课:百亿参数的大模型训得好,专业能力可以超越GPT-4

近期资讯

浙江禾芯取得非TSV的HBM芯片封装结构专利，大大降低工艺成本

深圳市恒峰锐机电设备取得芯片塑封用一体式多点夹爪专利，使气动夹爪工作更加稳定可靠，不易出现故障

路溱微电子取得种芯片真空封装结构专利，避免焊料随意溢流影响其他部件

深圳赛腾昌鼎取得微型八工位旋转机构专利，实现针对半导体元器件产品高效率地完成打标

江苏艺通取得具有限位支撑的硅芯定位搭接装置专利，可节省人员操作步骤降低工作负荷

湖南志浩航取得一种芯片散热盖板专利，防止芯片盖板运输途中对工质注入管封口处的损伤

德芯科技取得不易损坏的二极管封装结构专利，散热效率高延长使用寿命

路溱微电子取得一种传感器封装连接结构专利，避免胶液随意溢流影响其他器件使用

佛山市顺德区颜盈纸类制品有限公司取得具有限位夹持机构的芯体放卷裁切机专利，避免芯体在加工中晃动提高合格率

江苏爱矽半导体科技取得一种半导体芯片加工用分切装置专利，使多个切刀间距可调节分切出不同尺寸芯片板

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响