AI大模型之战，大厂为何都在“重复造轮子”？

作者：虎嗅APP发布时间：2023-04-14

本文来自：光锥智能，作者：周文斌，编辑：王一粟，原文标题：《重复造轮子的百模大战：两极热，中间空》，题图来自：视觉中国

“不敢下手，现在中国还没跑出来一家绝对有优势的大模型，上层应用没法投，担心押错宝。”投资人Jucy（化名）向光锥智能表示，AI项目看得多、投得少是这段时间的VC常态。

ChatGPT点燃AI大爆炸2个月中，中国一直在等待自己的GPT-3.5。

AI真的冒犯到了打工人。游戏团队替代掉30%的原画师，电商团队用AIGC生成低成本数字人模特，基础程序员也感受到了被降维打击的焦虑……眼看着GPT在国外要将所有领域都重新做一遍的趋势，科技颠覆裹挟着金钱的味道滚滚而来。

于是，除了焦虑的打工人，企业急着用大模型降本增效，创业者急着接入大模型推出新产品，股市急着用ChatGPT概念割韭菜，培训机构更是先赚一波为敬。

衬托之下，反而显得喜欢追逐风口的中国科技巨头们比以往更沉得住气。果然，周期使人成长，公司也是。

终于，众望所归、望眼欲穿、姗姗来迟，4月第二周，中国也迎来了新一代大模型的密集发布。

继通义千问开放测试4天后，张勇在接手阿里云后首次亮相，宣布所有阿里产品未来将接入“通义千问”大模型，进行全面改造；

商汤科技在10日的技术交流会上，演示了“日日新”大模型的能力：对话、AI绘画、编程、数字人，第二天开盘大涨9%；

华为盘古大模型在8日低调亮相，并于10日发布新产品；

明星创业者王小川公开亮相，携手搜狗老搭档茹立云正式开启AI创业的新征程，将在下半年推出百川智能的大模型；

毫末发布首个自动驾驶大模型DriveGPT雪湖·海若，把人类反馈强化学习引入到驾驶领域；

就连游戏公司昆仑万维也赶来凑热闹，宣称“中国第一个真正实现智能涌现”的国产大语言模型将于17日启动邀请测试，但随后被媒体质疑其借热点炒作股价。

热热闹闹、真真假假，大模型一时竟然有点乱花渐欲迷人眼。中国的大模型怎么就一下子如雨后春笋般都冒了出来？如果不重复造轮子，大家还能干点什么？

虽然是摸着Open AI过河，但中国大模型也都迈入了无人区。

涌现之前：亦步亦趋，又分道扬镳

如果要为AI大模型找一个时间节点，2019年应该是关键的一个。

这一年2月，远在大洋彼岸的OpenAI推出了GPT-2，恰好也是这个时间点，微软慷慨地投入了10亿美元，让OpenAI从“非营利性”组织变成了“盈利上限”组织。

大概在一个月之后，太平洋的另一边，百度发布了ERNIE1.0，成为中国第一个正式开放的预训练大模型。

但这种第一其实有很多，比如华为的盘古大模型，业界首个千亿参数的中文语言预训练模型；比如阿里的M6，中国首个千亿参数多模态大模型；再比如腾讯HunYuan，国内首个低成本、可落地的NLP万亿大模型……

总之，只要定语加的足够多，就总能在某个领域当第一。那段时间，从硅谷到北京西二旗、再从五道口到上海临港，包括华为、阿里、腾讯、商汤在内，凡是有能力的企业，都开始涉足AI大模型的相关研究。

但中国第一波AI大模型的“涌现”却是在两年之后。

2021年，曾任职过微软亚洲工程院院长、后被雷军亲自邀请到金山接替求伯君任CEO的张宏江，牵头成立的智源研究院发布“悟道1.0”，包括国内首个面向中文的NLP大模型、首个中文通用图文多模态大模型和首个具有认知能力的超大规模预训练的模型等等。

智源成立于2018年，也就是OpenAI发布GPT-1的前五个月，作为北京市和科技部牵头成立，并集合学界和头部科技企业资源的研究机构，智源其实是中国早期探索AI大模型的一个代表。

可以说，“悟道1.0”其实为中国后来所有AI大模型的一个样本。除此之外，智源研究院还为中国构建了大规模预训练模型技术体系，并建设开放了全球最大中文语料数据库WuDaoCorpora，为后来其他企业发展AI大模型打下了基础。

也正是在“悟道1.0”之后，中国大模型开始出现井喷的状态。

2021年，华为基于昇腾AI与鹏城实验室联合发布了鹏程盘古大模型。2022年，阿里发布了“通义”大模型系列，腾讯发布混元AI大模型……

在中国AI大模型如雨后春笋般涌现的同时，国外的AI大模型也走到了从量变到质变的节点。

2022年11月，OpenAI发布了基于GPT-3.5的ChatGPT，彻底打开了人工智能的魔盒，然后就是席卷全球的AI 2.0浪潮。

事实上，如果以2018年GPT-1发布为节点，中国的AI大模型的发展与国外的发展脉络一直都亦步亦趋，但ChatGPT为什么并没有出现在中国？

这其实和国内外AI大模型两种不同的发展路径有关。

从目前国外具有代表性的AI大模型产品来看，比如ChatGPT、Midjourney、Notion AI或者Stable diffusion等等，都是以C端用户为基础的产品。

而反观国内，目前大模型的主要应用场景都在B端。

比如阿里的“通义”大模型的典型应用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等等，而腾讯的HunYuan-NLP-1T大模型则应用在腾讯广告、搜索、对话等内部产品落地，或者像商汤的大模型，为自动驾驶、机器人等通用场景任务提供感知和理解能力支持。

之所以选择To B，一个重要的原因是，B端更容易进行商业化。

To B的行业特点导致中国的AI大模型并不需要做到非常大的参数规模，甚至于当ChatGPT出来之后，国内的公司讨论的一个重要方向，是如何将已有的大模型规模“做小”，应用到具体的行业上。

所以中国采用谷歌BERT路线的AI大模型会比较多，以更小的参数，做更有效率、更适合垂类的场景。

所以某种程度上，从出生的第一天，中国大模型就带着商业化的任务。

而国外To C的大模型则不同，如ChatGPT的用户在短短两个月就达到一亿，其底层预训练大模型GPT-3.5作为通用大模型，“大”成为参数的一个基本要求。

这在某种程度上促进OpenAI不停为GPT增加参数，然后激发更强大的“涌现”现象，最终实现“大力出奇迹”的ChatGPT。

因此，To B和To C两种完全不一样的发展路径，也将中国和美国的AI大模型引向了两种完全不同的发展方向。

不要重复造轮子，但大家都想当轮子

“基建狂魔”的称号在大模型上再次得到验证。

到目前为止，中国已经发布的AI大模型产品已经发布了5个，而这之后，还有5个AI大模型产品正在赶来的路上。

模型大乱斗已经开始。

大部分国内的大模型能力都在GPT-2的水平上，但关注度却远远高于GPT-2推出时，这就造成了一种尴尬的局面——明知道还没有完全准备好，但却不得不积极地在推进模型发布，似乎稍微晚一点就会错过整个市场。

的确，无论是市场还是技术本身，都在要求企业更快地将大模型推向市场。

从技术上讲，越早进入市场就能越早地获得用户的使用数据，进而推动模型优化迭代。从市场角度而言，当国外AI大模型与产业结合带来更高效率的同时，国内企业也存在同样的需求。

比如目前，光锥智能向多个SaaS公司调研发现，几乎都已经接入GPT-3.5，目前在同步测试文心一言中。

而对于推出大模型的企业来说，这个时候抢占市场先机就变得尤为重要。

某头部机构负责AI的投资人告诉光锥智能，“中国现在被排除在ChatGPT生态之外是非常危险的。”

他认为，虽然应用层存在更大的创业机会，但应用层的所有应用却都依赖于大模型而存在。就像PC互联网时代，所有的桌面应用都基于Windows开发，而移动互联网时代所有APP又都基于Android或iOS系统一样，在模型即服务的时代，也需要出现一些“操作系统”级别的底层大模型。

目前国外GPT-4已经明确可以成为这样的存在，但国内还没有相应的大模型出现。因此，在底层大模型的格局还未明朗的情况下，一旦大模型的市场格局发生变化，建立在大模型之上的应用也将付之东流。

这也成为许多投资人不愿意现在就下场的原因，他们想让这个市场再跑一跑，等待一个明确能够成为“操作系统”级别的底层大模型出现。

所以，无论是百度还是阿里，在推出大模型之后，第一件关心的事就是——是否有更多企业能够达成合作。

比如，在2月份明确文心一言推出计划后，百度就开始积极推进不同行业的企业接入文心一言，到3月16日百度发布文心一言时，已有超过650家企业宣布接入文心一言生态。而在4月7日，阿里官宣“通义千问”之后，第一件事也是向企业开放测试邀请。

如今国内的AI大模型正处在竞争“谁能成为底层操作系统”的阶段，各家积极推出自己的大模型，开放内测，引导企业入驻，一个核心目标就是围绕大模型建立起自己的模型生态。

这是大厂能否在下一个时代继续成为大厂的关键。下一个AI时代的船票并不是大模型，而是围绕大模型建立起来的生态。

因此，即便所有人都在口口声声表示不要重复造轮子，不要浪费资源建立一个同样的大模型，但机会当前，所有人都在重复造轮子。

但如今从百度到阿里，再从华为到商汤，底层大模型的战争也才刚刚开始，毕竟不只是像腾讯、字节这样的科技巨头，还有像王小川、王慧文、李开复等创业大佬也在虎视眈眈。

王小川、王慧文都先后入驻搜狐网络科技大厦，五道口似乎又恢复了之前的荣光。

毕竟，许多人都感觉到，“这是一次文艺复兴”。

到目前为止，更多具有竞争力的玩家还没有完全下场，但底层大模型的“百团大战”却已经一触即发。

AI热“两极化”，中间真空

大模型让AI公司越来越重。

4月10日，商汤在公布“日日新SenseNova”大模型体系的同时，其实还提到另一个关键点，即依托于AI大装置SenseCore实现“大模型+大算力”的研发体系。

为了满足大模型海量数据训练的需求，原本可以轻装上阵的算法公司，开始自己做云，也自建人工智能数据中心（AIDC）。

另一个案例就是毫末，这家自动驾驶公司为了用大模型训练数据，也建了自己的智算中心。

这些垂类的AI巨头和独角兽，之所以要自己做得这么重，最重要的原因之一，就是市面上几乎没有高性能的现成产品可以满足。

近年来，大模型参数量以指数级的速率提升，而数据量随着多模态的引入也将大规模增长，因此就必然会导致对算力需求的剧增。例如，过去5年，超大参数AI大模型的参数量几乎每一年提升一个数量级。过往的10年，最好的AI算法对于算力的需求增长超过了100万倍。

一位商汤员工表示，商汤上海临港AIDC的服务器机柜设计功耗10千瓦~25千瓦，最大可同时容纳4台左右英伟达A100服务器，但普通的服务器机柜普遍设计功耗以5千瓦居多，而单台A100服务器的功耗即高达4.5千瓦左右。

科技巨头就更是如此，每个巨头都希望在自己的生态中形成闭环，一定程度上也是因为整个国内开源的生态不够强大。

目前，大模型产业链大致可以分为数据准备、模型构建、模型产品三个层次。在国外，AI大模型的产业链比较成熟，形成了数量众多的AI Infra（架构）公司，但这一块市场在国内还相对空白。

而在国内，巨头们都有一套自己的训练架构。

比如，华为的模型采用的是三层架构，其底层属于通识性大模型，具备超强的鲁棒性的泛化性，在这之上是行业大模型和针对具体场景和工作流程的部署模型。这种构架的好处是，当训练好的大模型部署到垂类行业时，可以不必再重复训练，成本仅是上一层的5%~7%。

阿里则是为AI打造了一个统一底座，无论是CV、NLP、还是文生图大模型都可以放进去这个统一底座中训练，阿里训练M6大模型需要的能耗仅是GPT-3的1%。

百度和腾讯也有相应的布局，百度拥有覆盖超50亿实体的中文知识图谱，腾讯的热启动课程学习可以将万亿大模型的训练成本降低到冷启动的八分之一。

整体来看，各个大厂之间的侧重点虽然有所不同，但主要特点就是降本增效，而能够实现这一点，很大程度上就是受益于“一手包办”的闭环训练体系。

这种模式在单一大厂内部固然有优势，但从行业角度而言，也存在一些问题。

国外成熟的AI产业链形成了数量众多的AI Infra公司，这些公司有的专门做数据标注、做数据质量、或者模型架构等。

这些企业的专业性，能够让他们在某一个单一环节的效率、成本、质量上都要比大厂亲自下场做得更好。

比如，数据质量公司Anomalo就是Google Cloud和Notion的供应商，它可以通过ML自动评估和通用化数据质量检测能力，来实现数据深度观察和数据质量检测。

这些公司就像汽车行业的Tier 1，通过专业的分工，能够让大模型企业不必重复造轮子，而只需要通过整合供应商资源，就能快速地搭建起自己模型构架，从而降低成本。

但国内在这一方面并不成熟，原因在于：一方面国内大模型的主要玩家都是大厂，他们都有一套自己的训练体系，外部供应商几乎没有机会进入；另一方面，国内也缺乏足够庞大的创业生态和中小企业，AI供应商也很难在大厂之外找到生存的空间。

以谷歌为例，谷歌愿意将自己训练的数据结果分享给它的数据质量供应商，帮助供应商提高数据处理能力，供应商能力提升之后，又会反过来给谷歌提供更多高质量数据，从而形成一种良性循环。

国内AI Infra生态的不足，直接导致的就是大模型创业门槛的拔高。

王慧文刚下场做光年之外的时候曾提出5000万美金的投入，这笔钱其实是李志飞为他算的，具体可以分为2000万美金搞算力，2000万美金找人，1000万美金做数据。这体现出一个直接的问题，如果将在中国做大模型比喻成吃上一顿热乎饭，那必须从挖地、种菜开始。

目前，在AI 2.0的热潮中，一个重要的特点就是“两极化”：最热门的要么是大模型层、要么就是应用层。而类似AI Infra（架构）的中间层，反而有很大的真空。

别都盯着造轮子，能造一颗好的螺丝也很重要。

结语：巨头&创新者

王小川和百度的隔空口水战，成为最近大模型混战中一个热闹的插曲。

“高富帅”李彦宏认为，中国基本不会再出OpenAI，用巨头的就可以了。

“直男”王小川说，“行业中有些人”对未来的观点从来就没有判断对过，一直活在平行宇宙里。

除了陈年恩怨，这大体上可以看作是巨头和创业者之间的立场对立：巨头都喜欢包揽一切，而创业者则喜欢打破常规。

而科技行业的成功似乎更依仗于创新。毕竟，从打造AlophaGo的DeepMind，到发布ChatGPT的OpenAI，没有一个是从巨头中（直接）孵化出来的。

这就是创新者的窘境。

对于科技巨头而言，自己造轮子固然重要，但能找到、孵化出下一个OpenAI又未尝不可呢？

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

正在改变与想要改变世界的人，都在虎嗅APP

近期资讯

按键连发工具哪个好用又免费？五款自动按键点击器，独家揭秘！

您是否曾经尝试过反复复制粘贴成百上千段文字？或者在游戏中不断按鼠标按钮让角色攻击同一个目标或前往同一个地方？这些看似简单的重复任务，实际上却需要我们自己一遍又一遍地执行。这时候，如果有一款合适的按键连发工具，将极大地提高您的工作效率。这类软件能够帮助您自动执行重复的按键点击操作，节省大量时间和精力。目前市面上有很多免费的自动按键点击器，那么哪一款才是最适合您的呢？今天，我们将为您汇总五款优秀的免费自动按键点击器，独家揭秘它们的优缺点，帮助您选择最合适的工具！按键连发工具1：金舟鼠标连点器推荐理由：自动鼠标

金舟音频大师 2024-12-27

售价33.98万元起！25款腾势D9重磅上市，再立MPV 6大标杆！

12月26日，“科技豪华全能旗舰MPV”——25款腾势D9重磅上市，推出DM-i超级混动版和纯电版共8个版本车型，官方指导价33.98万元——46.98万元。25款腾势D9在“设计、舒适、驾驭、三电、智能、安全”6大维度全面升级，再立MPV王者标杆！ [图片] 为感谢新老用户的支持和信赖，即刻下订25款腾势D9，尊享超凡权益！包含5000元膨胀金、至高10000元置换补贴、至高贴息10000元，以及0首付或至高84期灵活金融权益方案！还有终身免费三电质保、终身免费充电桩及安装服务、终身免费系统OTA升级，

有事郝说 2024-12-27

平板电脑市场变局：国产“进”，苹果“退”

［丁科技网观察］如同整个消费电子终端市场的表现，今年以来，平板电脑市场维持向上态势，但在同时，品牌格局有明显变化，整体表现为：国产“进”，苹果“退”。丁科技网观察认为，这受到了使用场景变化、AI技术渗透等多重因素影响。近期，机构洛图科技和Canalys先后发布了第三季度国内平板电脑相关数据，除细节差异外，对趋势的反映基本接近。（数据及图：洛图科技）根据洛图科技数据，中国消费级智能平板市场的出货量为713.1万台，同比增长3.5%。洛图科技重点关注的是线上市场表现，线上监测市场（不含拼抖快等新兴电商）的零售

钉科技 2024-12-27

如何切换安卓手机ip？你更喜欢哪种操作

在数字化时代，IP地址作为网络设备的唯一标识，对于网络访问和隐私保护至关重要。有时，可能出于个人需求或工作缘故，想要将自己的安卓手机IP地址更换成其他省份的，或者设置成静态IP等需求该如何实现呢？安卓手机IP地址怎么切换？本文将详细介绍几种切换安卓手机IP地址的方法，看看你更喜欢哪种操作。方法‌一、通过切换网络连接‌1、Wi-Fi网络切换‌：在手机设置中找到Wi-Fi选项，断开当前连接，选择并连接到另一个Wi-Fi网络，即可自动获取新的IP地址‌。如果您需要将安卓手机IP地址切换至其他省份，例如更换成北京

虎观小二 2024-12-27

小愚测评 2024-12-27

生产调度系统升级指南：选择4U工控机的五大理由

一、生产调度系统的作用和重要性：生产调度系统在现代制造业中扮演非常重要的角色，它通过实时监控和协调生产的分配，确保生产流程高效有序并最大化资源利用率，有效的调度系统不仅能提高生产效率，还能降低停机时间、减少成本、并增强企业的竞争力，在工业自动化和生产管理中，硬件的选择直接影响系统的稳定性、处理能力和扩展性。尤其是工控机，作为是你刚才调度系统的核心计算平台，必须具备高性能、可靠性和灵活性，才能满足日益复杂的工业需求；二、东田工控4U工控介绍-DT-610L-BH81MC：CPU：可搭载酷睿6/7/8/9代处

东田工控 2024-12-27

电脑桌面文件不见了怎么恢复？4个技巧快速现身

电脑桌面上的文件突然消失，仿佛一夜之间被神秘的力量抹去，这无疑会让许多人感到焦虑和困惑。这种情况可能是由意外删除、系统错误或其他原因造成的。那么，桌面文件不见了怎么恢复？不必过于恐慌，因为很多时候，这些文件并没有真正消失，只是被隐藏或误操作转移到了其他地方。接下来，本文将为你揭示4个实用技巧，帮助你快速找回消失的桌面文件，让它们重新现身。 [图片] 技巧一：利用搜索功能快速恢复文件当文件消失时，首先可以尝试使用电脑的搜索功能。在文件资源管理器的搜索框中输入文件名或相关关键词，系统会自动搜索整个电脑，包

庄壮壮略略略 2024-12-27

630kVA隧道升压器：远距离供电稳定解决方案

在隧道工程建设中，电力供应的稳定性至关重要。由于隧道往往位于偏远地区，供电线路长，电压损耗大，导致终端设备无法正常运行。这时，630kVA 隧道升压器成为了保障远距离供电稳定的理想解决方案。 630kVA 隧道升压器采用先进的调压技术，能够有效补偿线路中的电压降，将输入电压提升到设备所需的稳定电压值。其具有过载能力强、效率高、节能环保等优点，能够在恶劣的环境条件下长期可靠运行。 [图片] 以某大型隧道工程为例，该隧道全长数公里，施工过程中面临着严重的电压不足问题。由于距离供电源头较远，电力在传输过程

伺服变压器厂家 2024-12-27

AI大模型之战，大厂为何都在“重复造轮子”？

推荐体验

相关资讯

野蛮生长后，AI大模型还需要重复“造轮子”？

从头造轮子 or 重复造轮子？苹果开源 MLX，为自家芯片专属定制机器学习框架

重复造轮子的百模大战：两极热，中间空

对话李彦宏：不要重复造轮子，AI的十倍机会在别处

百模大战的同质化窘境：百花齐放还是重复造轮子？

近期资讯

按键连发工具哪个好用又免费？五款自动按键点击器，独家揭秘！

售价33.98万元起！25款腾势D9重磅上市，再立MPV 6大标杆！

平板电脑市场变局：国产“进”，苹果“退”

如何切换安卓手机ip？你更喜欢哪种操作

ip地址获取失败啥意思？ip地址获取失败怎么回事

瑞芯微芯片怎么样？三防平板电脑可以选择吗?

一加Ace5快速上手以后，不吹不黑地，说说自己的真实使用感受

生产调度系统升级指南：选择4U工控机的五大理由

电脑桌面文件不见了怎么恢复？4个技巧快速现身

630kVA隧道升压器：远距离供电稳定解决方案

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响