爱你对峙过绝望，中国大模型（LLM）的突围之路

作者：梯度世界发布时间：2023-11-03

2022 年 11 月 30 日，这一天，大洋彼岸的OpenAI发布了一款全新的AI聊天产品ChatGPT。没有人能想到，它将掀起新一轮的浪潮。

此后它为全世界的各行各业创造奇迹。但并不包括中国，这款产品不对中国开放。雪上加霜的是，这成了中国的人工智能突围之路上的一道障碍。

在过去的几十年，我国在前沿科技方面基础弱、底子薄，在几乎所有的高精尖技术上都是追赶者，而人工智能是为数不多的能看到的突破的希望领域。彼时，我们已经在语音识别、图像识别、自然语言处理取得到许多重要的成果。但ChatGPT的出现，让一切都仿佛黯然失色。但是我国的科研工作者们跟本没有时间气馁，整装待发，开始新一轮的追赶。然而，困难总是接踵而至，这正是世间的常理。大模型训练需要海量的算力作为支撑，恰在此时，高端芯片的禁售令如一道道紧箍咒，封锁着中国大模型的发展之路。

面对新的挑战，我们并没有放弃，而是积极寻求突破。通用大模型是一个系统工程，算法、数据和算力这三个因素至关重要。通用大模型算法就像原子弹的技术原理，并不是秘密，但知道原理不等于能造出原子弹，还需要掌握大量的工程技巧与经验。通用大模型同样如此，对大模型而言，真正决定性在因素在于数据与算力。数据方面，英文互联网上的数据质量相对比较高，也更易于清洗。我们必须要承认英文互联网上有大量比较准确的知识类信息，可以用于模型训练。另一方面，由于移动互联网的领先，移动端APP空前繁荣，大量的内容储存在APP之中，数据比较难抓取。再加上互联网巨头之间相互顾忌，各自封闭数据，数据孤岛化的日益严重。算力方面，一次模型训练，动辄需要几万张显卡，模型的训练参数还在不断增长，这意味着还需要更多显卡，这是一笔非常大的支出。同时，如何让数以万张显卡协同工作，尽可能的提高资源利用率也是一项巨大的挑战。

找到了问题所在，那就一步一步的去解决这些问题。为了让更多人才与机构参与到大模型的训练中，阿里、百度、字节、华为等公司纷纷推出自己的训练平台。以阿里云的大模型训练平台百炼为例，它把诸如显卡协同工作等底层的逻辑封装到最底层，让研究人员不用再去关心那些繁琐的工程问题，可以把更多的精力投入到模型训练本身上来。它具有超大并行计算规模、高性能、高效率、高利用率等特点，具备高达10万卡量级的集群可扩展规模，能支撑多个万亿参数大模型同时训练，其中单训练任务可达万卡规模，千卡规模的线性扩展效率达92%。同时它内置了几乎所有你能找到的主流开源大模型，让研究人员可以“站在巨人的肩膀上”从事研究工作。

在有了良好的工作界面之后，在多方面的共同努力之下，各类通用与行业大模型争相绽放。据报道，百度与阿里的通用大模型已先后达到了普通民众满足日常生活工作要求的水准。从阿里的大模型通义千问2.0的测评数据来看，它的整体得到超越Meta的LIama-2-70B，相比ChatGPT-3.5九胜一负，相比市场上最为领先的ChatGPT4则是四胜六负。我国的通用大模型并没有被国外巨头拉开，呈现出了加速追赶的态势。这标志着中国在人工智能领域的技术水平取得了质的飞跃，也让全世界看到了中国的实力。