逐浪AIGC：大模型狂飙

作者：21世纪经济报道发布时间：2023-03-18

试想一下，一个月薪几千元的普通客服正给海外用户回邮件，他到处搜索外文来辅助回复工作，写出来的东西一看就会被用户认为是非母语的工作人员。

在2023年，当他面向ChatGPT后会发生怎样的变化？基础邮件文本可以直接生成，写邮件的效率或直接提高90%，而强大的AI能力甚至能做到邮件毫无外国人的痕迹。

虽然这个“AI助理”并不完美，但是毫无疑问ChatGPT提供了全新的生产力。面对ChatGPT，人们经历了惊艳、狂热、剖析、期待、质疑等一系列反应。正当舆论开始降温之时，OpenAI在3月15日直接抛出了GPT-4。

ChatGPT是基于GPT-3.5（Generative Pre-trained Transformer 3.5）自然语言（NLP）大模型开发而成。相比于上一代，GPT-4已经迭代为一个多模态大模型（Multimodal Model），不仅将文字输入限制提升至2.5万字，还可以支持图像输入，并且回答的准确性更高，也能生成歌词和创意文本。

目前在ChatGPT可以选取GPT-4模式，同时OpenAI也开放了GPT-4的API，新的浪潮继续涌动。在这一AI新物种迅猛进化的背后，AI大模型正在狂飙，这一次，GPT真正横扫了人工智能是人工智障的嘲讽。

迄今为止，我们无法想象ChatGPT的上限在哪里，它似乎只想花上百亿美金告诉我们，人工智能真的存在。而在任何尺度上，GPT及其配套的技术方向，将史无前例地改变着人类世界。

图片来源：视觉中国

大模型崛起

2015年12月，硅谷大佬们启动了OpenAI的引擎，GPT计划才开始酝酿。彼时，谷歌已经在前一年收购了DeepMind，一年后，DeepMind团队研发的AlphaGo即将大放异彩，一场人机围棋大战直接将全球大众卷入AI世界。

而谷歌带来的AI高潮还未停止，在2017年，谷歌发布了Transformer大模型，成为了AI大模型的新分水岭。而谷歌也未预料到，Transformer却成为了OpenAI将ChatGPT培养为“变形金刚”的模型基础。

据悉，Transformer模型原本并不是专用于解决自然语言问题，而是解决机器翻译问题，但是大家发现用它做语言模型效果非常好，现在人工智能的各种问题都由它来解决，成为了基础模型。

角逐的种子已经埋下，AI的新战场悄然来临。2018年，OpenAI的GPT-1和谷歌的BERT共同出世，他们均使用了Transformer模型的架构，成为最具代表性的预训练语言模型。

看似旗鼓相当的起点，却通向了不同路径。2020年，OpenAI从GPT-3开始抢跑，率先进化为大型生成式预训练语言模型（LLM）的顶级玩家，并在2022年以ChatGPT一战封神。

华为语音语义首席科学家刘群在《ChatGPT技术分析》报告中总结道，从语言模型的发展来看，演进的过程中依次出现了n元语言模型、神经网络语言模型、循环神经网络语言模型、Transformer语言模型、预训练语言模型（以ELMo、BERT、GPT为代表）、大型生成式预训练语言模型（GPT-3、GPT-4）。

在大模型的演变过程中，国内也涌现出多个具有代表性的AI大模型。比如，在2021年，华为发布了首个中文千亿级的盘古模型，中科院自动化所提出首个三模态的紫东太初模型。

百度在2022年发布10个产业级知识增强的ERNIE模型，全面涵盖基础大模型、任务大模型、行业大模型。在2023年3月16日，百度正式推出文心一言，对标ChatGPT。据介绍，文心一言是新一代知识增强大语言模型，是在ERNIE及PLATO系列模型的基础上研发的。

眼下，在大模型舞台上，GPT正在开启新范式。一位AI资深从业者向21世纪经济报道记者表示，按照一般的AI的构建思路，大家往往会专注于一项应用。即一般的天才发明家会避免去创造一个全能的智能机器人，他们会把具体功能拆分成洗衣机、冰箱、微波炉，而具体功能解决具体场景需要不同的技术类型，因此一些厂商会避免去解决“太大”的问题。

同时，也有厂商会避免解决“太小”的问题，他们想创建全知全能的AI，想一起解决自然语言、自动驾驶、图像识别等各种通用的问题。以谷歌为例，它就是典型的在自然语言领域想的“太小”，在自动驾驶领域想的“太大”。

他认为，ChatGPT这款产品恰到好处，解决了“既不太大、又不太小”的问题，并不迁就于普通的商用场景，不急于解决具体的商用问题，但很明显它也不想只解决冰箱、微波炉式的问题，又有壮志雄心。“历史上所有的自然语言厂商，目前都没有做过如此庞大的自然语言应用。GPT是有多个发展语言方向，但是封装出了ChatGPT这个老少咸宜、妇孺皆可的自然语言用户体验的场景。”

可以看到，在人工智能领域，过于冒进和缺乏冒险精神都是非常危险的，AI就是人类智慧最前沿的角斗场。

ChatGPT棋高一着

伦敦大学学院计算机系教授、上海数字大脑研究院联合创始人兼院长汪军向21世纪经济报道记者表示，ChatGPT带来的技术革新，不亚于当时Google检索互联网带来的跃进，GPT家族与BERT模型本质上都基于Transformer大模型技术。

为何GPT能够抢先一步？汪军告诉记者：“Open AI比较早就专注于大模型训练，从GPT开始就发展得比较全面，其中一项技术是上下文学习（In-context Learning），GPT做得比较领先。”

根据相关论文，上下文学习的核心思路通过类比来学习。首先，它需要一些示例来形成一个演示上下文，这些示例通常是用自然语言模板编写的。然后将查询的问题和上下文演示连接在一起，形成带有提示的输入，并将其输入到语言模型中进行预测。

这意味着，大模型的学习方法更加接近人类，比如我们要理解互联网新词或者微信表情包的含义，通常会把它出现的上下文场景学一遍，比直接给概念更好理解。现在，大模型的训练，也可以通过学习上下文场景的方式来习得“相似的逻辑模式”，进行任务的演算。

GPT则将这技术运用得炉火纯青，汪军进一步解析道：“GPT-3可以打破任务的界限，本质上任何NLP（自然语言）的任务都可以用一段话，即一段上下文来描述，语言模型就可以根据不同的上下文场景生成不同的答案，然后进行整合。所以哪怕只是给ChatGPT一点点提示，然后给它上下文提示信息，一个大模型理论上就可以解决各种各样的机器学习问题。”

在他看来，这是对机器学习的重大变革，“以前我们根据任务来训练，现在不需要了，只要把问题用语言文字描述作为提示给到大模型，大模型根据提示就可以适用到特定问题给到结果。”

此外，人类反馈强化学习（RLHF，Reinforcement Learning from Human Feedback）也多次被专家们提及，因为GPT3.5与GPT-3的主要区别在于，新加入了人类反馈强化学习的训练方法。据了解，这一方法包括三个阶段，分别是监督策略模型、训练回报模型（需要人工根据结果排序为结果打分）、强化学习来增强输出结果。

“所谓的人类反馈强化学习就是通过人类的判断，让大模型找到最好的答案，形成一个模型，然后在最后一轮训练的时候，用强化学习来增强结果。即强化学习会通过之前训练好的模型来优化，从而和人的判断去对齐，”汪军指出，“但是这是很成熟的一套训练，属于比较经典的机器学习手段，并非GPT专有，而GPT做得更出色，一方面它有非常大的比较干净的数据，另一方面就是算力的问题，它的模型大到只有大厂有资源能干这件事情。”

GPT-4进化 OpenAI造梦

归纳来看，上述提到的技术点，涉及了AI的训练方法、输入和输出等多方面能力的优化。当然，基于GPT-3.5的ChatGPT仍存在缺点和瓶颈，包括信息不够准确、无法判定真实性、数学能力弱等等，但是GPT-4的现身又让大家看到了技术的迭代演进的方向。

其中，备受关注的一个能力是多模态，即GPT-4不仅可以阅读文字，还可以看懂图片信息，不少业内人士都曾指出多模态是大模型未来发展趋势之一，而OpenAI已经继续迈进。根据OpenAI的演示，当GPT-4看到一张网页的设计图时，它可以根据你的指令，直接写出网页代码。

一方面，“生成式”AI的力量再次展现。汪军谈道：“GPT本质上是生成型模型，现在输入人类语言后，输出的可以是代码、可以是图像、可以是表格、可以文本回答，未来也可能是生成其他可执行的东西，比如自动生成游戏，自动推荐产品，可以是各种各样的形式。所以人机交互完全改变，不是以前基于关键字的搜索，而是基于自然语言的全新交互。”

另一方面，看懂图片也有着重要意义。前述AI资深从业者告诉记者，GPT-4学习读懂各式各样信息的背后，意味着GPT正在把所有的信息归纳到统一的尺度上去处理。自然语言只是信息的一种体现形式，图片、视频等也是信息的载体，GPT则在将这些多样化的信息进行统一地阅读和推理。

海银资本创始合伙人王煜全就在一篇文章中评论道，多模态技术底层是“一切数据Token化”的变革，此处的Token是指AI大模型的数据单位，“一切数据Token化”指的是AI大模型加持下，文字、图片、声音所有数据都能被统一处理的新变革。

他表示：“人类社会中80%以上的数据都是图片、音频、视频等等非结构化的数据，这些数据不像文字、字符一样能被计算机处理，如何挖掘这些数据背后的价值成为大数据变革的一大方向。当时我预测AI会是这轮变革中重要的颠覆力量，如今OpenAI用实际行动证明了这个趋势正在到来。”

而AI大模型已经能使用多种类型的数据训练，王煜全举例道，OpenAI的AI绘画软件Dall-E就是基于GPT-3，用图片数据训练出来，一张图片最长会被转化为1024个Token。在他看来，GPT-4再前进了一步，这次体现出对图片信息更强的理解能力，提供了图片数据处理的新方案，这背后潜在的价值难以估量。

随着GPT带来的技术变革，业内也不禁想象，ChatGPT式的“AI助手”是否会成为未来互联网的唯一入口，甚至成为超越手机的入口，AI软硬件也将因它而重新定义。而令人震惊的是，OpenAI可不仅仅拥有技术，一位业内人士向记者表示：“OpenAI在技术之外，还有高超的传播技巧、融资能力，商业行销和技术创新组合出了化学反应。ChatGPT是一款用户越用越强大的惊人产品，越多人的‘调教’会让系统更加智能，用户的行为成为产品核心资产，堪称OpenAI在用用户融资。”

或者说，相比GPT的人工智能，OpenAI能够组织起这一系列的研发，体现了人类更高的智能。也很难想象，在拥有商业潜力却长年非盈利的状态下，一群高智力的人们聚集在一处，瞄着AI疯狂造梦，最终跑向的终点会是何处。

逐浪AIGC：大模型狂飙

推荐体验

相关资讯

逐浪AIGC⑤丨大模型狂飙

逐浪AIGC丨夸克大模型发布阿里又添大模型新品

逐浪AIGC丨AI大模型时代，火山引擎要做聚合平台

逐浪AIGC丨国产AI大模型狂奔商业应用落地提速

逐浪AIGC丨大模型需要大算力，但光靠GPU也不行

近期资讯

广东省镂工实业控股集团有限公司取得泄气电磁阀专利，优化了电磁阀结构

进联国玉取得一种高压开关电磁阀专利，保证各个腔室与进油口压力相同减小压力波动影响

如何在微信中设置和使用定位功能，保护隐私与分享位置

宁波飞狼自动化取得先导阀专利，加快装置反应速度

如何取消电脑屏保，提高工作效率与使用体验

常州翰润智能科技取得一种可调式气动执行器专利，可灵活控制阀门的开启程度

苏州赛亚杰取得气动机械动能真空阀专利，解决真空阀相关问题

五笔输入法学习指南：掌握技巧与提高打字效率的方法

个性化手机字体设置指南：提升使用体验与视觉享受

如何有效举报不良软件，保护自己与他人安全

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响