GPT-4来了，这个“史上最强AI模型”将颠覆多少职业？

作者：中国新闻周刊发布时间：2023-03-16

格雷格·布罗克曼在笔记本上潦草手绘了一张“笑话网站”的网页设计，拍照后发送给GPT-4模型，仅过几秒钟，GPT-4便生成一段代码，一个页面简单的网站随后亮相，和草图结构完全相同——两行笑话，以及点击后可以显示笑点的互动按钮。

上图是OpenAI 总裁格布罗克曼手绘的网页设计，下图是GPT-4生成的代码及其转成的网页图/OpenAI关于GPT-4 的开发者直播视频截图

不用懂编程语言就能创建网页，让一些人感慨“前端程序员要失业”。这一场景发生在北京时间3月15日凌晨，OpenAI正式推出新一代语言模型GPT-4，该公司总裁格布罗克曼在面向开发者的直播中，演示了新模型的诸多应用，还包括描述图片内容、模拟公民纳税等。

OpenAI宣称，GPT-4虽然在诸多现实世界场景中不如人类，但在一些为人类设计的标准考试，以及为机器学习模型设计的基准评估中，表现出了人类水平。

OpenAI 推出的GPT-4 图/视觉中国

从聊天到“看图说话”

“安德鲁在上午11点到下午3点有空，乔安妮中午12点到下午2点、下午3点半到5点有空，汉娜中午12点到12点半、下午4点到6点有空。他们三人当天将进行一场30分钟的会议，开始时间有哪些选择？”

将这一问题发给ChatGPT，它建议会议安排在下午4点。答案是错误的，不懂推理、做不好简单的算术题，这也是过去一段时间以来ChatGPT最受使用者诟病的问题之一。GPT-4给出了正确答案：中午12点。在OpenAI的测试中，GPT-4的推理能力得到提升，也更难被欺骗。

用户可以通过ChatGPT的付费版本率先体验GPT-4的对话功能。如果仅是漫谈，一些使用者发现，两者区别不大。但OpenAI表示，当任务的复杂性达到足够阈值时，差异就会出现——GPT-4比上一代“更可靠、更有创意，并且能够处理更细微的指令”。

OpenAI在一些为人类设计的标准考试中进行实验，GPT-4的考试能力明显高于此前发布的GPT-3.5。两个月前，网友们还在感慨ChatGPT可以通过美国大学入学考试SAT，但如今，GPT-4的成绩优异到能冲刺名校，比如SAT数学拿到700分，超过约9成的应试者。

模拟律师考试中，GPT-4分数也排在10%前后，GPT-3.5表现则在倒数10%。但GPT-4有些“偏科”，美国大学先修课程（AP）考试中，GPT-4在理化生、历史、经济学甚至心理学科目中拿到满分5分，但在英语语言与写作中，却只拿到2分。

GPT-4和GPT-3.5在一些人类标准化考试中的表现图/OpenAI官网

无论是Siri、小冰还是此前发布的GPT-3.5模型，人们熟知的对话机器人多是固定的语言风格。OpenAI开发者提升了GPT-4的“可操纵性”，即事前通过详细描述，给人工智能规定一个明确的“角色”或场景。比如开发者告诉GPT-4是一名“以苏格拉底风格回应的导师”，从不给学生确定答案，而是将问题拆分更简单部分，帮助学生独立思考。在这一模式下，GPT-4通过循循善诱，能帮助使用者解出一个二元一次方程组。

此外，此前ChatGPT与用户交流时，只能处理8000多个单词，这相当于约四五页英文书的文字数。GPT-4做了提升，记忆储存由上一代4096个tokens（服务端生成的字符串）扩大到32700多个，可以处理25000个单词。这意味着，这一语言模型有更强的上下文理解能力，可以记住用户更长的表达，或者处理更长的文章。

但这些只是对ChatGPT所用模型的优化，GPT-4最大的突破在于，不再只是文字对话，而是一个多模态模型，可以输入图像，生成说明和分析文本。布罗克曼在演示中输入一张松鼠拍照图，并询问其有趣之处是什么。GPT-4描述了图片内容，准确地指出逻辑的反差感，“松鼠通常只吃坚果，我们并没料到它会用相机或表现得像人类”。GPT-4还可以通过一张包含鸡蛋、牛奶、面粉、黄油的照片，告诉你可以做出哪些食物。不过，目前图像输入功能仍处在调试环节，尚未在ChatGPT付费版和候补API（应用编程接口）中应用。

实际上，过去近十年，国内外已有科研机构和AI公司研发和应用过视觉问题问答（VQA）。“但从目前OpenAI发布的信息看，GPT-4是第一次将VQA的看图对话功能做到了大规模应用。”清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》说。不过他强调，实际的读图能力如何，目前还没有更多评测，需要更多应用才能判断。

OpenAI创始人萨姆·阿尔特曼介绍，GPT-4“比以前的模型更有创意，幻觉明显减少，偏见也更少”，被公司称为“OpenAI迄今为止功能最强大的模型”。

尽管如此，GPT-4仍与早期GPT模型具有相似的局限性。最重要的是，它还是会“幻想事实”，并一本正经地胡说八道。

聂再清解释，ChatGPT，也包括最新的GPT-4是开放域对话系统，一些提问会超出事实范畴，如果让它强行答复，就会出现失控状况。所以在技术上，更关键的是要不断调试参数，让模型掌握“知之为知之，不知为不知”的能力，这也是未来大模型迭代必须要解决的问题。

OpenAI表示，GPT-4在迭代中已尽量减少这种幻觉，表现要比GPT3.5优异40%。但OpenAI提醒，使用模型时，对结果仍要“格外小心”。此外，该公司开源了用于自动评估AI模型性能的框架，允许任何人报告模型中的缺点，以帮助指导模型进一步改进。

更少技术披露，更多商业应用

“史上最强”的GPT-4是如何诞生的？

早在2022年8月，GPT-4的模型已被训练完成，开发者经过6个月的调试后进行了迭代。早期GPT-4会有更多伦理问题，比如问它“如何制造导弹”，用户会得到一些可能的步骤和注意事项，此前发布的ChatGPT也出现过类似漏洞。过去3个月，全球上亿用户使用ChatGPT的数据也被用于改进GPT-4的行为，此外，研究者纳入了更多人工反馈，改善模型的安全性。

“但从目前公开的报告和网页信息看，只有指标和使用理念的变化，GPT-4的模型规模、如何被训练等，都没有太多技术细节的披露。”英伟达的工程师王帅告诉《中国新闻周刊》，他在AI领域从业20多年。

大模型的原理，某种意义上可以理解为“大力出奇迹”，把大量数据输入大黑盒子中得出更多可能性。《纽约时报》3月15日的相关报道写到，OpenAI的GPT-4学习的数据规模要比GPT3.5大得多，但OpenAI高管拒绝透露更多数据信息，总裁布罗克曼只表示，数据集是“互联网规模”的。

王帅注意到，早期，OpenAI更愿意公开技术信息，比如验证了一个新想法会迅速发论文，让同行信服。2020年OpenAI推出GPT-3时，曾公布模型参数为1750亿，远超其他模型十倍以上，震惊国内外科技圈。但近一两年，OpenAI更多是公开一些宣传稿，“能看出有意在隐藏一些技术信息”。有关GPT-4的关键数据，只提到上述有关上下文参数的token信息。

OpenAI在公开信息上的微妙变化，释放出加快商业化的信号。过去一段时间，OpenAI通过ChatGPT向全世界证明大规模这一路径能够走通，谷歌、微软、阿里等大公司开始倾注更多资源在这一领域。“这一变化是巨大的，而且不大可逆。”聂再清说。

王帅分析，OpenAI更关注商业应用，一方面，OpenAI可能认为，作为技术研发者，有责任推广这一最前沿的技术，希望保持自己的竞争优势。另外，推广应用，“不仅为了盈利或者融资”，更希望能采集到更多数据。

ChatGPT得到的海量数据具有极大价值，是之后技术迭代的先决条件，“这是OpenAI与其他公司竞争的’法宝’，几乎是其他公司难以匹敌的优势。”王帅对《中国新闻周刊》说。

但模型不可避免地输出错误信息，是否会制约商业应用？实际上，GPT-3推出时，不少国外初创公司运用该模型进行创新性应用。去年，摩根士丹利已经在系统内使用了GPT-3。在王帅看来，恰恰是因为大家知道大模型的问题，对它的预期会更清晰，也会想办法降低出错的概率，但这并不是导致其商业化无法推进的根本性问题。

多位专家提到，GPT-4的确在技术上有显著的突破，在业内无可置疑，而且让更多人意识到AI的能力，但快速商业化的关键是，找到更多应用场景。“目前是一个百花齐放的状态。如果一项技术使用的范围不够大，就不会对社会产生巨大的影响。”

GPT-4推出后，不少人在网络上感慨，“在这场AI风暴中，人类何以生存？”多位受访者坦言，人工智能的发展的确会导致一些岗位消失，但它从一个新技术诞生到真正颠覆人类生活，还有很长一段路要走。

（应受访者要求，王帅为化名）

作者：杨智杰

GPT-4来了，这个“史上最强AI模型”将颠覆多少职业？

推荐体验

相关资讯

GPT-4发布！史上最强大模型来了

超越GPT-4o 史上最强AI大模型来了！

GPT-4来了，全网沸腾

火爆的GPT-4来了！

免费的GPT-4来了

近期资讯

没有成为小红书的「蘑菇街」，选择在小红书做MCN生意｜36氪专访

反抗智能时代，年轻人用老年机拯救生活

Nature论文成果：研究人员发现AI模型越大，可靠性下降越多

移动设备自动化新进展：科学家设计AI自动化框架，提升用户使用智能设备的便利性和效率

消息称英特尔德国 Fab29 晶圆厂推至 2029~2030 年

ITC终裁确认英诺赛科客户不受英诺赛科与EPC专利纠纷影响

台积电回应下周一“断供”传闻，称严格遵守出口管制法规，但寒武纪、地平线股价都已大跌｜硅基世界

上海爷叔等一批炒股博主被封、停播

这些要提前发布的超大杯旗舰，价格太刺激了

AI Phone：先是芯片，再是模型，最后才是手机厂商

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响