一年前发布的ChatGPT,犹如一道闪电,划开了一个智能大发现的时代。
我们用IT技术上的重大转折点来比喻ChatGPT带来的影响,如world wide web时刻,iPhone时刻;以及类比为人机交互的重要突破点,如从图形界面到自然语言界面。但是这一次却很不一样。人类与机器的关系,进入了关键阶段。
机器的自主性越来越强,人类追求与机器之间简单丝滑的体验,而正欢呼着把最复杂精密的过程,如编程和数学,交给智能体。以后人类动口不动手不动脑,实际上是让机器去接管技术。
在过去的一年,生成式人工智能圈内圈外,处于大发现的亢奋中。虽然主要处于技术的试验阶段和展示阶段,但是数亿用户的参与前所未有。从科技巨头到初创企业,都试图建立起新的企业组织,把研究与产品结合起来,但其中多数还处于产品化和规模化之前的阶段。
3月份发布的GPT-4,能通过美国最重要的学术和专业考试,并且在许多考试中,得分达到甚至超过人类平均水平。这也意味着,它可能替代许多人类的工作。OpenAI出具的一份研究报告,称之为能引发产业革命的“通用技术”,将影响80%的就业市场。尤其是白领的就业,从程序员到设计师,可能受到较大冲击。
微软也发布了一份一百多页的测试报告,称GPT-4已经开始闪烁通用人工智能的“火花”。通用人工智能(AGI)这个概念引发了巨大的争议。“深度学习”之父辛顿、图灵奖获得者本吉奥,以及OpenAI等AI初创企业,都认为实现AGI的时间,将会大幅度提前。他们甚至提出超级智能的实现,人类如果不准备好的话,可能会面临“生存威胁”。
AGI的门槛似乎也越来越低。英伟达CEO黄仁勋认为5年可以实现,马斯克则认为3年就就行,可以写出比JK·罗琳更好的小说。为此,OpenAI的苏茨克沃,准备着要在2027年前研发出“超级对齐”的技术。
2023是大模型军备竞赛的一年。中美已经控制了世界上80%的大模型,其背后是庞大的算力和基础设施。科技巨头投资初创企业,或者自己研发大模型。它在一定意义上变成了微软、谷歌、亚马逊之间的云计算对决。对初创大模型企业的巨额投资,也被戏称为是一种“云洗钱”,这些投资中的大部分其实并非现金,而是云计算服务,让这些巨头在资本市场上以AI的名义,实现更大的价值。
对生成式AI的投资,大部分都流入了通向英伟达银行账户的管道,用来采购GPU。在一场技术革命中,一家公司垄断其中最重要的基础技术和产品,史上非常罕见。硅谷的企业炫耀囤积的GPU,并以此来吸引人才,因为多数最好的AI研究人员,都习惯于在英伟达的软硬件平台上工作。在大模型的热潮中,英伟达的市值超过万亿美元,不仅成为全球最大的半导体企业,还一举成为一家科技巨头企业(Big Tech)。
这一次与以往不同的地方,还在于生成式AI最重要功能,仍然处于早期阶段,而早期用户的规模,已经迅速膨胀到数以亿计。人们一边对憧憬它,一边恐惧它;一边骂它胡说八道,一边津津乐道。一个小的功能展示,就被社交媒体群起尖叫为“炸裂”。在社交媒体时代,人们以追剧的心态,参与到生成式AI的成长过程中。
AI科学家们在寻找更好的办法,来对付大模型产生的“幻觉”。大模型讲话很有套路,但往往经不起推敲。你看它在自信地预测出一个个单词,但不知不觉中,就会被较长的上下文和较复杂的任务搞得自乱阵脚。通过指令和提示中的思维链和思维树机制,可以让大模型的推理更靠谱一些。研究也发现,大模型所产生的智能,受到其训练数据集的限制,从外部检索更多的知识,越来越成为大模型记忆的重要补充。此外,语言也被认为是智能的来源之一,而不是全部。智能的学习与推理过程,也需要与物理世界互动,才能真正产生通用智能。
另外,随着对大模型“涌现”机制的深入了解,人们在相信规模法则的同时,发现目前的架构,并没有让算力和数据发挥最大效应。随着对大模型的研究越来越深入,计算效率也越来越重要。给定一组设计和超参数,以及一个固定的测试损失目标,衡量达到该测试损失所需计算量,就可以得到计算效率指标。一个更高效的模型需要较少的GPU,而效率较低的模型则需要更多,也就是更高的成本及能耗。
在领先的AI实验室那里,包括OpenAI和Anthropic这些领先AI初创企业,对“算力乘数”(compute multiplier)的追求,被看成是其秘密配方之一。他们的研究人员在努力发现新的神经网络架构,其中一个目标,是以同样的算力,取得比Transformer更好的测试损失。其他的方法包括数据集的数量与质量,新的优化算法,以及对超参数的调整,等等。
GPT-4及后来的GPT-4-Turbo,依然是公认的最好的大模型。选取中国与美国的测评榜单对照来看,到了年底,中国的大模型似乎已经赶上并有部分超越了GPT-3.5,而赶上GPT-4,要等到2024年了。
Meta发布了Llama2开源大模型,以及开源模型数量的剧增,在闭源和商业大模型之外开创了一个活跃的新生态。尽管经过调优,开源模型在个别功能上可以媲美甚至超过GPT-4,但在综合指标上仍然落后。今年,中国训练出的大模型数量上超过美国,总数已近二百个,其中许多是开源的行业的垂直模型。
2023年,尽管生成式人工智能的风险融资大幅度增加,但如果去除几家科技巨头的投资,总金额仍然未能超过2021年。多数资金都用来建立生成式AI的基础设施,提升大模型的学习能力,迅速降低成本,让智能像电力一样部署,接通到各行各业,以及人们的生活、娱乐和学习中。
在这方面,闭源和开源的大模型都在加快部署。OpenAI在11月初的开发者大会上推出了工具和商店,用户可以定制GPT。去中心化的开源大模型,在建立生态和推广方面具有天然的优势,它也迫使少数更先进的闭源大模型不断降低其服务价格。
大模型的通用性,让它可以产生无穷无尽的应用场景。如果说它已经压缩了人类所有的知识,理论上讲,只要人类可能所处的场景,都有可能产生它的应用。微软的研究表明,对大模型进行提示工程所展示出来的医学知识,甚至超过了再用专业的医疗知识进行的精调,这为超级智能的价值提供了新的证据。所以,大模型在具体场景实现“grounding”(落地)的潜力,给人以无尽的想象空间。
与以往不同的是,大量的研究展示在大众面前,它会加快从实验室走向产品应用和规模化,也需要一种新的企业组织方式,来推动这一创新过程。生成式AI的初创公司中,研究团队与产品团队融为一体,OpenAI和Anthropic的治理模式前所未有,而Midjourney 依靠10人初创团队就获得了独角兽的估值,最近的文生视频公司Pika,仅4人团队就已经融资了5500万美元。
大模型最终也要部署到终端设备上,才能成为名符其实的通用技术。芯片正在迅速为AI计算改变架构,用来产生更好的token/sec(每秒处理数据量)指标。大模型正在成为笔记本电脑和手机新的操作系统。上百亿参数的模型已经部署到手机上,我们可以期待包括GPT-4在内的上千亿参数的模型部署到笔记本电脑上。更多的AI原生硬件正在得以发明,如可穿戴、AR/VR等。
开源与闭源大模型之争,正如移动时代的安卓与IOS。在微软CEO纳德拉看来,移动时代是美妙的,它实现了服务的普遍消费,但它并没有转化为服务的普遍创造。
“(生成式AI)不仅仅是一种消费导向的事物。这不是关于精英创造。这是关于大众化创造。我非常非常希望我们将开始看到更广泛的生产力增益。”
2024年,我们期待看到生成式AI从大规模实验阶段,加快进入大规模应用阶段,主要表现在如下十个领域:
1,智能体(Agent)进入更多应用场景和业务流程
智能体可以是一个实体的机器人,可以是一个软件,也可以是一个自动驾驶系统,大模型是其大脑。智能体调动其他的程序、应用、知识,甚至自己编程,对更复杂的任务进行规划和管理。也将在软件行业产生深远的影响,许多人可以用经验和专业知识,通过自然语言而不限于编程代码去写软件。智能体通过RAG(检索增强生成)增强模型的长记忆,实现与任务场景的结合,也能让智能体定制化,参与工作流程,成为企业和个人更好的助手。
2,大模型与操作系统一体化,成为AI应用物种爆发的平台
大型语言模型日益操作系统化,它连接了围绕AI芯片部署的硬件和AI软件,虚拟的上下文管理技术将会类似于操作系统的分层内存系统。微软将推出Windows12操作系统,与下一代大模型GPT-5深度集成。
来源:MemGPT: Towards LLMs as Operating Systems
3,生成式AI制作的影视剧大量出现,电影行业进入剧变期
图像和视频是生成式AI迭代最快的领域之一,GPT-4V等多模态大模型的推出,基于扩散模型的Dalle-3、Midjourney和Stable Diffusion的功能不断增强,LCM-LoRA等技术达到了实时生成图像和视频的效果,对影视、娱乐和广告营销创意等行业的影响是颠覆性的。生成式AI正在大批量产生短剧系列,能跨越文化和人群找到受众。2024年将大量出现由生成式AI产生的影视剧,创作者、用户以及角色之间将会出现崭新的交互方式。
4,智能驾驶Transformer架构主导的智能驾驶,中国成为主战场
在特斯拉的引领下,智能驾驶已经全面采用Transformer架构,端到端的智驾已经成为行业追求的标配。2024年,中国放开L3智能驾驶在中国试点部署,特斯拉的FSD有可能在中国落地,让中国继汽车电动化之后,成为全球汽车智能化的主战场。但是,由于大模型本身还难以克服的缺陷,如幻觉和不准确等导致的安全隐患,在智驾系统提供方与消费者之间的责任划分依然关键。
5,人形机器人开始量产,并开始学会与环境互动
在已有的机器人技术之上,多模态和具身智能的大模型,不断展示出惊艳的效果。大型语言模型的推理和控制能力,与视觉模型结合,可以通过获取周围环境数据、视频数据、传感数据、合成数据等,学习人类用手脚完成任务。2024年人形机器人开始量产,开始学习人类的灵活性。
6,终端设备快速大规模AI化
随着设备端AI芯片越来越强大,小型化的大模型可以下载到笔记本电脑和手机等终端设备上,用户不仅可以更快捷地生成内容,而且可以结合具体的场景和任务,利用自己本地的数据和知识进行检索生成,建立起定制化的智能体,更快捷地进行推理,也保护了数据安全和个人隐私。新兴的AI原生终端设备也将涌现出来。
7,下一代大模型推出,开始出现专家水平的AGI“火花”
拥有人才、技术、数据、算力的Google DeepMind,将于1月份推出Gemini多模态大模型。OpenAI将推出GPT-5。关于它已经有太多传闻,但有一点是肯定的,它将是所有的模型中最接近AGI的,继续成为大模型的标杆。开源大模型Llama3会达到GPT-4水平。中国的大模型在2023年达到了GPT-3.5的水平之后,2024年将达到GPT-4的水平。
8,更多合成数据与自然数据结合用于大模型训练
自然语言数据,以及直接从现实世界事件或对象中收集得到的数据,已经无法满足下一代大模型的训练的胃口。GPT-5的训练、自动驾驶、机器人、图像生成等,都在大量使用合成数据。越来越多的数据标注也由AI来完成。但是,只使用合成数据可能会造成数据多样性不足和自循环训练的问题。合成数据与自然数据互相补充,才能提供充分多样性的数据集。
9,安全与对齐成为AGI中最重要的技术
大模型越先进,AI系统的自主性越强。当人类把越来越多的任务交给AI完成,会进一步强化AI的自主性,存在潜在的失控风险。安全正在成为大模型的内在要求。OpenAI的首席科学家苏茨克沃,用公司20%的算力,希望用4年时间解决超级智能的对齐技术。深度学习之父辛顿等一批AI专家,已经建议安全应该占大模型研发预算的三分之一。前沿大模型在发布之前,开始自愿受到政府和专业机构的安全测试。
10,智能辅导等生成式AI教育产品开始进入正规教育系统
教育界正在从本能的抵制,到慢慢了解和接受生成式AI。研究已经初步证明了大模型应用在技能培训、提升数学等学科的学习效果,也发现了Z世代(出生于1995-2010年之间)会更快接受生成式人工智能。2024年,智能辅导系统等教育产品将被学校老师采纳,帮助学生在人机结合的学习过程中更有效地学习。