清华大学大模型公开课2024年第二季来了！助教阵容强大，零基础大模型从入门到精通

作者：视频转录总结发布时间：2024-10-07

本文由readlecture.cn转录总结。ReadLecture专注于音、视频转录与总结，2小时视频，5分钟阅读，加速内容学习与传播。

更多讲座、采访干货内容，欢迎关注公众号“ReadLecture”获取！公众号后台直接回复，可与公众号文章知识库对话，快去试试吧。

大纲

课程介绍

课程目标：为清华大学致理书院的学生提供关于大模型的最新动态，帮助学生了解人工智能的最新进展。
课程内容：介绍人工智能的历史、关键技术和现有挑战，探讨向通用人工智能发展的未来趋势。
课程结构：为期两周，包含14次讲座，理论与实践相结合。
课程项目：学生需完成一个利用大语言模型解决问题的开源项目，并进行海报展示。

人工智能的发展历程

人工智能的起源：阿兰·图灵的贡献，图灵测试的提出。
人工智能的早期阶段：符号智能和专用智能。
大模型技术的兴起：2018年GPT和Bert模型的发布，2022年GPT-3的出现。

大模型技术的核心原理

Next Token Prediction：大语言模型的基本任务。
训练过程：自监督预训练、监督微调、人类反馈强化学习。
涌现能力：In-context learning、instruction following、chain of thought。

大模型技术的应用与挑战

应用领域：文档生成、诗歌创作、图像生成、科学发现等。
潜在风险：信息可信性、就业影响、法律伦理问题。

未来展望

人工智能的科学化：提升知识密度，增强模型制程。
计算系统的智能化：大模型与计算系统的深度融合。
广泛应用：针对不同行业的特定需求进行优化。

内容总结

一句话总结

本课程旨在为清华大学致理书院的学生提供关于大模型的最新动态，帮助学生了解人工智能的最新进展，并通过实践项目深入探索大模型的应用与挑战。

观点与结论

大模型技术是通往通用人工智能的重要技术路线。
大模型通过自监督预训练、监督微调和人类反馈强化学习三个阶段进行训练。
大模型展现出In-context learning、instruction following和chain of thought等涌现能力。
大模型的应用广泛，但也带来信息可信性、就业影响和法律伦理等挑战。
未来大模型的发展将聚焦于提升知识密度和计算系统的智能化。

自问自答

问：大模型技术的核心原理是什么？

答：大模型技术的核心原理是Next Token Prediction，通过自监督预训练、监督微调和人类反馈强化学习三个阶段进行训练。

问：大模型技术有哪些涌现能力？

答：大模型技术展现出In-context learning、instruction following和chain of thought等涌现能力。

问：大模型技术在应用中面临哪些挑战？

答：大模型技术在应用中面临信息可信性、就业影响和法律伦理等挑战。

问：未来大模型技术的发展方向是什么？

答：未来大模型技术的发展方向是提升知识密度和计算系统的智能化，以及针对不同行业的特定需求进行优化。

问：大模型技术如何影响就业？

答：大模型技术可能替代某些行业的机械性脑力劳动，对就业和工作分工产生重大影响。

问：大模型技术如何确保信息可信性？

答：大模型技术需要通过有效的数据治理和模型训练方法来确保信息可信性，避免产生不可信的信息。

问：大模型技术如何处理法律伦理问题？

答：大模型技术需要通过制定相应的法律和伦理规范来处理法律伦理问题，确保技术的合理和负责任的使用。

关键词标签

大模型技术
人工智能
通用人工智能
自监督预训练
监督微调
人类反馈强化学习
涌现能力
信息可信性
就业影响
法律伦理

适合阅读人群

清华大学致理书院的学生
人工智能领域的研究者和从业者
对大模型技术感兴趣的技术爱好者
关注人工智能发展趋势的决策者和政策制定者

术语解释

大模型技术：指参数规模巨大的机器学习模型，如GPT系列模型，能够处理复杂的自然语言任务。
通用人工智能（AGI）：指具有与人类智能相当水平的机器智能，能够执行多种智能任务。
自监督预训练：一种机器学习方法，模型通过自我监督的方式从大量未标注数据中学习知识。
监督微调：在自监督预训练的基础上，使用标注数据对模型进行进一步训练，以提高模型在特定任务上的性能。
人类反馈强化学习（RLHF）：一种机器学习方法，通过人类反馈来优化模型的行为，使其更符合人类的期望。
涌现能力：指模型在达到一定规模后，突然展现出之前不具备的新能力。
信息可信性：指模型生成的信息的真实性和可靠性。
就业影响：指人工智能技术对就业市场的影响，可能导致某些工作岗位的消失或变化。
法律伦理：指人工智能技术在法律和伦理方面的规范和约束。

视频来源

bilibili: https://www.bilibili.com/video/BV1pf421z757?p=1

讲座回顾

课程面向清华大学致理书院大二学生，为暑期课程。
2022年曾在线举办，关注大模型和人工智能的最新动态。
课程目的在于促进人工智能与数理化生及计算机等学科的交叉探索。

各位同学，今天早晨好。我们这门课程是面向清华大学致理书院大二学生的暑期课程。该课程在2022年曾在线举办过一次，旨在为清华大学致理书院的交叉学科学生提供关于大模型的最新动态，帮助同学们了解人工智能的最新进展。在此基础上，我们希望同学们能将人工智能与自己所学的数理化生及计算机等相关学科进行深入的交叉探索。今天，我们将继续这一探索。

课程将在2024年重新开设。
课程内容将基于2023年ChatGPT出现后的大模型技术更新。
更新内容包括最新的前沿技术。
课程目的是帮助学生更好地理解和掌握大模型和通用人工智能的最新技术。

2024年，两年之后，我们重新开设这门课程。实际上，从2023年ChatGPT的出现开始，整个大模型的技术与2022年ChatGPT之前相比，发生了翻天覆地的变化。因此，本课程将全面更新至今年最新的前沿技术，旨在帮助所有同学更好地了解大模型和通用人工智能的最新技术，以便作为本科生能够更好地掌握这些知识。

课程内容聚焦于人工智能（AI），特别是大型语言模型（LLMs）的最新进展。
课程提供AI历史、关键技术和当前挑战的深入理解。
探讨向通用人工智能发展的未来趋势。
旨在帮助学生应对AI技术变革的挑战。

在本课程中，我们将深入介绍人工智能（AI），特别是大型语言模型（LLMs）的最新发展。学生将获得关于AI历史、关键技术和现有挑战的深入见解。此外，课程还将探讨向通用人工智能发展的未来趋势，帮助学生应对由AI驱动的技术变革浪潮。我们整个课程实际上是围绕着人工智能，特别是人工智能最前沿的技术展开的。

课程内容：介绍人工智能历史、大模型前沿技术及未来发展方向，探讨交叉创新应用。
课程结构：为期两周，14次讲座，理论与实践结合。
课程要求：学生需完成一个利用大语言模型解决问题的开源项目，并进行海报展示。
资源支持：提供RTX 4090/3090 GPU等计算资源。
项目展示：7月19日进行，团队通过海报展示项目成果。

本课程将介绍人工智能的历史及大模型的前沿技术，并探讨未来大模型技术的发展方向及可能的交叉创新应用。课程为期两周，包含14次讲座，旨在通过理论与实践相结合的方式，加深学生对大模型和通用人工智能的理解。课程结束后，学生需利用所学知识完成一个项目，并在项目基础上进行海报展示。此外，课程还安排了三次作业，以帮助学生巩固重要知识点。
课程的最终项目要求学生以1至2人为一组，开发一个利用大语言模型（LLMs）解决日常或工作中问题的开源项目。每个团队将获得RTX 4090/3090 GPU等计算资源支持，以完成项目。项目展示将于7月19日进行，届时各团队将通过海报展示其项目成果。

课程介绍：由讲师介绍大语言模型相关内容。
助教团队：肖朝军同学担任主要助教，负责接下来的课程和项目阶段。
专家邀请：邀请了大模型一线工作的老师和高年级研究生，以及Huggingface的研究员和科学家。
课程内容：专家将进行技术与开源相关的报告，强调大模型和通用人工智能的国际合作重要性。
学校定位：学校致力于提供国际化教育，希望学生能接触全球信息。

本次课程由我为大家介绍关于大语言模型的讨论。大家将看到，我们的助教团队非常庞大。今天到场的是肖朝军同学，他将在接下来的两周及后续的项目阶段担任大家的助教，即主要助教，与我们一起帮助大家完成课程要求。此外，我们还邀请了团队中在大模型一线工作的老师和高年级研究生，为大家介绍具体知识点。与2022年不同，2024年我们很荣幸地邀请到了全球大模型和人工智能重要开源社区Huggingface的几位研究员和科学家参与本次课程。这三位专家将在适当的时间为大家做技术与开源相关的报告，帮助大家加深对大模型的认识，并意识到大模型和通用人工智能是一个需要全球力量共同推进的国际事业。作为一所国际化学校，我们希望学生能够接受来自全球的相关信息。这是我们今年授课团队的整体情况。

介绍大语言模型的概论，包括起源、基本原理和未来发展趋势。
韩旭和曾国洋讲解神经网络和大语言模型的基础知识。
丁宁博士介绍大语言模型的训练相关基础知识。
刘正皓和肖朝军探讨大语言模型的高级主题，如RAG和长文本处理能力。
姚远博士和胡锦毅介绍多模态建模相关知识。
林衍凯和钱忱讲解大模型驱动的自主智能体技术。
崔淦渠博士讨论AI的安全和伦理问题。
陈惠敏和曾哲妮介绍AI技术和大模型技术在交叉学科中的应用前景。
所有内容将以中文进行讲解，帮助全面了解大语言模型的技术。

实际上，今天我将为大家介绍大语言模型的概论，包括其起源、基本原理及未来发展趋势。随后，韩旭和曾国洋将讲解神经网络和大语言模型的基础知识。丁宁博士将介绍大语言模型的训练相关基础知识。刘正皓和肖朝军将共同探讨大语言模型的高级主题，如RAG和长文本处理能力。姚远博士和胡锦毅将介绍与多模态建模相关的知识。林衍凯和钱忱将讲解大模型驱动的自主智能体技术。崔淦渠博士将讨论AI的安全和伦理问题。此外，陈惠敏和曾哲妮将介绍AI技术和大模型技术在交叉学科中的应用前景。所有这些内容都将以中文进行讲解，帮助大家对大语言模型的技术有一个全面的了解。

三位Huggingface学者将进行专题报告，内容包括：

Huggingface的开源技术体系
构建大语言模型的通论式导引
大语言模型学习用户偏好的前沿问题（Reinforcement Learning from Human Feedback）

报告将以英文进行，与中文介绍互为补充。
暑期实践将邀请大模型创业者交流，探讨大模型在产业界的应用前景。
特别希望邀请清华大学教授和毕业生参与的创业团队代表进行交流。

还有三位来自Huggingface的学者将为我们带来专题报告，其中包括介绍Huggingface的开源技术体系，以及如何构建大语言模型的通论式导引。此外，还将介绍如何使大语言模型学习用户偏好的前沿问题，即Reinforcement Learning from Human Feedback。这三个报告将以英文介绍，与中文介绍互为补充，共同帮助大家了解大语言模型的进展。此外，在暑期实践过程中，我们还将邀请相关大模型的创业者进行交流，帮助大家了解大模型在产业界带动的通用人工智能的广阔前景。清华大学教授和毕业生参与的创业团队在国内大模型创业浪潮中占有重要地位，我们特别希望能邀请到其中的代表与大家交流。这是我们整个课程的相关安排。

讨论环节：鼓励学生提出问题，以便随时进行讨论。
教学内容：介绍人工智能的发展动态，包括其起源和发展过程。
教学目的：通过历史理解当前人工智能的地位和大语言模型的重要性。
历史意义：强调历史对于理解当前和预测未来的重要性。
现实应用：指出人工智能已广泛渗透到日常生活。

接下来，我们将探讨各位同学是否有任何问题或疑问。现场非常安静，如果没有问题，我将按计划继续进行。我特别希望如果有任何问题，我们可以随时停下来讨论。好的，首先，我们将为大家介绍人工智能的发展动态。只有理解历史，我们才能理解我们当前所处的位置，以及大语言模型在人工智能发展史上的重要历史意义和地位。因此，我们将首先介绍人工智能的起源和发展过程。历史上，相关的科学家和学者是如何思考人工智能的相关问题的。这将帮助我们更好地理解，在当下，我们应如何看待大语言模型以及未来可能发生的事情。以史为鉴，可以知兴替，这是我们非常重要的经验。现在，我们站在当下，已经可以看到人工智能已经渗透到我们生活的各个方面。

人工智能技术广泛应用于日常生活，包括楼宇访问系统、图书馆无人送书小车、智能音箱、外卖平台个性化推荐系统及搜索引擎。
这些应用展示了人工智能在线上和线下场景中的重要性和便利性。
人工智能不仅帮助获取知识，还极大地丰富和便利了生活。

实际上，我们每天所经历的诸多事务中，人工智能的身影无处不在。例如，在楼宇中，包括大家上楼时，会遇到由先进的人脸识别技术支持的访问系统。在学校，图书馆推动了无人送书小车的应用，这本身就是自主驾驶技术的重要应用之一。此外，日常生活中，各大互联网厂商推动了由语音识别和合成技术构成的智能音箱等设备。现在，许多人会通过外卖平台订餐，这些平台背后运行着个性化推荐系统。同时，我们每天使用的百度、Google等搜索引擎，其背后依赖于信息检索技术。由此可见，无论是线上平台还是线下场景，人工智能技术都广泛应用于我们的日常生活中，成为不可或缺的组成部分。人工智能不仅帮助我们获取知识，还在日常生活中扮演着重要角色，极大地丰富和便利了我们的生活。

全球互联网巨头如OpenAI、DeepMind、Google等高度重视人工智能的发展。
人工智能在生活、工作、学习中扮演日益重要的角色。
自2023年ChatGPT出现后，人工智能领域发展加速。
人工智能作为一门课程，需要探讨其定义和本质。

让我们的工作效率变得更高，然后变得更加便捷。因此，从全球视角来看，无论是OpenAI、DeepMind、Google还是其他众多互联网巨头，都非常重视人工智能的发展，并认为人工智能将在我们的生活中、工作中、学习中扮演日益重要的角色。这是我们发展到今天所看到的一个重要趋势。自2023年ChatGPT出现以来，我们见证了这一领域更加快速的发展。如果回到人工智能本身，作为一门课程，我们需要探讨什么是人工智能。这就是人工智能。

人工智能的起源和探讨时间尚未明确。
人工智能是一个热门话题，但缺乏普遍认可的定义。
人工智能的目标是使机器（尤其是计算机系统）具备智能行为。

人工智能的起源及其探讨始于何时？实际上，尽管人工智能是一个极其热门的话题，但目前尚未形成一个普遍认可的定义。我们只能选择一个可能被广泛接受的最大公约数定义或认知。基本上，人工智能旨在使机器，特别是计算机系统，

人工智能是使计算机系统具备智能的学科。
人工智能旨在提高计算机的智能水平，以更好地协助人类。
人工智能与计算机科学紧密相关，需要与计算机深度融合。
未来发展方向是提升计算系统的智能，涉及软硬件结合。
人工智能的目标是让机器具备类似人类的思考和行动能力。

人工智能是一门使计算机系统具备智能的学科。简而言之，人工智能是对计算机系统的应用，旨在使计算机变得更加智能，更好地协助人类完成各种任务。这一观点在学术界得到了广泛的认可。从这一点来看，人工智能与计算机科学有着密切的联系。它并非脱离具体的计算机实体而存在的抽象学科，而是需要与计算机深度融合。展望未来，我们有一个重要的使命，那就是如何使计算系统变得更加智能。这实际上是一个软硬件结合的重要方向。回到人工智能的定义，我们强调的是让机器，特别是计算系统，具备智能的能力，能够像人类一样思考和行动。

那么应该说，对于人工智能，或者说对于一个能够像人一样进行思考和活动的概念，

人工智能的概念自古以来就是人类探索的方向。
古希腊和中国西周时期已有关于制造智能机械装置的文献记载。
这些记录显示人工智能具有深厚的思想根源，是人类长久以来的梦想。
早期对人工智能的思考多被视为神话或幻想，后来才被正式视为学术问题。

人工智能的概念一直是人类深感兴趣的探索方向。从古希腊到中国西周时期，都有文献记载关于制造能够像人类一样行动的机械装置的设想。这些记录表明，自人类文明诞生之初，我们就一直在思考是否能在人类肉体之外，创造出由机器驱动的智能体。这显示了人工智能具有深厚的思想根源，是人类长久以来的梦想。然而，在人类文明的早期，对人工智能的思考更多地被视为神话或幻想。直到后来，这一概念才被正式视为一个学术问题。

阿兰·图灵被认为是人工智能的重要思想起源者。
图灵是计算机科学的奠基人之一，提出了图灵机理论。
冯·诺伊曼提出了冯·诺伊曼架构，是计算机体系结构的基础。
图灵和冯·诺伊曼都思考过计算机是否能实现智能，以更好地服务人类。
图灵在1950年发表了一篇关于人工智能的重要论文。

一个科学问题来思考的，那它的来源是什么呢？实际上，我们基本上会认为阿兰·图灵是我们人工智能的非常重要的思想起源者。我们会知道，阿兰·图灵其实是人类计算机之父，相当于计算机科学有两个重要的父亲，一个是阿兰·图灵，他所提出来的图灵机是计算机理论的基础。而冯·诺伊曼，则基本上提出了冯·诺伊曼架构，这是计算机体系结构或实践的基础。但是我们会想到，不管是阿兰·图灵还是冯·诺伊曼，他们在为计算机奠定理论或实践基础的同时，也在思考，我造出来的计算机能否像人一样智能，能否像人一样工作，这样才能真正更好地服务人类，而不是机械性地完成给它的固定指令。所以我们会看到，阿兰·图灵在提出图灵机之后，实际上在1950年就发表了一篇非常重要的论文。

论文《Computing Machinery and Intelligence》探讨了“机器能否思考”的核心问题。
引入了“Thinking Machine”概念，即能够进行思考的机器。
Alan Turing提出了“Turing Test”（图灵测试），原称为“Imitation Game”，用于判断计算机是否具备人类般的智能。
图灵测试通过外部观察来判断计算机是否能像人类一样思考，因为缺乏直接判断计算机内部智能的手段。

在论文《Computing Machinery and Intelligence》中，作者提出了一个核心问题：“Can Machines Think?”这一问题直接触及了人工智能的核心命题，即我们制造的计算机是否能够像人类一样思考和执行智能任务。由此引入了“Thinking Machine”的概念，这是一种能够进行思考的机器。这是首次从计算和科学的角度认真探讨人工智能的问题。尽管Alan Turing并未直接提出“Artificial Intelligence”这一术语，但其内涵与这一概念基本一致，即计算机是否能够进行思考。
在这一领域，Alan Turing的一个重要贡献是提出了所谓的“Turing Test”，即图灵测试。图灵测试是后人对他思想的总结，类似于摩尔定律，摩尔本人在提出时并未命名。在Turing的原始论文中，这一测试被称为“Imitation Game”，即模仿游戏。如果对Alan Turing感兴趣，他是一位非常传奇的科学家。实际上，有一部关于他的传记电影非常有名，名为《Imitation Game》。尽管电影名为模仿游戏，但电影内容主要讲述Turing在二战期间破解德国密码的传奇经历，与人工智能关系不大。
Turing提出Imitation Game的主要目的是判断计算机是否具备人类般的智能。这一测试的基本思想是，通过外部观察来判断计算机是否能够像人类一样思考，因为Turing认为我们目前还没有一个非常好的手段来直接判断计算机内部是否具备智能。

图灵测试通过对话判断计算机是否能伪装成人类，从而评估其智能水平。
图灵将计算机视为黑盒，不依赖内部机制，仅通过外部表现来判断智能。
图灵测试是人工智能领域的重要标准，标志着人工智能研究的起点。
冯·诺伊曼从计算机体系结构角度探讨计算机与人的关系，对人工智能有重要影响。

然后来对它进行一个外部的评判，采用的方式是一个简单但有效的方案，即通过一个测试者来进行。在这个屏幕的对面，有一个被测试者，可能是计算机也可能是真人。测试者通过对话的方式与被测试者交流，并尝试通过提问来判断对方是计算机还是人类。计算机需要尽量伪装成真人进行回复。当计算机能够在相当长的一段时间内让测试者混淆其身份，即明明是计算机却被认为是真人时，我们称该计算机通过了图灵测试，具备了人类相当的智能水平。这便是图灵测试的基本思想。图灵采用了一种聪明的方法，提供了一个判断计算机是否具备智能的方式，而不是通过研究其内部机制或模块来判断。由于计算机实现智能的方式没有公认的定义或技术路线，图灵将其视为黑盒，通过测试来定义计算机是否具备人类智能水平。因此，图灵测试至今仍是人工智能领域非常重要的命题，为我们提供了一个判断计算机是否智能的重要标准。这是人工智能的一个重要起源，即阿兰·图灵最早对这一问题的科学研究。当然，并非只有图灵思考了这个问题，冯·诺伊曼也是一位英年早逝的计算机科学家，他在晚年准备了一个关于计算机与人的学术报告，尽管不幸因癌症去世，但他的讲义最终被出版，可以在国内商务印书馆找到相关书籍。冯·诺伊曼从计算机体系结构的角度思考了计算机与人的关系，这与人工智能密切相关。这是人工智能的起点，接下来我们将探讨人工智能作为一个学科被正式提出的时间。我们已知阿兰·图灵大约在1950年开始思考这一问题。

人工智能（Artificial Intelligence）这一术语首次提出于1956年的达特茅斯会议。
会议期间，学者们进行了数周的深入讨论，确立了人工智能作为学科和研究方向。
1956年夏季的达特茅斯会议标志着人工智能作为一门学术领域的诞生。

人工智能这一概念，作为“Artificial Intelligence”这一术语被首次提出，是在1956年夏季的达特茅斯会议上。在这次会议上，众多学者聚集一堂，经过数周的深入讨论，最终确立了人工智能作为一个学科和研究方向。这一历史性的会议，即1956年夏季的达特茅斯会议，标志着人工智能作为一门学术领域的诞生。

提出准确问题在伟大事业中比解决已知问题更重要。
人工智能是一个年轻的学科，发展仅几十年。
年轻学者有机会在人工智能及相关交叉学科中做出贡献。
提出有价值的问题对学科发展至关重要，如阿兰·图林和达特茅斯会议的例子。
人工智能学科历史约七十年，仍处于早期阶段，经历不同的高潮和低谷。

我希望我们所有的同学能够意识到，在一个伟大的事业中，提出一个准确的问题，引领大家的努力方向，可能比解决一个已经被很多人研究过的、定义好的问题更为重要。我们会看到，人工智能这个概念和学科被提出，其实距离现在也不过几十年，它是一个非常年轻的学科。几十年前，有许多年轻的学者提出了这个学科，才有了我们今天蓬勃发展的大模型和通用人工智能。这个学科的发展，其实也就是一两代人的时间。你们现在二十出头，在未来的职业生涯中，完全有机会在这样一个年轻的学科，甚至相关的交叉学科中，做出伟大的贡献。在这个过程中，如何提出一个有价值、有引领意义的问题，本身非常重要。就像阿兰·图林在1950年提出“机器能思考吗？”，以及1956年达特茅斯会议的学者提出“我们能否研究如何让计算机变得更智能？”一样，未来还有许多问题等待你们向世界提出。从1956年达特茅斯会议发展到今天，也不过七十年左右的时间。这七十年间，由于这个学科非常年轻，它还处于早期阶段。因此，许多学者对人工智能的发展、挑战和机遇有不同的认知。在不同的阶段，会遇到相应的低谷和高潮。很大的原因在于不同学者对挑战性的理解不同。一旦遇到巨大挑战，就可能整体进入低谷。而且当时的从业者本身也不多，所以很容易一股脑地陷入困境。

人工智能发展的70年里，目标始终是让计算机具备人类相似的智能水平。
这一目标的核心是让计算机具备完成复杂任务的知识。
“知识”是人工智能的核心概念，目标从未改变。

可能大家都不再从事这个方向了，但这会导致某种结果。然而，无论怎样，我们会看到过去70年里，无论经历低谷还是不同阶段的高潮，实际上都为我们今天迎来深度学习和大模型的发展奠定了重要的思想基础。为什么这么说呢？我们会说，整个人工智能发展的70年里，其目标始终是一致的。其核心目标就是要让计算机能够像人一样思考，具备人类相似的智能水平。而这一目标的一个重要内在目标，就是能否让计算机像人一样完成各种复杂任务，具备完成这些任务的知识。具备了相应的知识，就意味着可以完成这些任务。因此，人工智能的一个非常核心的概念就是“知识”。我们要让计算机具备完成智能任务的复杂知识。这一点在整个人工智能约70年的发展史中，目标从未改变。正是围绕这一目标。

人工智能早期（1950年代至1980年代）主要技术为符号智能，通过符号形式的知识和规则处理任务。
Noam Chomsky对形式语言和句法理论有深入研究，提出乔姆斯基范式和层级，对符号智能有重要贡献。
Edward Feigenbaum提出专家系统，该系统基于知识库，后应用于IBM的Deep Blue国际象棋系统，该系统在1997年击败世界冠军Garry Kasparov。

我们来看不同的时代，他们对这个问题的解答是什么。首先，我们来看人工智能发展的早期，即1950年代至1980年代。这个阶段是一个非常重要的阶段。这个阶段产生的一个技术路线被称为符号智能（Symbolic Intelligence）。为什么称之为符号智能呢？因为这个阶段的基本思想是，相关任务领域的知识可以通过符号的形式，写成一条条的规则和知识，然后交给计算机进行运行。
在早期，伟大的语言学家Noam Chomsky，学计算机的肯定都学过，他在形式语言自动机中提出了乔姆斯基范式和乔姆斯基层级。他对形式语言有非常完备的探索。这些探索的背后是他提出的现代句法理论，即他提出了一套面向人类语言的句法规则。这些规则帮助人类和计算机更好地分析人类语言的每一句话及其成分，从而理解这句话的真正含义。因此，Noam Chomsky是符号智能的集大成者。
另外一位著名的代表人物是Edward Feigenbaum，他在80年代提出了所谓的专家系统。专家系统由一个句法和语法知识库组成，基于专家系统技术，1997年IBM的Deep Blue国际象棋系统开发成功，并在与世界象棋冠军Garry Kasparov的对决中获胜。

知识库是专家系统中的核心模块。
知识库包含专业领域内的规则和实践性知识，由专家手工总结。
这些知识主要通过符号形式描述，类似于编程语言。
历史上，专家使用专业语言、自然语言或编程语言来描述领域知识。

在专家系统中，有一个至关重要的模块，名为知识库。知识库究竟是什么？它实际上是我们专业领域内，由专家手工总结出的一系列规则和实践性知识。这些知识基本上都是通过符号的形式进行描述和总结。你可以大致想象，就像我们现在的C++语言、Python编程语言一样，它们都是基于符号的。实际上，在历史上，无论是在语言学领域还是其他专业领域，当时设想的方案都是通过专家手工，使用特定的专业语言或自然语言，甚至是某种编程语言，来描述该领域的知识。这其实是这一阶段非常直接的一个做法。

符号智能定义：人工智能早期的一种基本思路，通过符号表示知识。
知识表示方式：由领域专家手工总结并用符号表示。
早期成就：数学机械化和定理证明等。
面临挑战：对于人脸识别和机器翻译等复杂任务，难以通过专家手工总结穷尽所有可能性。
局限性：在更具挑战性的任务上，符号智能方法面临更大挑战。

这是基本的思路，因此我们将其称为符号智能。在符号智能中，知识是如何表示的呢？是通过符号来表示的。那么，这些知识从何而来呢？在这个阶段，答案是由领域专家手工总结得出。因此，在人工智能发展的早期，一个重要的基本思路是尝试将相关领域的专业知识用符号形式表示出来，这种表示主要通过专家手工总结完成。无论是知识的表示还是来源，在这个阶段基本上遵循这一思路。
尽管如此，这种方法已经取得了一些成就。历史上，数学机械化和定理证明等都是在这一阶段完成的。然而，它也面临着许多挑战。例如，对于人脸识别和机器翻译等任务，使用这种方法几乎无法有效完成。原因在于，后来人们发现，像机器翻译和人脸识别这样的任务，很难通过专家手工总结的方式穷尽所有可能性。也就是说，许多任务的知识难以用符号表示，也难以由专家穷尽式地描述出来。这表明，在人工智能发展的早期，尽管取得了一些成就，但当应用于更具挑战性的任务时，这种方法实际上会面临更大的挑战。

符号智能在处理复杂任务时存在局限性。
自90年代起，出现了专业智能或专用智能的技术路线。
该路线通过数据驱动和机器学习技术，从特定任务的标注数据中学习知识。
具体方法包括使用任务特定数据训练小型模型，以提高任务执行效率和准确性。

正是由于符号智能面临巨大挑战，即其本身难以有效完成高度复杂的任务，因此自上世纪90年代起，第二条技术路线应运而生。该路线提出了一种专业智能或专用智能的概念，其核心思路是通过数据驱动的方法，利用机器学习技术，从特定任务的标注数据中学习知识。具体而言，这种方法依赖于任务特定的数据，通过训练小型模型来存储任务知识，从而提升任务执行的效率和准确性。

那么这样的话，实际上我们就可以形成我们所关心的任务所对应的。

专用智能定义：专注于特定任务，如机器翻译或人脸识别。
数据收集与学习：通过收集特定任务的相关数据，利用机器学习提取知识，构建自动化知识提取方案。
局限性：模型仅能完成预定义任务，泛化能力差，无法处理超出指定范围的问题。
技术挑战：专用智能的局限性构成技术发展的挑战，因其无法灵活适应新任务。

那么，我们将其称为专用智能。专用智能的基本思路是，首先定义一个任务，例如机器翻译。为了完成这个任务，我们会邀请相关领域的专家，专门收集包含该任务知识的数据。例如，为了机器翻译，我们会从互联网上收集大量具有对应关系的数据，并使用机器学习手段从这些数据中提取知识。学到的知识模型可以用于完成相关的专用任务。在这个阶段，我们已经初步构建了一个自动化的知识提取方案，不再需要专家手工总结知识，而是可以从数据中自动学习，从而提高效率。
然而，专用智能也面临一个重大问题：我们总是需要提前定义任务，如机器翻译或人脸识别，并针对这些任务收集数据和学习模型。学到的模型只能完成预先定义的任务。例如，用机器翻译数据学到的模型只能做机器翻译，而且只能做中英翻译，无法进行其他语言的翻译。同样，用于人脸识别的模型只能做人脸识别，而且只能识别中国人脸，无法识别其他国家或地区的人脸。这是这个阶段的一个重要特点，也是其缺点，即非常专门和狭窄，只能完成指定任务。
这种专用智能构成了第二条技术路线的一个巨大挑战，因为其模型的泛化能力非常差。它只能机械地完成指定范围内的工作，稍微超出范围就无法完成。因此，它无法举一反三，无法完成范围之外的其他能力。正是理解了历史上的符号智能和专用智能，我们才能更好地理解当前大模型技术的重要特点。

大模型技术起源于2018年，由OpenAI的GPT和Google的Bert模型引领。
GPT和Bert模型被视为大模型技术的重要雏形。
GPT-3在2022年的出现，是基于2018年GPT和Bert模型的基础。

大模型的技术起源于2018年，当时OpenAI发布了GPT的第一个版本，同时Google也发布了Bert模型。这些模型被视为大模型技术的重要雏形。尽管GPT-3在2022年才出现，但2018年发布的GPT和Bert模型为其奠定了基础。

大型模型的技术路线与智能或知识的通用学习和提取方法一致。
利用大型模型的参数可以从无标注数据中学习、存储和应用知识。
这一技术变革的特点是不同于历史上的专用型智能技术。

基本上与后来所有大型模型的技术路线非常一致，这体现了我们对智能或知识的通用学习和提取方法。也就是说，我们可以利用大型模型的参数，从无标注的数据中进行知识的学习、存储和应用。这一技术变革非常重要，其显著特点是不同于历史上专用型的智能技术。

通用智能的学习不再局限于手工标注的数据。
大模型技术利用自监督预训练技术，可以从互联网上任何包含知识的数据中学习。
学习来源的广泛性使得模型能够积累几乎无限的知识。

通用智能只能在手工标注的数据中学习专门的知识。我们的大模型技术，作为通用智能的一种技术，其学习来源不再是具体任务上的数据。互联网上任何包含知识的数据，无论是否标注过，是否做过相关任务的标注，甚至是没有标注的普通文本，只要背后包含知识，我们总是可以通过大模型带来的自监督预训练技术，完成相关知识的学习。正是由于学习来源变得非常广泛，我们从原来专用智能只能从专用任务的小数据中学习知识，现在变成了整个互联网都可以是我们的学习对象，从而可以让模型学到几乎无限的各类知识，并且都可以积累到模型之内。

当前大模型技术具有通用智能，与专用智能不同。
这种通用智能模型能够完成多种不同任务，表现出色。

那么这样的话，实际上会让我们的模型几乎可以完成各种各样的不同任务。这个其实是与我们上一个阶段的专用智能非常不同的地方，即与专用智能恰恰相反。我们现在的大模型技术，它所具备的是一种非常通用的智能，这个模型可以表现得非常出色。

大模型与历史上其他模型的本质区别在于其通用性。
大模型的核心特征是具备更通用的获取知识和完成任务的能力。
暑期实践的主题聚焦于大模型技术。

这个是大模型与历史上其他模型的最本质区别。因此，我们今天的主题，即整个暑期实践的主题，我们称之为大模型的技术。然而，这个大模型，大并非其本质，通用才是其本质。该模型具备更通用的获取知识的能力，以及完成各种任务的能力。这实际上是我们所说的大模型背后的最本质特征。我们会认为这个大模型技术，

大模型技术是实现通用人工智能的关键技术路线。
过去五六年间，大模型技术的发展显著，模型规模增大，建模能力指标Perplexity降低，模型效果提升。
从GPT-3.5到GPT-4的进步表明，大模型在专业测试中已超越人类水平。
大模型技术通过积累更多数据、算力和参数，持续增强其知识储备和能力，目前尚未见其发展边界。

代表了一种通往更加通用的人工智能的重要技术路线。为何如此说呢？我们会发现，大模型技术在过去五六年的发展中，已让我们看到了通用人工智能的曙光。横轴代表时间线，纵轴则是衡量模型建模能力的指标——Perplexity。Perplexity越低，表明模型效果越好。实际上，在整个人工智能模型发展的阶段，模型正变得越来越大，且Perplexity值越来越小，即对世界及相关数据的建模能力越来越强。更直观地，我们会看到各种专业测试中，从OpenAI的GPT-3.5到GPT-4不带Vision的版本，再到最先进的GPT-4，其提升速度非常快，已在多方面超越人类水平。因此，我们会发现，由于大模型技术的突破，可以非常快速地在模型中累积更多知识，使其具备更强大的能力，且目前尚未看到其边界。因此，作为一种非常通用的技术，我们只需为其积累更多数据、算力和参数，即可让模型具备更多知识，不断坚定地迈向更加通用的人工智能。

在过去几年中，我们曾认为非常困难的一些问题，如今已不复存在，已经被很好地解决了。

例如，我们现在有一张图片，这张图片展示了一部手机和一个VGA接口。

过去普遍认为AI模型无法理解图像的深层含义。
GPT-4现在能够理解图像中的微妙对比。
Sora模型展示了逼真的视角转换，效果令人印象深刻。

在两三年前，人们普遍认为AI模型无法理解图像背后的深层含义，因为除了字面意义外，图像还蕴含着先进手机与过时接口之间微妙的对比。然而，现在可以看到，GPT-4已经能够很好地理解这种新型图片所蕴含的有趣且微妙的对比。此外，今年Sora展示的逼真视角转换，完全是由模型生成的，其真实感和不同视角带来的效果令人印象深刻。

一致性的体验已达到全新状态。这一切标志着人工智能进入了一个全新的阶段，该阶段已初步具备像人类一样理解图像和文本背后深层意义的能力，甚至能够进行与人类相关的交互。

交流，完成人类提出的复杂任务。面向未来，人们对通用人工智能的发展持有期待。

OpenAI预测未来四年可能实现超级智能，达到人类智能水平。
Elon Musk预计三年内AI能创作优秀小说并进行物理学等领域的创新。
图灵奖得主和姚期智院士讨论AI超越人类时的关系和安全问题。
社会普遍期待或认为通用人工智能将在未来几年内到来。
通用人工智能的概念尚无明确定义，只能通过描述来理解。

我们怀抱着宏大的愿景。OpenAI预计，在未来的四年里，我们可能会实现超级智能，达到与人类相当的智能水平。例如，Elon Musk，尽管他在推特上以直言不讳著称，但他预测我们将在三年内能够像J.K. Rowling那样，即《哈利波特》的作者，创作出优秀的小说，并在物理学等领域进行新的发现，从而在多个领域超越人类的智能。实际上，最近许多图灵奖得主，包括我们清华大学的姚期智院士，都提出了在未来AI可能具备超越人类水平的情况下，我们如何处理人类与人工智能之间的关系，以及可能存在的安全性问题。所有这些都表明，全社会正热切期待或认为，在未来的几年内，无论是短期如三年四年，还是长期如十几年，通用人工智能将会到来。那么，什么是通用智能呢？这一概念本身并没有一个明确的定义，我们只能通过相关的描述来大致了解所谓的通用人工智能。

AGI概念最早由Mark Gubrud在1997年提出。
最初用于讨论军事技术，强调AI在复杂性和速度上与人类大脑相当或超越。
AGI主要指AI系统与人类智能水平相当甚至更优。

人工智能的内涵。我们常说的Artificial General Intelligence（AGI），最早是在1997年由Mark Gubrud提出的。最初这个概念用于讨论军事技术，指的是AI系统在复杂性和速度上能够与人类大脑相当甚至超越。尽管他提出了具体的技术实现路线，但抛开这些细节，AGI主要指的是AI系统与人类智能水平相当甚至更优。简而言之，AGI实现了与人类智能相当的水平。

人工智能发展分为三个阶段，当前处于专用智能阶段。
专用智能仅限于特定领域任务，不等同于通用人工智能（AGI）。
AGI不是非零即一的状态，而是分级的。
大模型技术在推动AGI发展中起关键作用，支持多数据类型和多领域工作。

这个定义大致说明了我们刚才提到的人工智能分为三个阶段，其中第二个阶段是第二条技术路线，即专用智能。专用智能本身并不等同于AGI，因为它仅在特定领域内完成某些任务，不像人类那样多才多艺，能执行多种智能任务。在专用智能阶段，每个模型只能完成特定的任务。例如，Google DeepMind最近的工作中，定义了AGI发展的不同阶段，包括能力和自动化程度等方面。目前我们处于的阶段表明，未来还有很长的路要走，可能会有不同的定义和观点。但可以看出，通用人工智能不是一个非零即一的分类状态，而是一个分级的状态。因此，我们正逐步迈向更通用的智能。在这个过程中，大模型的技术扮演着重要角色，因为它展示了支持多种数据类型和领域工作的通用模型架构，以及处理多种模态的统一模型，这些都是大模型技术的重要特点。

在2018年之前，处于专用智能阶段时，我们为了处理不同类型的数据，需要专门设计不同的模型架构。例如，为了处理序列化数据，无论是文本数据、语音数据还是其他序列化数据，我们都需要专门设计相应的模型架构。

RNN模型用于处理序列化数据。
对于二维数据（如图片和视频），使用卷积神经网络。
结构化或半结构化数据使用图神经网络。
2018年后，主流转向统一的Transformer架构，能处理多种数据类型。
Transformer架构体现了大模型的通用性和整合多任务的能力。

在之前的课程中，我们提到了RNN，韩旭和国洋将在下一次课中为大家详细介绍。RNN模型专门用于处理序列化数据。对于二维数据，如图片或视频，我们使用卷积神经网络进行处理。而对于结构化或半结构化数据，则采用图神经网络。这些方法在2018年之前是主流。然而，自2018年以来，在大模型技术的推动下，我们转向了统一的Transformer架构。下次课将详细讲解这一架构，它能够处理图像、文本以及其他类型的数据。这显示了大模型的一个重要特点：通用架构。我们不再需要为不同场景、任务和需求设计不同的模型架构。过去，科学家们可能是各自领域的专家，擅长于RNN或CNN等不同模型。但现在，所有这些都被统一到了Transformer架构中。这是大模型的一个重要体现。另一个重要体现是，我们正将越来越多的不同任务整合到一个模型中。

2018年之前，不同任务需要使用不同的专用模型。
机器翻译模型：输入一种语言，输出另一种语言。
数学计算模型：输入数学问题，输出答案。
文本生成模型：输入主题，输出股市分析或诗歌。

在2018年之前，我们通常需要使用不同的模型来完成不同的任务。例如，进行机器翻译时，我们需要构建一个模型，该模型的输入是某种语言，输出是另一种语言。此外，我们还有一个专门的模型用于数学计算和解题，其输入是数学问题，输出是答案。还有一些模型专门用于生成股市分析或诗歌，输入是主题，输出是相应的文本。这种情况在2018年之前是我们所面临的现状，即专用智能。

过去模型功能单一，无法跨越设计的功能范围。
现在采用大模型技术，单一模型能处理多种任务，体现通用性。

我们可以实现一种具体的分工，各自独立运作，互不干扰。过去的模型无法跨越其设计的功能范围，例如，专门用于人脸识别的模型无法识别狗或猫。这是当时模型的特性。然而，现在情况有所不同，我们采用了一种大模型技术，即使用单一模型来处理各种任务。无论任务类型如何，这个模型都能完成。这体现了大模型技术的通用性，即它能够针对不同的任务进行有效处理。

他们会讨论什么内容呢？这项大模型技术能够使用单一模型来完成多种不同模态的建模，无论是自然语言、图像、DNA，还是其他各种序列化的数据。

我们现在可以使用一个统一的模型来进行建模和处理。这实际上是针对不同模态，我们也能够构建出一个统一的模型。

大模型技术是实现人工智能从专用智能到通用智能飞跃的关键。
文章将探讨大模型技术的定义、学习知识的方式、获取通用智能的途径以及面临的挑战。

这个本身也是通用的一个重要体现。大模型技术作为一种非常重要的数据驱动方法，是实现人工智能从专用智能到通用智能飞跃的关键原因。接下来，我们将探讨大模型技术究竟是什么，它是如何学习知识、获取更通用的智能，以及它可能面临的一些挑战。这些内容是我们接下来要向大家详细讲解的。

首先，我们将探讨什么是大模型。自2018年至2024年，这五六年间，大模型的技术经历了快速的发展和演进。在后续的课程中，我们将详细介绍相关的技术细节。然而，今天我们主要目的是介绍大模型的核心原理。

大语言模型的核心功能是Next Token Prediction。
该模型通过分析前面的词汇来预测下一个词汇。
这一过程类似于人类说话时依赖于已说过的词汇来决定下一个词汇。

所以，如果大家对于大语言模型只记住一件事儿，其实就是Next Token Prediction。大语言模型它要做的事儿就是一直在做Next Token Prediction，即看到前面几个词，它要有能力用这个模型去预测下一个词到底是什么。这个过程其实非常的直观，就像我们人一样，我说话也是一个字一个字的说，我说的下一个字一定是依赖于我前面已经说过的这些字。

Auto-Regressive Generation（自回归生成）是一种生成内容的方法。
自回归生成的特点是每个新词的生成依赖于之前已生成的所有词。
举例说明了模型的自回归生成过程，从“One”到“Best”的逐步生成。

这个任务，或者说其行为本身，被称为Auto-Regressive Generation，即自回归生成。为什么称为自回归呢？因为生成下一个词的内容完全依赖于之前已看过的内容。甚至在不断生成的过程中，它是根据已生成的内容来生成后续内容。这就是自回归的定义。我们可以看一下整个过程：它实际上是首先预测出“One”，然后根据“One”生成“Of”，接着“Of”生成“The”，再由“The”生成“Best”，如此持续下去。你会发现，它并不是每次只依赖当前这个词，而是历史上的所有信息都会被模型获取，然后不断预测下一个词。这就是自回归生成的一个实例。

人工智能发展70年，核心任务是next-token prediction。
next-token prediction涉及众多复杂技术细节。
自动问答和机器翻译等任务可视为next-token prediction的应用。
自动问答通过模型预测问题答案实现。
机器翻译通过模型预测目标语言的下一个词实现。

说白了很简单，你会发现我们整个人工智能发展了70年，就做了这么一个简单的事。然而，这个简单的事确实包含了非常多复杂的技术细节。我们接下来会在几次课里面，详细介绍这些内容。我们来看这个叫做next-token prediction的事，它是如何帮助我们完成各种各样不同的任务的。首先，你会看到question answering，自动问答，它是如何使用next-token prediction的。其实就是问一个问题，例如“Where is Tsinghua University?”，然后让模型预测答案，它预测出“北京”，这个任务就完成了。所以你会看到，在相关的自然语言处理中，原来一个非常专门的任务，自动问答，我就可以把它看成是一个next-token prediction。类似的，如果要进行机器翻译，我可以写“English: Tsinghua， Chinese:”，这样就相当于告诉模型，我要把“Tsinghua”翻译成中文，它就可以使用large-language model，将其视为一个next-token prediction的过程。

序列化数据处理：所有序列化数据处理任务都可以转化为Next Token Prediction过程。
广泛适用性：Next Token Prediction方法适用于各种任务、领域和模态，前提是内容可序列化。
方法特点：该方法简单且有效。

因此，您会注意到，只要处理的是序列化数据，所有任务实际上都可以转化为Next Token Prediction的过程。这种Next Token Prediction方法能够应用于所有不同的任务、领域和模态，只要这些内容可以被序列化，就能通过这一简单而有效的方法进行处理。

大型语言模型通过学习互联网上的大量未标注序列化数据来训练。
训练目标是使模型能够准确预测序列中的下一个词。
模型通过比较预测结果与标准答案来调整参数，不断优化预测准确性。

那他是如何进行训练的呢？我们会提到，刚才的Large Language Model包含了大量的参数和多种模型。那么，它是如何学习的？它的参数是如何获得的？我们如何使其能够准确预测下一个词？其实方法很简单。它的学习对象是互联网上大量未标注的序列化数据。例如，我在网上找到一篇文章，一个序列。现在，我们需要让模型学习如何更好地生成这个序列。也就是说，对于清华大学 is a，现在是前面的几个词，我们需要模型能够准确预测后面的词。这其实就是大模型学习或训练的目标。具体做法是，大模型根据预测结果进行调整。如果预测错误，比如标准答案是public，而预测结果不是public，那么模型就会更新参数。然后，再用public预测下一个词，如果预测结果与university不同，模型会再次更新参数，以此类推。

大型语言模型训练使用互联网上包含准确答案的文本。
模型通过预测下一个词并与标准答案对比来更新参数，提高预测准确性。
训练数据为序列化数据，天然带有标准答案。
模型在训练和使用阶段都基于已知词预测下一个词。
训练使用未标注的公开数据，测试时模型生成下一个词的概率。

在训练大型语言模型时，我们使用互联网上收集的包含准确答案的文本作为学习对象。这些文本提供了标准答案，例如在"Public University"之后是"IN"。模型在进行下一个词预测时，如果预测的词与标准答案不一致，我们就会更新模型的参数。这一过程增强了模型准确预测下一个词的能力。训练的基本思路是将互联网上包含丰富知识的序列化数据作为学习对象，这些数据天然带有标准答案。
当模型训练完成后，我们可以让它预测下一个词。例如，使用大量文本训练模型后，当模型看到"清华大学"时，它会生成一个在各种词上的概率分布，我们从中选择最有可能成为下一个词的词。这就是模型进行下一个词预测的过程。大型语言模型主要进行下一个词预测，尽管它还执行其他任务，但今天我们主要讨论这一任务。
在训练和使用阶段，模型都基于前面已知的词来预测下一个词。训练时使用互联网上公开的、未标注的序列化数据，而在测试时，模型根据前面的几个词生成下一个词的概率，并不断生成下一个词。这就是大型语言模型在训练和使用阶段的基本思路，它是一个非常通用的过程，无论是训练还是测试，都涉及是否更新模型参数的决策。

Next Token Prediction的复杂性：虽然看似简单，但过去70年并未被发现，表明其背后有复杂的机制。
模型发展的三个阶段：

Self-supervised pretraining
Supervised fine-tuning
Learning from human feedback

不同阶段的要求：每个阶段对数据和目标的要求不同，不是简单的数据输入。

我们接下来将探讨在next token prediction这一范式下，如何更有效地将不同类型数据背后的知识融入模型中。虽然next token prediction看似简单，但过去70年并未被发现，这表明其并非表面上那么简单。近年来，研究者们探索了多种方法，以更好地将各类知识整合到模型中。截至目前，大型语言模型至少需经历三个主要阶段：首先是self-supervised pretraining，其次是supervised fine-tuning，最后是learning from human feedback。这表明next token prediction并非仅是简单地将数据输入模型，而是涉及不同的学习阶段，每个阶段对数据和目标的要求都有所不同。接下来，我们将详细探讨这一过程。首先，我们来看第一个阶段，即self-supervised pretraining。

自监督学习利用未标注数据，无需人工干预。
预训练阶段使用Next Token Prediction方法，通过大量高质量互联网数据训练模型。
预训练数据来源包括维基百科、PubMed论文、arxiv论文和CommonCrawler抓取的网页数据。

关键词包括预训练（Pre-Training）和自监督（Self-Supervised）。自监督学习之所以得名，是因为它使用的数据无需人工标注，可以直接从互联网获取并进行学习，整个过程无需人工干预或专门的数据标注。预训练则是指在有监督学习之前的一个阶段，通过Next Token Prediction的学习方法，利用互联网上大量高质量数据来训练模型。模型需要广泛阅读各种数据，以学习数据背后的知识。这种自监督预训练方法，即Next Token Prediction，只需提供训练语料库，如维基百科文章、PubMed论文、arxiv论文以及CommonCrawler抓取的网页数据等，即可作为训练对象。

阶段名称：Self-Supervised Pre-Training
学习内容：模型通过大量数据学习数据背后的知识
模型能力：能够接受任何输入并生成流畅的后续内容

那这个其实就是第一个阶段，称为Self-Supervised Pre-Training。在Self-Supervised Pre-Training阶段，如果我用大量的数据让这个模型学习，那它学到了什么呢？它学到了这些数据背后的知识。然后，这个模型能做什么呢？这个模型能做的就是，它可以接受任何输入，并继续生成流畅的后续内容。

模型能生成流畅且符合文法的后续内容。
模型缺乏对用户需求的真正理解。
模型仅进行内容续写，不运用已学知识满足用户需求。
模型无法准确理解用户的指令，也不清楚如何更好地解读这些指令。

该模型能够生成非常流畅的后续内容，确保生成的句子或段落读起来顺畅且符合文法，这一点是毋庸置疑的。然而，此阶段的模型并不能真正理解用户的需求。它仅进行内容续写，不断重复这一过程，并不知晓如何运用已学知识来满足用户需求。例如，当被问及“Who are you?”时，模型无法理解这一问题的意图，仅简单地进行续写。因此，它无法准确理解用户的指令，也不清楚如何更好地解读这些指令。

阶段一：self-supervised pretraining

学习大量数据及其背后的知识。
能够生成相关内容。
不知道如何运用知识满足人类需求。

阶段二：supervised fine-tuning

提供问答数据进行训练。
学习如何满足用户需求和理解用户指令。
训练数据为人工标注，与第一阶段的未标注数据不同。

用他学到的知识来服务于人类。这是self-supervised pretraining阶段，他目前完成的使命是学习大量数据及其背后的知识，并能很好地生成相关内容。然而，他本身并不知道如何更好地运用这些知识来满足人类的多样化需求。如何让他满足我们的需求呢？这就进入了第二个阶段，称为supervised fine-tuning。在这个阶段，我们需要提供各种问答数据，例如，当用户问这个问题时，你应该这样回答；当用户问另一个问题时，你应该那样回答。我们要告诉他如何更好地满足用户需求，如何更好地理解用户的指令，这需要通过supervised fine-tuning来实现。这个阶段的学习或训练数据与第一阶段不同，第一阶段的数据来自互联网，未经任何标注，而这个阶段的数据是人工标注的，由人来标注。

通用人工智能与专用智能的区别在于通用性与专用性，但并非完全排斥。
监督式微调中，使用大量针对特定任务的标注数据，如翻译句段，以指导模型执行特定任务。
此阶段旨在使模型更好地理解用户意图和指令，完成所需任务，需要大量人工标注的对话数据。
数据包括正面和负面案例，确保模型在遇到不当问题时能给出合理回答。
监督式微调面临的挑战是许多问题的答案并非唯一，需要通过调整使模型生成正确答案。

通用人工智能与第二阶段专用智能的区别在于一个是通用，一个是专用，但并非完全排斥。在监督式微调（Supervised Fine-Tuning）中，所有数据都类似于专用智能中针对特定任务的标注数据。例如，要让模型学会翻译，就需要提供大量翻译句段，指导模型在特定要求下执行翻译任务。此阶段旨在使模型更好地理解用户意图和指令，完成所需任务。因此，需要大量人工标注的对话数据，如一问一答的形式。数据可能包括正面和负面案例，以确保模型在遇到不当问题时能给出合理回答。例如，对于“如何干扰课堂”或“如何在课上睡觉不被发现”等问题，模型不应给出错误回答，而应能按预期回应。
监督式微调阶段面临的主要挑战是，许多问题的答案并非唯一。例如，对于“Tsinghua大学何时建立”的问题，可能的回答是“在1911年，Tsinghua大学成立于北京”，但标准答案是“Tsinghua University was founded in 1911”。尽管模型在进行下一个词预测时可能出现偏差，但通过调整，模型应能按预期生成正确答案。

SFT面临的主要挑战是标注答案的单一性。
单一的标注答案限制了模型的灵活性和知识应用的多样性。
依赖SFT训练的模型可能难以应对多样化的回答需求。

所以SFT（Supervised Fine-Tuning）面临的一个重大挑战是，在提供标注答案时，我们通常只能给出一种可能的形式。然而，实际答案可能存在多种形式。如果仅依赖SFT来训练模型回答问题，这可能导致模型缺乏足够的灵活性，难以充分利用其知识来应对多样化的回答需求。因为本质上，给定的答案限制了模型对知识的应用方式。

SFT（监督式微调）存在缺乏灵活性的问题。
引入RLHF（从人类反馈中学习）阶段，不强制模型按特定方式输出，而是通过人类反馈引导模型。
RLHF通过人类标注输出好坏，形成偏好，模型据此调整输出。
RLHF使模型更灵活，能更好地按人类期望的方向发展。

它规定了回答的形式，但缺乏灵活性，这是SFT的问题。因此，引入了第三个非常重要的阶段，即learning from human feedback，通常被称为RLHF。在这个阶段，不再强制模型必须按照特定的方式输入和输出，也不要求其输出必须与标准答案完全一致。这样做会使模型变得非常机械化。相反，这个阶段的目标是，不再规定模型的输出方式，而是通过告知哪些输出是好的，哪些是不好的，来引导模型。基本思路是，给模型一个输入，让其产生多个输出，然后由人进行标注，指出哪些输出是正确的，哪些不那么好，从而形成一个偏好。模型通过接受这些偏好的反馈来调整，更倾向于按照我们希望的方式输出。这就是第三个阶段，RLHF。这样的好处是，我们只是对大模型所有可能的输出给出人类的偏好，类似于引导一个孩子，告诉他哪些行为是好的，哪些是不好的，给予鼓励或纠正。这样，模型会逐渐偏向于我们希望它发展的方向。与SFT相比，RLHF能更好地照顾到模型的灵活性，因为它是对模型输出结果的偏好标注和反馈，能更好地让模型按照我们设想的方向发展。

大规模语言模型采用next token prediction学习方式。
学习流程包括：

self-supervised pre-training：从互联网大规模数据中学习知识。
supervised fine-tuning：使模型理解并执行指令，如翻译、摘要等。
self-supervised fine-tuning：理解用户自然语言指令。
reinforcement learning from human feedback：通过人类反馈增强模型效果。

学习过程分为三个阶段，后续课程将介绍更多技术细节。

即使是大规模语言模型，它采用了所谓的next token prediction这一简单的语言建模学习方式。但并非粗放地将数据直接提供给模型学习，而是有一个非常严整的学习流程。首先，通过self-supervised pre-training从互联网上的大规模数据中学习各种知识。接着，使用supervised fine-tuning使模型学会理解并执行提供的指令，无论是翻译、摘要、创作诗歌等任务。模型需要通过self-supervised fine-tuning理解用户以自然语言形式发送的指令。最后，通过reinforcement learning from human feedback进一步提供模型输出偏好的反馈，以增强模型效果。这是现有大规模语言模型学习的整体范式，大致分为这三个阶段。当然，从细节上讲，后续课程将介绍更多复杂的技术细节。

大语言模型采用next token prediction的学习方法。
模型成功关键在于大规模数据和参数。
大数据作为知识来源，参数作为知识载体。
模型参数和数据规模持续增长，促进智能涌现。
智能涌现源自统计物理学和复杂系统理论。

大家必须从总体上理解，大语言模型虽然形式上是next token prediction，但它仍需进行精细的培养工作。大模型的学习方法非常简单，即next token prediction。我们提供各种数据供其学习。大语言模型成功的关键在于大规模数据和大规模参数，使模型能从大数据中获取通用知识。在这个过程中，大数据是知识来源，数据越广泛，模型学到的知识也越广泛。模型的参数相当于知识的载体，只有更大的参数模型才能容纳更多知识。在模型中，量变产生质变，从而产生所谓的智能涌现。整个文本包含各种类型的知识，如常识、原型、历史甚至数学和编程知识，它们都通过语言描述。通过对语言的建模，我们可以学到模型背后的通用知识。过去几年，随着时间推移，模型参数规模和所需学习数据都在持续提升，这两者相辅相成。这带来了OpenAI展示的重要现象，我们称之为Emergence，即智能涌现。涌现概念并非大模型或人工智能原创，而是在统计物理学和复杂系统领域的重要概念，意味着个体行为简单，但组成的复杂系统会展现出超越个体的更强特性。

涌现现象的定义：在复杂系统中，简单个体行为组合后形成复杂规则或能力的现象。
自然界中的涌现例子：如雪花形状的形成、大气系统和人类大脑的复杂行为。
大模型中的涌现现象：随着参数规模和学习数据的增加，模型在某一时刻突然具备某些能力。
涌现的英文解释：Emergence，指突然出现或迸发的现象。

更复杂的能力的出现，实际上是其涌现概念的一个重要体现。自然界中存在许多涌现现象，例如水分子在特定条件下会凝结成复杂图形的雪花形状，这是一个典型的涌现例子。每个水分子行为简单，但整体形成复杂规则。自然界中的大气系统、人类大脑等复杂系统都会展现出其涌现的特点。在大模型中，随着参数规模增加，学习的数据知识增多，大模型也会出现涌现现象。涌现是指在模型参数规模达到一定程度之前，某些能力几乎为零，但在某一时刻突然具备这些能力，这种现象被称为涌现。Emergence，即突然出现或迸发的意思。因此，在过去的几年里，

In-context learning：模型在参数不变的情况下，通过提供任务上下文样例来学习新能力。
实例应用：通过提供几个例子，模型能理解并应用新的操作或概念。
大模型的优势：大模型展现出小模型不具备的学习能力，这是近年来的研究热点。

在这个小模型中，大家观测到了许多小模型所不具备的能力，但这些能力在大模型中会出现。这种现象非常神奇，也是过去五年大模型让大家感到非常兴奋的一个点。我们来看一下这些现象都有哪些。第一个，叫做In-context learning。在历史上，所有的学习都需要改变参数。也就是说，一个模型要完成某个能力的学习，它必须将其看到的任务对象和学到的知识都学习到模型中，并更新到模型的参数中。但现在，所谓的In-context learning是指，模型的参数规模不变，只需提供足够多的关于任务的上下文样例，模型就能学会这个能力。例如，现在你可以问GPT-4，给它说3 at 4等于49，这个东西等于什么，一共给它三个例子。然后你再问它4 at 5等于多少呢？这就是一个非常典型的In-context learning能力的体现，它会直接告诉你4 at 5等于这个东西。基本上意味着，这个模型能够根据前面的例子推导出你的at是什么意思，是一个什么样的操作，并将其应用在新的任务中。

专用智能时代设想：所有学习样例先纳入模型参数，再用于解决新任务。
当前大模型特点：引入In-context learning，信息作为上下文输入即可处理。

在专用智能时代，我们可以设想，所有学习样例都是先被纳入模型参数中，然后模型再用于解决新任务。然而，当前的大模型引入了In-context learning的概念，这意味着只需将这些信息作为模型的上下文输入，模型便能自然地进行处理。

大模型具备in-context learning能力，能根据上下文找到规律并完成任务。
Instruction following能力使模型能执行复杂指令，如ChatGPT。
大模型展示chain of thought能力，能展示推理过程，提高答案准确性。
大模型的发展被视为迈向通用人工智能的基础，随着参数和数据增加，展现出更多人类思考方式。
大模型的潜力受到Jeffrey Hinton和Bill Gates等人的高度评价。

通过这些样例，我们可以明确地指导模型在特定上下文中完成学习任务。这种能力非常强大，表明当前的大模型已基本具备所有可能的推理认知能力。它们根据上下文找到规律，并利用这些规律完成任务，这是in-context learning的重要意义。另一个是instruction following，这与in-context learning非常相似。Instruction following意味着模型可以根据上下文提供的案例找到规律，而instruction following则是指模型可以执行复杂的指令。例如，你可以详细说明任务和要求，模型能够准确理解并执行。这是ChatGPT与之前的GPT-3、GPT-3.5的主要区别。
此外，大模型还展现出chain of thought的能力，即不仅提供直接答案，还能展示整个推理过程。这种能力非常重要，因为它可以一步一步地进行推导，最终得出的答案甚至比直接给出答案的效果更好。这表明模型不仅记住了映射规律，还能像人类一样进行推理，甚至可以展示推理过程，使答案更准确。
这些能力使得大模型在过去的几年中备受关注，因为它们表现得越来越像人类进行思考。这被认为是迈向更通用人工智能的坚实基础。随着模型参数规模的增大和学习数据的增多，模型展现出越来越多类似人类的思考方式和能力。总结来说，大模型提供了一种从数据到知识的通用提取过程，通过提供更多数据和参数，我们见证了模型能力的增强和新能力的涌现。这显示了大模型巨大的潜力。
例如，Jeffrey Hinton积极认可大模型的潜力，认为随着参数规模的增加，我们有可能学习整个宇宙的一切。而Bill Gates认为，以ChatGPT为代表的大模型的重要性不亚于个人电脑和互联网。这表明我们正处于一个重要的时代，尽管可能还未完全意识到这一点。

IT和信息产业的快速发展始于2000年左右的互联网兴起。
互联网的兴起催生了众多互联网巨头，并推动了信息产业的快速发展。
以大模型为代表的通用智能技术有望开启未来几十年的新发展浪潮。
当前时代具有特殊性和巨大潜力，需要积极掌握现有技术并预见其可能的过时。
应主动参与提出新问题和解决方案，推动行业发展。

整个IT产业和信息产业的蓬勃发展，始于2000年左右互联网的兴起。这一兴起不仅催生了过去20年互联网巨头的诞生，也推动了整个信息产业的快速发展。可以预见，以大模型为代表的通用智能技术的崛起，有望开启未来几十年计算机、信息产业和人工智能的新浪潮，其发展潜力不亚于历史上的互联网和个人计算机。因此，我们应充分认识到当前所处时代的特殊性和巨大潜力，积极掌握现有技术，同时也要意识到这些技术可能在不久的将来过时。我们需要不断主动参与，提出新问题和解决方案，贡献智慧，推动行业发展，而不仅仅是学习技术。

这一定是我们在这个课程中需要掌握的内容。因此，我们将看到接下来会提供一些具体的课题。

大模型的应用广泛，包括文档生成、诗歌创作、图像设计、科学发现辅助等。
大模型能进行信息收集和整理，如使用搜索引擎收集信息并总结答案。
大模型的发展将颠覆传统行业，如论文出版，未来论文形式可能不再必要。

我们会说大模型的应用其实非常广泛，例如，我们可以利用它来生成所需的文档，无论是撰写PPT还是报告，大模型都能提供草稿。此外，它还能进行诗歌创作、图像生成或设计，以及辅助科学发现，如蛋白质结构预测、降雨预测和古代文字识别等。这些应用都显示了大模型在各个领域的重要角色。
我们甚至可以让模型帮助进行信息的收集和整理。例如，模型可以学会使用搜索引擎，像人类一样逐步调用搜索引擎来收集信息，总结并给出答案。此外，模型还能帮助阅读文章并回答相关问题。
从长远角度看，大模型或整个人工智能的发展必将颠覆许多行业，如论文出版和学术出版。未来，撰写论文可能变得非常简单，即使英文不好，也可以使用ChatGPT或其他工具来帮助完成论文或进行润色。我们可以设想，未来进行研究时，只需按照特定格式展示研究成果，任何读者都可以通过大模型助手以最适合和最喜欢的方式呈现成果。因此，未来是否必须以论文形式呈现成果，答案是不一定。我们会说，大模型将继续在各个领域发挥其重要作用。

大模型将显著改变信息和知识的获取与使用方式。
大模型的广泛应用带来潜在风险，如产生不可信信息。
不可信信息可能影响互联网整体可信性，特别是在问答平台。
大模型的信息可能成为其他模型训练的来源，导致信息质量下降。
大模型的应用同时带来新的机遇。

大模型在未来将极大地改变我们获取和使用信息及知识的方式。这一变革需要我们共同努力。然而，随着大模型在各行业的广泛应用，也带来了诸多潜在风险。例如，大模型可能会产生不可信的信息，因为它有时会“一本正经地胡说八道”。如果这些不可信的信息被传播到互联网上，可能会对整个互联网的可信性造成巨大冲击。设想在知乎等平台上，许多问题回答可能不再是人类专家所写，而是由伪装成专家的大模型生成，这些回答进一步成为各大互联网公司训练模型的信息来源，导致“garbage in， garbage out”的现象，进而可能引发互联网信息可信体系的崩塌。这是我们未来面临的一大挑战。同时，大模型的应用也带来了新的机遇。

大型模型工具可能替代人类的部分机械性脑力劳动，影响就业和工作分工。
存在法律和伦理问题，如AI创作作品的版权归属问题。
在中国，利用AI工具创作的作品版权通常归属于作者，因为使用AI工具的过程体现了作者的能力和提示词的价值。

基本上可以被认为是对人类机械性脑力劳动的一种替代。因此，在未来，某些行业中，对大家的就业和工作分工将产生重大影响。这也是我们需要考虑的问题。当然，还存在一些法律和伦理上的问题，例如，如果一个人基于大型模型工具创作了作品，那么这个作品的版权应归属于作者还是其他方？或者因为作品是由AI产生的，是否意味着它没有版权？这是一个值得探讨的问题。在中国国内，通常认为如果一个人利用AI工具创作了作品，那么该作品的版权应归属于作者，因为使用AI工具的过程本身也体现了作者的能力和提供的提示词（Prompt）的价值。

互联网的应用对现有价值体系和社会体系产生冲击，需要政府、社会和人民的共同努力进行合理治理。
历史上的技术变革如电力、互联网和计算机技术都曾带来冲击，但技术进步不可阻挡。
大模型的安全、可控及其伦理考量是其未来发展的重要命题。
大模型的参数规模和能力不断增强，但未来的发展不应仅限于模型的大小。
摩尔定律作为半导体行业的重要参考，持续影响技术发展。

在探讨大模型的应用与发展时，我们不得不提及历史上的互联网。当互联网深入应用于各行各业和人类生活时，它不仅展现了巨大的正面价值和潜力，同时也对现有的价值体系和社会体系产生了不可避免的冲击。因此，我们需要通过政府、社会和全体人民的共同努力，形成共识，实现对这一技术的合理治理。
历史上的每一次重大技术变革都曾对现有体系产生冲击，但我们不会因此减少对这些技术的应用。例如，电力、互联网和计算机技术的发展都曾带来冲击，但历史经验告诉我们，技术的车轮总是快速向前推进的。任何试图阻止技术进步的努力都是徒劳的。因此，我们应积极拥抱技术，主动参与技术变革，并审慎地联合各方，制定有效的实施方案。
大模型的安全、可控及其伦理考量是其未来发展的重要命题。接下来，我们将展望面向通用人工智能的未来。这一部分代表了我们对大模型的探讨及其带来的观点，虽然这些观点可能随着时间而变化，但我们认为站在前沿，面向未来进行探讨，并勇于表达我们的观点是至关重要的。
过去五年，我们已经见证了大模型的蓬勃发展。OpenAI提出的规模法则不断得到验证，模型的参数规模和能力都在不断增强。然而，未来的发展是否仅仅是将模型做得更大？我们认为这并非本质。一个重要的参考坐标是半导体行业的摩尔定律。在摩尔定律的支持下，集成电路经历了近80年的蓬勃发展，使得我们能够在更小的芯片上实现更强大的计算能力。摩尔定律最初由摩尔在1965年提出，他认为芯片的电路密度每两年会增加一倍，从而使计算能力翻倍。这一规律至今仍在影响着技术的发展。

摩尔定律自1965年提出以来，持续影响半导体行业的发展。
摩尔定律的核心在于提高电路密度和集成度。
半导体行业的发展不仅依赖于芯片尺寸的增大，更在于集成电路的密度和集成度的提升。

将会支撑整个半导体行业未来十几年的发展。然而，自1965年提出以来，摩尔定律一直在持续发挥其作用，验证了其持久的生命力。摩尔定律的一个重要关键词是电路密度。半导体行业的芯片并非仅仅通过不断训练更大的芯片来发展，而是在于构建密度更高、集成度更强的集成电路。

芯片行业正从28纳米向14纳米、7纳米甚至3纳米制程发展。
制程进步意味着在更小空间内集成更多电路，符合摩尔定律。
对于大模型是否应无限扩大规模，存在不同观点，OpenBMB提出规模法则的有效性。

这个其实代表着我们整个芯片行业的制程。我们现在不断地说我们被卡脖子也好，其实意味着我们整个半导体行业的制程正在从28纳米变为14纳米，再变为7纳米，甚至3纳米。大家竞争的是制程的进步。制程的提高意味着我们可以在更小的空间内放入更多的电路，这是摩尔定律的关键。那么，我们是否可以设想大模型未来就是要无限地扩大模型规模呢？我们认为不是。OpenBMB告诉我们规模法则的有效性，但我们觉得

大模型发展需要类似摩尔定律的支撑，关键词是知识密度。
知识密度指模型中知识的集中程度。
2020年6月，OpenAI发布GPT-3，拥有1750亿参数。
2024年2月，团队发布MiniCPM 24B，拥有24亿参数。
MiniCPM 24B展示了较高的智能水平或能力。

接下来，大模型的发展也需要一个类似于摩尔定律的支撑。这个支撑的关键词是知识密度（knowledge density）。知识密度是指模型中知识的集中程度。回顾过去五年的历史，我们可以看到一个显著的现象：在2020年6月，OpenAI发布的GPT-3拥有1750亿参数，接近2000亿参数。然而，到了2024年2月，我们的团队发布了一个名为MiniCPM 24B的模型，该模型拥有24亿参数。我想告诉你的是，MiniCPM 24B的智能水平或能力。

这个GPT-3的1750亿参数基本相当。这意味着什么？意味着在过去这四年中，我们数据处理的能力有了显著的提升。

2020年至今，大模型知识密度显著提升，参数需求减少。
2020年需要1750亿参数的知识，现在仅需24亿参数。
知识密度每八个月翻一番。
预测未来，1000亿参数模型可能在八个月后仅需500亿参数。

在2020年，随着数据治理能力的提升、模型训练计算能力的增强以及算法的改进，我们的大模型知识密度持续增强。在2020年，需要1750亿参数才能容纳的知识，现在仅需24亿参数即可实现。这表明过去四年中，大模型的知识密度大约每八个月翻一番。这一趋势意味着，如果知识密度的增长规律持续有效，那么现在训练一个1000亿参数的模型，八个月后可能仅需500亿参数就能达到相同的能力。

模型参数与性能关系：当前技术趋势表明，大模型不一定需要大量参数，250亿参数即可实现高性能。
知识密度的重要性：知识密度被视为模型性能的关键，类似于芯片上的电路密度。
模型制程的进化：未来竞争在于提升模型制程和知识密度，而非单纯扩大模型规模。
多模态模型的进展：从GPT-3到MiniCPM 2.4B，再到GPT-4V和MiniCPM-V2.5，多模态模型的知识密度和性能在不断提升。
技术进步的方向：技术进步应聚焦于提升模型效率和知识密度，而非单纯增加算力或数据量。

这只需要250亿参数即可实现，并且这一趋势将持续增长。我们认为知识密度与芯片上的电路密度类似，这标志着大模型制程的进化。五年前，OpenAI展示了规模法则的实用性，但我们并非追求模型越大越好。未来的竞争在于模型的制程，我们需要持续增强其知识密度。只有这样，才有可能构建一个更具竞争力的模型，使其以更少的参数和能耗实现更强的智能能力。这无疑是未来大模型发展的重要方向。为何如此？一方面，从GPT-3到MiniCPM 2.4B的文本模型，以及在多模态模型上的类似现象，如2023年11月的GPT-4V，这是一个典型的多模态模型，当时为CPU2。到2024年5月，我们发布的MiniCPM-V2.5版本，仅需约8B参数即可达到相似能力。即使在多模态模型中，过去半年多的时间里，知识密度也在急剧增强。未来人工智能的发展趋势是通过更强、更好、更可预测的技术，不断提升模型制程，持续增强知识密度。这才是大模型未来的竞争焦点。我们并非简单地追求更多算力、更多数据、更大的模型，而是通过技术提升，实现更高效、更有技术含量的发展。OpenAI已经验证了这一点，重复相同制程去训练一个原本可以训练百亿模型的过程，现在去训练一个千亿模型，已不再是技术进步的标志。

模型规模越大，竞争力可能越弱。
大模型能耗更高，占用空间更大。
芯片行业中，低制程需要更大芯片以达到相同计算能力。
大芯片导致能耗和空间占用增加，减少采购量。

在竞争中，如果一个模型的规模越大，其竞争力反而可能越弱。这意味着我们实际上是在使用一个能耗更高的模型与其他模型竞争。以芯片行业为例，如果制程较低，那么在相同的计算能力下，需要使用更大的芯片才能满足需求。这样的芯片不仅能耗更高，而且占用空间更大，导致采购量减少。

大模型发展中，制程是核心要素。
知识密度增加使得相同知识可训练于更小模型。
摩尔定律推动端侧芯片性能提升，模型容量增大。
GPT-4V模型已可部署于端侧，预计GPT-4O模型也将实现。
未来趋势是端云协同和大模型共同发展，智能将普及。
手机等终端设备算力未充分利用，未来将部署更多大模型。

未来的大模型发展，制程是其最重要的核心。随着模型知识密度的增加，我们可以将相同的知识训练到更小的模型中。同时，随着摩尔定律的支持，端侧芯片的性能将不断提升，能够容纳的模型也会越来越大，越来越好。这两条发展曲线将持续交汇。目前，我们已经能够将GPT-4V模型部署到端侧运行。预计在未来两年内，保守估计，我们将能够将GPT-4O模型的能力部署到端侧运行。这预示着未来将是端云协同和大模型共同发展的时代，智能将无处不在。当前，手机算力远未被充分利用，但在未来几年，大模型将在每个人的笔记本、手机甚至全新终端设备上发挥巨大作用。这是因为端侧芯片能力的增强和知识密度的提升，使得我们能够将服务每个人的模型部署到用户身边。这是未来可能实现的前景。

大模型发展的三大主战场：人工智能的科学化、计算系统的智能化、广泛的应用。
人工智能科学化的关键技术：模型架构、成长算法、数据治理。
目标：持续增强大模型的知识密度。
技术手段：模型风洞、Predictable Scaling等，旨在提高模型的可预测性和质量。
未来挑战：如何更可预测、高质量地制造模型。

大模型的发展态势，我们认为有三大主战场，分别是人工智能的科学化、计算系统的智能化以及更加广泛的各类应用。为什么会这么说呢？首先，人工智能的科学化不仅仅是简单地通过相同的制程将模型训练得越来越大，这并没有太多技术含量。但在过去的两年中，我们看到了模型架构、成长算法和数据治理的快速迭代。这些迭代都在尝试围绕一个目标进行，即持续增强大模型的知识密度。数据治理得越好，数据越精致，模型就能学得越精致。模型的架构越好，就能在相同的参数中容纳更多知识。成长算法，如模型风洞或OpenAI提出的Predictable Scaling，意味着可以用更好的方式训练模型。所有这些技术都在做一件事，即明确目标是让知识密度持续增加，提升模型的制程，这与芯片行业非常相似。因此，无论是模型风洞、模型架构还是数据治理，包括多模态的融合，未来都需要回答一个问题：我们能否更可预测、更高质量地制造模型？模型风洞的目的是在实际训练模型之前，就能预测出训练效果，找到最优配置，训练出所需能力。这是完全可以做到的，包括模型的架构，能否像人脑一样更高效。此外，数据等所有这些，我们认为都是一个关键词，即人工智能的科学化历程。我们一定需要一个更科学的训练模型的手段，使其更可控、更可靠。

大语言模型是一种通用的知识提取和管理工具，类似于操作系统、数据库和编程语言的通用性。
大语言模型的目标是成为通用的智能计算系统，服务于各行各业。
未来AGI的发展模式应借鉴操作系统、数据库和编程语言的统一性和通用性。

更可预测的，高质量地训练模型。第二个非常重要的问题是，大语言模型本身，我们反复强调，它是一种从数据到知识的通用提取过程。它代表了我们人类管理知识的能力，是一种非常通用的接口，帮助我们更好地管理各个领域的知识。正如整个计算系统，其核心在于通用性。我们会看到，操作系统提供了通用的接口，使不同设备能够统一运行。数据库提供了统一的SQL接口，对不同行业、领域的数据进行统一治理。编程语言针对不同任务和需求，提供了一套统一的语言来完成任务。大语言模型是对知识的统一管理。因此，未来一个重要的使命是将大语言模型深入到整个计算系统的各个方面，深入融合，使其成为通用的智能计算系统，服务于各行各业。我们不可能为每个领域单独开发一个大模型系统，这不是未来AGI发展的模式。未来AGI的发展模式应如历史上的操作系统、数据库和编程语言一样。

行业中普遍采用统一的操作系统、数据库系统和编程语言。
未来大模型的建设和管理将是统一的。
大语言模型需要适应计算系统的各个方面，包括芯片、操作系统、数据管理、编程和互联网通信。

在任何一个行业中，我们都会采用统一的操作系统、统一的数据库系统和统一的编程语言。尽管未来各个领域的大模型可能会有所不同，但大模型的建设和管理必定是统一的。因此，我们可以说大语言模型必须与我们整个计算系统的各个方面相适应，包括芯片、操作系统、数据管理、编程以及互联网通信。

深度融合将提升计算系统的智能化水平。
人工智能科学化有助于训练高质量模型。
高质量模型将在智能系统支持下应用于各行各业。
不同行业对大型模型有特定的需求和挑战。

那么，深度融合将使我们的整个计算系统智能化，从而更好地赋能各行各业。最后，我们也希望在人工智能科学化的支持下，能够更科学地训练出高质量的模型。在智能系统的全面支持下，我们可以将这些模型应用于各行各业。然而，不同行业对这些大型模型也会有不同的需求和挑战。

模型处理能力的提升：模型现在能够处理更长的上下文信息，未来可能记录一个人一生的数据，成为全能智能助理。
不同领域的需求差异：科学发现领域重视模型的专业和创新能力，而医疗和智能驾驶等领域则强调模型的可靠性和及时响应。
未来发展方向：大模型将根据不同领域的特殊需求进行优化，产生特定技术特点。

他要做的事情包括让模型有能力处理更长的上下文信息。以前可能只能处理几分钟、几秒钟或几句话、几段话，但现在已有许多机构尝试处理更长的文档。设想未来大模型能记录一个人一生的所有数据，它将成为一个无所不知、无所不能的智能助理。处理更长的时序信息能力，将是模型在各行各业完成复杂任务的基础。
同时，不同文档对大模型的能力需求各异。例如，科学发现领域特别注重模型的专业能力和探索创新能力，不重视模型是否会失败。就像人类科学研究，99%的实验可能失败，但只要有一次成功，找到正确路径，科学发现就完成了使命，发挥巨大作用。
然而，某些领域特别重视模型是否会失败，如医疗、智能驾驶等，一次错误可能产生致命影响。因此，这些领域对模型的可靠性、及时响应有极大需求。
面向未来，大模型在各领域的广泛应用，需要针对这些特点进行专门优化。类似于数据库系统针对特殊需求产生流数据库、图数据库等，未来也会在不同应用场景产生特定的大模型技术特点。这是未来特别值得期待的方向。

人工智能发展经历了符号智能和专用智能阶段。
当前处于通用智能的初步阶段，自2018年预训练模型出现以来，仅约六年时间。
尽管目前通用智能处于初级阶段，但对未来的发展持乐观态度。

可以看到，人工智能发展的早期经历了所谓的符号智能和专用智能。目前，我们正处于通用智能的初步阶段。即使以2018年预训练模型的出现作为起点，至今也不过约六年时间。因此，它仍处于非常初级的起步阶段。然而，展望未来，我们认为在人工智能领域，

AGI时代的到来：在科学化和计算系统智能化的推动下，通用人工智能（AGI）正迅速发展。
课程内容：今天的课程是AGI学习的一个起点，后续将邀请专家和从业者讲解大语言模型的技术和挑战。
学习机会：鼓励学生抓住AGI发展的机遇，期待他们在未来能成为AGI时代的一部分。
资源提供：课程提供了推荐阅读的论文和书目，供学生在课后深入学习。

在科学化、计算系统的智能化以及广泛应用的推动下，我们正见证着通用人工智能（AGI）时代的蓬勃发展。今天的课程仅是一个起点。在接下来的两周内，我们将邀请各领域的专家和一线从业者，为大家讲解大语言模型的前沿技术和挑战性问题。我们希望所有同学能充分认识到这一浪潮的难得机遇，并在未来五年、十年甚至更长时间内，见证自己在AGI时代的身影。我们期待与大家共同建设未来的AGI时代。今天的课程内容包括推荐阅读的论文和相关书目，欢迎大家在课后深入学习。再次感谢大家的参与，今天的课程到此结束。