内容来源:2023年6月10日,笔记侠举办的“Ai新视野,增长新势能”新商业千人大会。
分享嘉宾:方军,快知实验室合伙人&UWEB教育合伙人。
AI
我今天分享的主题是《把握生成式AI新范式:趋势、原理与应用》。
今天我会尽量少谈技术但又不可避免要提及不少技术名词,但我想传递的一个关键信息与技术无关:
ChatGPT所引领的生成式AI浪潮与你有关,你不一定需要自己做大模型或做应用研发,但你一定可以找到某个角度加入这一浪潮。我们每个人都应该尝试去理解生成式AI的原理和可能性,然后找到一条属于自己的路。
2022年11月最后一天,ChatGPT聊天机器人出现时,我这样的热爱新技术产品的人跑去使用了,但觉得没什么新鲜的。毕竟我们早前用过GPT-2写过文章,也在用GitHub 基于GPT的工具辅助编程。
这大概是一个小迭代,是对话 UI 的尝试。很显然,我很快就发现自己错了,这小小的一步似乎激发了AI的潜能,并将AI的潜能带到数以百万计的大众手中。
生成式AI正引领一个新的数字化范式,且跟每个人都有很强的关系。在我看来,以 GPT 和图像生成为代表的生成式AI 代表着第三波数字化浪潮。
第一波数字化浪潮是让计算随手可及。这是一波延续至今的数字化浪潮,过去十年大数据、云计算、企业数字化转型仍在高速迭代。我们也看到AI的基础是更强大的计算能力,比如OpenAI背后是微软Azure云和英伟达强大的GPU芯片。
第二波数字化浪潮是让信息随手可及。互联网和移动互联网是我们所有人都亲身参与的变化,比如你随手打开APP,就可以看新闻、看视频、看直播。信息随手可及不仅与资讯有关,它还改变了做生意或消费的方式,比如我们可以在网上买东西、叫网约车、叫外卖。
第三波数字化浪潮是让知识随手可及。ChatGPT、谷歌Bard、百度文心一言、科大讯飞星火等等聊天机器人让我们能够比过去用搜索引擎更方便地获得「知识」——有问题我们问AI,而它能够针对性地进行回答。我们不会绘画的人也能够用咒语来让AI绘画,一下子拥有了新的能力。经训练的大模型掌握了大量的的知识与能力,可以为我们所用。
上个月,ChatGPT的月度用户量达到了10亿,也就是半年时间超过10亿。和它最初以五天时间超过100万注册用户一样,这同样创造了互联网产品用户增长的新记录。这标志生成式AI 从研究与技术走向了大众,成为每个人都在日常工作与生活中用的产品。
在这个让知识随手可及的数字化新范式的风起云涌之时,我们可以做什么?我们发现,之前的数字化浪潮都呈现造轮子(建)和用轮子(用)两个分支,建网站或APP大有可为,但用网站或APP同样大有可为。
在这一波浪潮中,建模型和用模型也均可大有所为。同时,过去的数字化经验也告诉我们,抓住先机的两大关键是:
第一,洞悉新技术新产品的原理,了解真正可用的用途。
第二,在理解之后,勇于尝试、把握先入优势。
下面,我来谈谈我对生成式AI原理的理解。
生成式AI的两大基础功能:文字生成与图像生成。同时,两种基础功能是相似的,我们可以通过文字「提示语」,来指挥AI去生成文、生成图。比如,你是一个服装公司,你可以将风格用文字描述输入给它,生成商品的展示图。你可以用提示语指挥AI帮你撰写卖商品所需的介绍文案。
由文字生成文字、由文字生成图像再往前进,就可以生成各种新东西:把图像动起来、将文字转成声音,就可以生成视频。如果生成的文字是网站的代码,再加上图片、文字,就可以生成网站应用。等等。
以OpenAI公司的AI模型进化为例来看很有意思,我们会发现,由文字生成文字的所谓大语言模型、由文字生成图像的图像模型之间共同的根。
以 GPT-3 为例,用对话预料训练它,形成了专门用于对话的模型,然后就有了我们用的聊天机器人。用文本加图像对它进行训练,让它了解文字与图片之间的关联,然后我们就可用它根据文字描述生成图片。
接下来我们来专门看大语言模型这个部分,它是如何拥有知识与能力的?
首先,研究人员拿海量的文本对名为Transformer架构的人工神经网络进行预训练。在预训练之后,它掌握关于字词的概率,它有了这样一种能力:你说了某个词,它就能预测你的下一个词是什么。一个词一个词、一句话一句话地预测下去,它能流畅的方式说话了。
虽然它的实质只是下一个词预测器,但它的表现的确像掌握了一定的知识、有语言能力,甚至有推理能力。
接着,一个关键的转变就出现了。既然我们给一句话,它可以按照这句话所开始的模式接着说下去。那么,如果我们给定一句问句,它是不是同样可以说下去,但现在它在对问句进行回答了。
我们输入模型的提示语(Prompt)就有了新的含义,最初它的意思是演员忘词时的提词,现在它变成了我们提出的问题(请问这个问题如何解答)或命令(请帮我解答这道题、请帮我编写这个程序)。提出的问题或发出的命令,就是我们给AI 模型的指令。
之后,研究者开始着力于提升AI模型能够更好地对人类的指令进行回应。这其中主要的方法是用指令、输入、输出所组成的指令集数据来对模型进行补充训练,也叫指令微调。
ChatGPT-3.5就是用所谓的人类反馈强化学习(RLHF)进行的微调训练,它能更好地响应人类指令,同时也能够更好地与人类价值观对齐。总而言之,到了这个阶段之后,AI 模型就从下一个词预测器变成了能够回答问题或指令命令的强大机器。
换个每个人都很容易理解的视角再看:公司招聘了聪明的应届毕业生,他在学校里学到了很多知识。他最初能做的事情是,用自己的知识预测下一句话该说什么。几个月短暂适应之后,他能够实际参与工作了:你向他提问和给他命令,他回答问题和完成任务。
但这个优秀的人才还是不太了解本行业、本企业,我们可以对他进行培训,当然也包括干中学,他很快就从大学毕业生变成了本企业的骨干了。
在2022年底、2023年初,不少人认为在大语言模型上OpenAI遥遥领先,其他人的追赶需要时间。但2023年3月之后,人们的看法变了,原因在于,开源模型以短短几个月的时间走完了OpenAI几年的探索过程。
以Meta公司开源的 Llama模型为例,它2月底开源,3月斯坦福大学的研究人员基于它微调出 Alpaca模型,之后一个大学与企业界联合团队进一步微调出对话模型Vicuna(也就是能像ChatGPT一样对话),很快,采用人类反馈强化学习的开源模型如Stable Vicuna也出现了。
围绕着Llama,现在有几百个开源模型在进行探索。同时,由中国清华大学开源的ChatGLM模型也有超级活跃的社区,沙特的一家大学则推出了Falcon模型,与Meta公司开源模型不同,这个模型可用于商用。
大语言模型等生成式AI模型将知识变得随手可及,而在它发展的过程中,它本身的知识实际上在过去几个月也变得随手可及。
当然,这背后还是有很多诀窍的,是众多研究人员和产业公司在探索的,比如数据管道、性能评估、模型安全性等。众人目前都在沿着OpenAI公司开辟的道路前进:通过人类反馈强化学习的方法,来让模型更好地回答人的指令,同时跟人类的价值观对齐。
总而言之,GPT模型看着很复杂,但总体框架可看成包括分两步:
第一步,进行所谓的预训练及微调,得到一个人工神经模型。第二步,将模型的参数部署在服务器上供公众使用,这个过程通常叫提供推理服务,这时,我们用户向它提问、给它指令,得到回答。
如果能力视角看,我们也看到同样的两步:第一步,模型在预训练后拥有了比如语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力、多模态能力等上游能力;第二步,我们将这些能力用于下游应用,目前主要是问答机器人或应用助手的形式用于比如语言翻译、辅助写作、辅助编程、一对一教育、办公自动化等场景。
要用好GPT,我们要了解它擅长什么,知道它不擅长什么。另外,我们还要掌握向它提出问题或发出命令的能力,提问能力越强,我们得到的结果就越好。
很多人都已经知道了,GPT 等AI大模型的最大缺是它会是胡说八道,也就是所谓出现幻觉,编造回答。这实际上是它的“特性”还没有完全训练好的问题,这是因为,当我们试图要求它能一定程度上“生成”新的内容时,我们实际上鼓励它有在不相关的信息间建立新联系的能力。
因此,要用好GPT等AI大模型,关键就是要掌握提问的能力——能够高效地提问引导出尽量好的答案,同时提问者又要对答案的优劣好坏有判断力。想真正用好GPT,最关键的是掌握向它提问的技巧。
比如,你跟它说,帮我写篇关于故宫600年的文章,对不起,它写不好,因为你根本没有观点与信息给它。但如果你跟它说,我的公司的情况是这样,我的产品是这样,你帮我写一个产品介绍,他就能够帮你写出来。
1.与大模型打交道:提示语
向AI提问的基本技巧是,你要给它尽可能多的信息,同时就它的回答进行反馈、调整,多次循环迭代后,你可能可以得到你想要的回答。在我认为,提问分为3个层次:
第一层次正确的提问,懂得提问3要素:详尽的背景信息、具体的问题描述、清晰的解答要求。
第二层次进阶的提问,给它少量样本提示、调整提示语重复提问、拆解任务分步提问。
第三层次高阶的提问,外挂知识库、与其他工具联合使用、多轮交互完成复杂任务。
2.运用场景
具体来说,我们可以让GPT在哪些场景帮助我们呢?
① 头脑风暴会
比如,很多公司会花大量时间来开头脑风暴会,用好GPT可以帮助我们节省大量时间。
将GPT用于头脑风暴会的一种方式是:不用团队来开会,你让GPT模仿不同的角色,客户A、客户B、公司老板、具体事务的执行人,还可以请它扮演一个专门提反对意见的角色。这时,你一个人就可以变成一个团队,一个人就可以进行头脑风暴。
第二种方式是,你可以让团队一起来头脑风暴,但让团队成员每人都借助GPT的辅助,每个人带10个想法来会议现场。过去,很多人带不来这么多想法;现在,他可以想一两个想法,然后问GPT,最后每个人都可以轻松带很多新想法来了。这样,可以大幅度提高头脑风暴会的效率,就跟有人说的,用好GPT,可以帮团队每次头脑风暴会节省100个小时。
② AI旅游顾问
我们再来看一个稍微复杂的场景,假设你是一家高端的旅游服务公司,客户说,我想要去哪旅游,我有五六个人,我有什么需求。
这时,我们可以用一个专门的聊天机器人跟他进行对话,用GPT的对话能力把客户的需求问清楚。当然,也开始人机协同,由人类顾问用GPT作为辅助,跟客户对话询问需求。
我们知道,GPT有分析和推理的能力,有了客户需求之后,我们可让GPT去进行分析、将旅游行程设计的大任务拆成一一系列任务,分别去在内部、外部进行查询,比如去外部查询机票酒店等信息。
之后,我们再运用GPT的文字能力,请它将收集到的资料整合成一个提案。这时,我们就可以把提案拿给客户看,如果客户对某个旅游环节设计不满意,我们再把这个流程走一遍直到客户满意。最终,我们再将GPT 与比如排版工具、预定工具等联合使用,帮客户预定酒店、机票、各地的车辆与导游等,同时生成详尽的最终方案手册给到客户。
要注意的是,在这样的场景里,并不是全部交给大模型就可以了,要靠人类专业人士来有效地运用,我们才能用 GPT 来提升企业服务客户的能力。
③ 进阶使用
目前还处在大模型广泛应用的初期,但有些进阶使用的方向已经被证明是必需的,众多的技术团队和企业在尝试着。
第一种,使用微调模型。经预训练的大模型一开始是不懂行业中的专有知识,我们可以通过指令微调训练来形成适合本行业、本企业的模型,用它来服务客户。
企业会考虑微调训练出自己的模型,而不是采用公开的模型服务,也是因为考虑到数据问题,一方面数据是企业的关键资产,你不愿与其他企业分享,另一方面数据也涉及到可能客户隐私,企业不能与其他人分享。
第二种,为模型外挂知识库。现在不少AI 面向C端的产品做法是,用公开的模型服务或自己的微调模型,但又额外附加一个知识库,当用户提问或提出要求时,应用会先去知识库进行匹配,然后将匹配出来的信息交由GPT处理。
这说起来容易,实践中出好的效果还是很难的。通常来说难点主要有两个方面:第一,怎么把自己本来杂乱的数据变成可以让GPT理解的数据。第二,GPT的性能(即回答的质量)究竟能拿到多少分,能否满足用户的需求。
这里有很多工程上的具体实践,也有很多研究者的巧思。比如,用户问了问题,我们用问题在知识库做相关性匹配时,匹配不出想要的资料怎么办?去年底有一篇论文提出的做法(HyDE)已经变成了行业的普遍实践。
它的做法是,我们可以拿问题先去问GPT,得到一个(可能质量不佳的)假设性回答,然后我们拿这个假设性回答去知识库进行匹配,就可以匹配出更相关的资料。
之后,再拿着这些资料去问GPT,这时可以得到好得多回答。这个回答的效果与针对一个细分领域、对模型进行相对要复杂一些的微调得到的结果是相当的。总的来说,GPT等大语言模型的研发和应用都欣欣向荣,但目前所有人都在努力地进行各种尝试,既有研究上的尝试,也有工程上的尝试,也有应用上的尝试。
今天,我们处在一个的新范式转移中,海量的知识被压缩进了模型,让得知识随手可及。我们每个人、每个企业都有了一个拥有强大的知识与能力的机器助手。
现在,每个人都应该去了解生成式AI,理解它真正的用途,然后从你自己的角度切入进去。
这是我今天的分享,谢谢大家。
本文来自微信公众号“笔记侠”(ID:Notesman),作者:笔记侠,36氪经授权发布。