丨划重点
●ChatGPT用户访问量和用户增长速度已经超过了以往的技术革新的发展速度,确实有可能影响到搜索引擎的历史地位,但时间需要多长?还要看ChatGPT的迭代速度以及能否解决它自身的缺陷。
●ChatGPT存在“一本正经胡说八道”的现象,这种现象的学名叫:幻觉性。这种现象并不仅存于GhatGPT,而是AI大模型的“通病”。
●中国市场的数据体量足够大,只要愿意付出相应的成本,数据质量也不是不能解决的问题,反而像数据归属、数据安全、数据隐私等等是需要重点攻克和解决的问题。
●ChatGPT可能不是技术原创性突破,但是是集合了底层技术的工程、模式以及产品的应用创新。
《生成式AI未来指北》系列内容策划,关注AIGC的技术发展、商业模式、应用场景、AI治理,本期为系列内容第二期,对话智谱AI CEO张鹏,就ChatGPT的技术原理、目前的技术障碍及未来产业发展,展开讨论。
01
“大力”出奇迹,
但有一个目前无法治愈的“疾病”
谷歌高级副总裁兼谷歌搜索引擎负责人普拉巴卡尔·拉格哈万(Prabhakar Raghavan)在接受采访时表示:“机器以一种令人信服但完全编造的方式来表达自己。”这就造成了我们经常调侃的“一本正经地胡说八道”。
这是AI技术上至今难解的一个问题,《连线》在 2018年就曾指出,尽管没有记录在案的其他对抗性攻击(研究人员的概念验证攻击除外),但智能电子产品和自动驾驶等系统容易受到影响这一点“几乎没有争议”。到2022年, 《纽约时报》等报纸表示担心,随着基于大型语言模型的机器人的使用数量持续增长,用户对机器人输出的过于信任可能会导致问题。
Q1:大模型的“大”具体指什么?
张鹏: 大模型的大,首先肯定是指它的规模大,一般来说衡量预训练模型的规模是用它的参数量。类似数学函数中有多少的变量,但是它不是变量,是变量前的权重系数。它实际上是对权重系数数量的衡量。所以1750亿的参数量是指整个函数里面包含有1750亿个系数,这种系数参数会与你所有输入的系数进行一定的数学运算,最终把它转换成结果输出,所以预训练模型的大,其实就是指的这个。一般来说亿级以上的模型就已经算比较大,当然我们现在指的大模型一般来说也都是在十亿规模以上,就是一个Billion以上。
Q2: 参数规模大是不是能够做出通用型特征的重要前提?
张鹏: 是的。“大”是带来能力突破非常关键的因素,研究界经过多年的研究后发现一种现象,当模型的规模大到一定程度后,一般来认为是在千亿规模(超过1000亿的参数规模)之后,模型的能力尤其是通用能力会快速涌现,小模型根本不具备这些能力,而大模型就会表现得比较明显,这非常重要。
但是从产业应用方面来讲,参数量变大,意味着应用的时候需要的算力成本就会提高。但是也要看你怎样去使用;如果使用大模型作为基础,自研专有模型,可能成本也不低,但是比完全自研成本低;如果使用大模型的研发厂商提供的现成平台,成本其实会降低,因为它不需要自己去研发模型。
Q3: 参数量达到了千亿级别,ChatGPT在聊天中可以反映人类的道德准则而且会主动承认错误,但也会“一本正经的胡说八道”,这是为什么?
张鹏: 其实基于早期的基座大模型去做内容的生成,也会出现“一本正经的胡说八道”,当ChatGPT出现后,会发现问题实际上已经减少很多,但没有彻底解决,“一本正经的胡说八道”的现象,学名叫:幻觉性。对于这种生成式的模型,这是通病。当然为什么会产生幻觉性?目前也还在研究,现在ChatGPT的表现已经非常好,比如说它的价值观、回答的逻辑性以及对于问题正反面,全面的平衡考量,是基于人类反馈的强化学习(RLHF)训练得到的更好的表达。
为什么会产生“幻觉性”?目前还没有定论,可能仅有技术上的猜测或者研究的初步成果。首先,可能在训练数据当中会有噪声。模型学习后并不能分辨出正确和错误或者哪些质量高、质量低。所以它也会留在模型中导致出现数据混淆的情况。第二,是模型本身存在一定的随机性,所以在生成内容时实际上解码策略带来随机性会使得它有一定比较小的概率生成不正确的东西。第三,可能是模型本身是统计学习的模型,虽然它用高维的统计,但也会导致模型会对训练数据中不存在的概念,进行强行捏造,从人类角度看起来就好像幻觉一样,但是模型从它的统计逻辑角度来看可能认为是正确的,所以导致模型进行错误方向上的外推或者泛化。
02
ChatGPT的流畅对话来自于
预训练模型
计算机之父及人工智能理论先驱艾伦·图灵在1950年就做过如下假设,在一台机器拥有无限的计算力与储存条件的情况下,“计算机是否能够思考”就并非一个技术层面的问题,而是一个哲学问题,而解决它的关键在于如何定义“思考”。
因此,他将“计算机是否能够思考”这个问题转换成了“计算机是否能够模仿人类,”并由此提出了如今被称为“图灵测试”的思维实验,他认为,如果人工智能能够成功模仿并骗过提问者,这证明计算机能够思考。
我们问ChatGPT,你是否通过了图灵测试,它自己回答:“我并没有通过图灵测试”。然而,很多人都更坚持认为,它已经通过了图灵测试,它回答问题的流畅度,已经让你经常忘记自己在和一个机器人交谈。ChatGPT为何更像人?
Q4:过去我们接触到的对话式AI,比如客服机器人,体验上有些相似,但是为何ChatGPT对话更像真人?
张鹏:关键点在于核心技术。过去客服机器人或者对话聊天机器人,可能基于上一代的人工智能技术,采用类似检索式的问答或者对话。ChatGPT正是由GPT-3.5架构的大型语言模型(LLM)所支持的,它背后的参数量超过千亿,通过大量的文本数据进行训练后形成模型,当给到模型一段话或者文字,甚至不用完整语句,它就可以去预测这段话后的下一个词或者字是什么,并能兼顾考虑到上下文的逻辑正确,这种技术使得回答的内容、与你的输入的风格、语调等等,一致性非常强。以类人的方式来继续对话或者问题的回答,相比以前传统的AI问答和客服更像真人。
Q5:有公司也在用人工智能技术攻克多语言翻译,技术本质和ChatGPT有什么不同?
张鹏: 翻译也会用到人工智能深度学习的技术,深度学习与预训练模型也有很深的关系。但以往的做法会针对翻译的任务,设计专门的模型来做翻译,我们看到的,可能是从一段英文,对应翻译出一段中文。但是ChatGPT使用的是通用模型,它可以根据上下文或者前文去预测后面的文字,这与人类日常交流当中的表述习惯非常类似,但是与翻译的体验感是不一样的。
ChatGPT 由于模型通用性非常强,可以把它拿来做特定任务的数据集进行调整。比如让它能够回答问题或者生成诗词这类创意性的内容。所以,背后的大模型的技术泛用性更强,生成的内容会更丰富,流畅度、逻辑性都比传统的针对特定任务(比如翻译)的模型效果更好。另外一方面,预训练模型GPT可以对问答或者对话过程中的内容实现快速的学习和纠正,所以它能体现出更好的智能程度。
03
大规模预训练技术仍处早期探索阶段
人工智能公司还需耐心打磨
当ChatGPT带来的新鲜劲儿过后,大家对它的“一本正经”的胡说八道提高了警惕,尤其是经常出现逻辑错误和做错数学题。谷歌的Bard被寄予了厚望,然而,Bard仅仅回答了一个问题,就已经被发现了常识性错误,发布当天,谷歌的市值也跌去了1000亿美元。Bard真的比ChatGPT差吗?模型之间的好坏,究竟由什么决定?
Q6:谷歌的Bard首秀“翻车”,是否意味着它比ChatGPT差?
个人认为谷歌这类公司的技术储备应该非常雄厚,我相信在这个领域,谷歌不是落后者,它拥有很多领先的技术,比如预训练模型,全球现在公认的最大的预训练模型PaLM就属于谷歌,它的效果是碾压许多其他模型的。但由于谷歌也会基于技术的安全性、伦理、道德风险等等问题,并没有把技术过早的推出或者更大范围地将产品试用扩散。这次火速上线Bard属于被竞争对手逼迫得有些紧张,所以可能有点仓促,应对的并不是太好。但并不能说明Bard一定比ChatGPT差。
Q7:我们看到Transformer模型出来之后,我国有些AI公司基于BERT模型在做后续的开发,这与GPT模型是否有优劣之分,或代际之分?
张鹏: Bert和GPT模型都是基于Transformer,Tranformer是一种预训练模型,它是谷歌提出的一种技术。但是Bert和ChatGPT在训练方式上有差别。总体可以简单理解为BERT这类模型更适合于去做文本的理解。ChatGPT模型更倾向于去做自然语言的生成。
大规模预训练技术也是最近几年才真正见到比较好的效果,对于它的商业化应用探索还处较早阶段,所以国内可能并没有能够像OpenAI这样做出现象级的应用。但国内的很多机构其实也在研究自主大模型,这是一条中国要走的创新之路。
另外我们需要承认,OpenAI背后的预训练模型技术本身有很大的优势,哪怕是自己用类似的技术,比如我们自研的GLM-130B这样的大模型技术作为底座,开发类似的应用,也可以做出来,但还是需要进一步优化,实现技术上的同步。
其次,ChatGPT的火爆背后,也是技术+产品+市场的综合因素的成功。它所开发的场景——聊天或者问答,受众的范围非常广,可以快速地扩展认知。
Q8:有专家认为ChatGPT,它的底层其实仍然是基于Transformer模型,技术创新很少。但是,我们看到市场上基于Transformer做的模型不止ChatGPT一个,但是只有ChatGPT表现如此出色,这是为什么?
张鹏: 可以这样理解,但也需要综合来看。首先需要界定什么叫创新?是技术创新,是底层原理创新,是工程创新,还是应用创新或者是纯粹的模式创新?可能每一种创新的特征本身是不同的。虽然预训练模型Transformer技术是谷歌提出的,谷歌也在应用与研究过程当中取得了很好的效果,但OpenAI在GPT-3后一系列的过程其实也没有太多独创或者是原创的成果,都是基于前人的研究探索更多的路径,将技术组合和解决工程难题,以及成本问题综合处理,找出一个很好的实现路径,最终出现ChatGPT,所以ChatGPT是集合底层技术的工程、模式以及产品等创新的成功应用。
04
ChatGPT迭代了搜索引擎的体验,
有些行业将迎来全新挑战
Gmail的创始人Paul Buchheit2月2日在推特上表示,ChatGPT将像搜索引擎杀死黄页一样摧毁谷歌。随后不久,Paul Buchheit又发推,继续补充“谷歌可能只需要一两年时间就会被彻底颠覆。AI将会消灭搜索引擎的结果页面,即使后者跟上了人工智能的发展,也将导致其业务中最能赚钱的部分大不如前!” 在哪个行业最先被ChatGPT颠覆的讨论中,搜索引擎首当其冲。
Q9: 搜索引擎会被颠覆吗?
张鹏: 首先我们可以从搜索引擎的本质和ChatGPT的本质来进行区分。搜索引擎的核心使命是用户去获取所需的信息,它的工作方式是被动方式,用户必须先将自己需要查询的内容输入搜索引擎,从而返回相关的信息,过去将近20年,搜索引擎技术的发展目标主要是提高用户查询和反馈结果之间的相关性。对于简单的查询,搜索引擎可以处理的非常好。但稍微复杂的语义或者说包含逻辑的查询,搜索引擎是做不太好的。
而ChatGPT解决的不是被搜索的信息与用户查询之间相似度的问题,而是一种从自然语言角度来看,怎么来解决上下文的一致性、流畅性和逻辑性的问题,是以另外一种视角来看待信息获取。所以它是一种全新的交互方式,更便捷、更友好,能够帮助用户直接解决问题,比如以写问题的方式去做文章总结、写文档、编程等等,相当于在搜索引擎的基础上又前进了一步。根据统计数字,2023年1月份ChatGPT全球访问量已经达到六亿多次,一个月内就达到了一亿用户,这对于传统搜索引擎来讲是巨大的挑战。
这种用户访问量和用户增长速度已经超过了以往的技术革新的发展速度。确实是有可能会影响到搜索引擎的历史地位,但需要多久的时间?还需要等待ChatGPT的迭代速度以及能否解决它自身的缺陷,比如幻觉性的问题。
Q10:Model as a Service(MaaS)未来是否会替代SaaS?
张鹏: MaaS其实是一种全新的技术和市场理念,是基于当前AI大模型技术发展到一定水平之后一种新的技术应用形式。MaaS的目标其实是将模型的各项能力进行简单通用的封装,以提供API接口的方式向用户提供AI赋能的能力。一般来说用户需要在MasS的基础上做二次开发和系统功能集成。但一般情况下SaaS是指,在线上通过云服务的方式向用户提供业务和功能性比较强的软件服务,所以重点是在于软件功能和用户业务的满足性。一般户可以直接使用,不需要做开发和集成。从本质上来说MaaS和SaaS处于信息服务生态的不同层次,理论上来看MaaS的出现是对SaaS服务的有益补充,可以让SAAS服务的开发成本和周期降低,同时智能水平更高。
Q11: 从产业上看中国数据标注能力很强,但数据质量上存在差距,差距在哪?
张鹏: 我觉得数据质量可能不是最关键的问题。我相信中国市场的数据体量足够大,数据质量也没有想象中那么严重。只要愿意付出相应的成本,数据质量也不是不能解决的问题。反而像数据归属、数据安全、数据隐私等是重点问题。尤其是数据归属和安全问题,有很多实际案例。AIGC绘画前段时间被热捧,但是AI生成的绘画,其实使用了很多人类画家、画师创作的图片进行训练,但在版权上没有进行确认。所以在利用数据资源的过程当中,除了数据的标注加工,在这个过程其实大众应该把注意力放在数据服务方面。包括数据归属安全的问题。如何在法律、道德等层面对事情进行明确的划分和管理。比如不得不使用未经授权的非公开的数据;还比如对于大量的社区或者志愿者提供数据可能需要有一定的信用体系去保证。
Q12: 我国的AI企业,未来最靠谱的演进路线应该是怎样?
张鹏:人工智能发展的三大要素:算法、数据和算力。但其实并不意味着每个企业都要投入巨大的算力成本去做模型的训练和部署。其实 “大”模型,这个“大”,其实就是希望能集中使用算力。大企业有能力投入算力资源,构建出模型,并做出AI平台。中小企业其实可以对平台按照用量付费,算力投入成本及研发投入时间都会大大减少。这其实可以被称为AI发电厂的一种模式。另外,AI大模型本身的压缩和优化也是重要的研究方向。随着芯片技术、大模型技术的不断发展,成本会不断降低,效率会不断提高。
至于演进路线,首先需要承认我们落后于人,要向最先进的方向去追赶。其实不用太纠结于某些地方被限制,这都是大家都知道的事情,总会有解决办法。中国不缺人才,不断地努力,肯定有追上的机会。别人已经做出了现成的东西,我们可以去学习,但是在这个过程当中不能完全照搬他人经验,别人也未必会把经验全部告诉你,所以这个过程当中还需要赋予自己的思考、想法与创新。