每经特约评论员 盘和林
2022年11月,OpenAI发布了ChatGPT,继而在短短2个月时间就获得了上亿用户。ChatGPT背后是2021年OpenAI发布的GPT3.0技术,由于在GPT3.0技术上作了一些优化,所以ChatGPT又被认为是GPT3.5版本,而在今年3月14日,OpenAI又发布了GPT4.0,并将其作为plus订阅服务发布,新版本再次掀起热潮,订阅支付通道一度拥堵瘫痪。
ChatGPT一次又一次掀起热潮,是因为它突破了人工智能应用的一些瓶颈,未来以生成式AI为代表的人工智能产业将进入全面爆发阶段。面对科技的新一轮爆发,中国企业作好准备了吗?
数据来源: OpenAI官网,World of Engineering,中泰证券研究所
GPT带来了什么?
ChatGPT是生成式AI,其通过机器学习来训练AI,用上一个字生成下一个字,再用下一个字生成下下个字。首先,ChatGPT采用非监督式学习,用海量语料来教会AI说话方式。随后,ChatGPT用监督式学习来辅助矫正语言规范,通过标注语料进行机器训练,让ChatGPT知道面对某个问题应该如何生成回答。最后,当ChatGPT能够回答问题,逐字生成答案的时候,再用强化学习来给ChatGPT的回答打分。简单说,通过填鸭式的非监督学习,ChatGPT学会了说句子,通过范例的、预标注的预料进行监督式学习,ChatGPT学会了回答问题,再通过强化学习来了解人类的“回答偏好”,多给高评分的答案。
为什么ChatGPT需求爆发,而其他AI没有。总结看,ChatGPT有几个独到之处:
其一,ChatGPT是大模型。监督式、非监督式、强化学习的原理,在AI产业里早已是常识性的技术认知。但自然语言处理这个领域太过复杂,因为人类说话非常随机,所以之前AI企业将机器学习用在很多领域,语音识别、机器视觉、图像识别(人脸、医学影像)、蛋白质特征预测、文本识别等,但很少将机器学习用在自然语言处理上。念头往往一闪而过,但付诸实施的往往是少数,而OpenAI耐着性子坚持了下来。
其二,ChatGPT是机器学习,不是数据库。长期以来,AI领域人士认为机器学习不适合自然语言处理,所以一直以来,自然语言处理采用逻辑推理的AI实现方式。建立一个语料数据库,在语料数据之间建立关联性,比如知识图谱,再通过逻辑搜索的方式,从数据库中找到对应答案。但ChatGPT并没有数据库,ChatGPT采用机器学习,是一种AI能力集成,而不是一个数据库集成。也正因为ChatGPT的这个属性,它并不局限在文本对答方面,而是能够进入任何领域,比如和搜索结合、和办公软件结合。当前尤其善于处理文本,比如编程和学术教育领域,ChatGPT的功能几乎是通用的。ChatGPT具备完善的表达能力,且通过对不同领域内容的学习,ChatGPT最终会变得无所不能。而这些在数据库和逻辑搜索下是无法实现的。
其三,ChatGPT有强大的上下文语义理解能力。用户可以让ChatGPT扮演角色,ChatGPT可以在用户引导下故意给出“符合用户要求”的错误答案。用户在提问的时候,ChatGPT也会引导用户补充问题信息,并最终给出符合逻辑的答案。过去我们遇到的AI聊天软件有两种:一种是基于数据库的,必须按照数据库给定的提问方式;另一种是基于机器学习,但只是一问一答。结合上下文语义理解的ChatGPT能够更好地找到用户的需求点,给出适合用户需求的答案。
综上,ChatGPT的强大在于,其本身是一种机器能力,而不是数据库,ChatGPT自身的语义理解能力、语言组织能力、搜索能力才是其本质,这也使得ChatGPT可以套用在任何领域。而对于人类来说,ChatGPT是提升人类认知水平的一个重要工具。
人类之所以区别于其他动物,关键点在于人类的知识是可以传承的,这使得人类通过知识传承积累来实现发展。到工业革命前期,古登堡印刷机成为科技进步的催化剂,除了代代相传的知识积累,人类拥有了新的知识积累工具,打破认知局限性,所谓“好记性不如烂笔头”,有了纸张就可以将知识记录下来,从而加快积累速度。再后来,信息时代出现互联网,纸张逐渐被数据存储器取代,信息时代是“数据要素”驱动的时代,数据里包含信息和知识,海量信息和知识存储在互联网上,人类通过搜索便捷获取,知识的堆积再一次提升人类认知水平。
那么ChatGPT呢?互联网持续繁荣,人类面临的难题已经不再是信息、知识获取,与此相反,人类现在处在信息过载、莫衷一是的状态。所以互联网时代,最为重要的一种能力是“搜索力”,是如何通过算法和搜索在浩如烟海的互联网信息中找到答案的问题。ChatGPT提升了人类的搜索力。当ChatGPT嫁接到搜索引擎之后,它就能从海量信息中迅速找到你要的信息。比如你是程序员,ChatGPT可以以自身能力组织出一段代码,也许这段代码的很多段落零散分布在各类网站上,ChatGPT减少了你浏览各类网站找代码范例的时间。同样的情况,也可以发生在PPT制作、论文书写、考试答题上。
当然ChatGPT并不局限于搜索力,它不仅能找到知识点,还能通过自己的语言能力表达出来。比如和办公软件结合,你有一组数据,想做一个PPT,有了ChatGPT,就可以直接生成若干方案。
综上,ChatGPT对于人类是一种能力加持,一种能够大幅度提高人类生产力的工具性能力。
当前面临两个难题
如果ChatGPT是一种生产力提升工具,那么拒绝生产力工具是不明智的,中国需要生产力工具。人类社会的每一次科技进步,最终结果都是人类去适应科技。在工业时代,少部分国家采用闭关锁国的方式来对抗科技进步,但都以失败告终。所以对于中国,ChatGPT是需要的。但围绕ChatGPT,依然存在几个问题:
问题一:自力更生等待国产ChatGPT,还是引进ChatGPT?
现阶段直接引进ChatGPT存在制度上的障碍,因为ChatGPT是生成式AI,它背后不是数据库,它会随机生成答案,而有些随机生成内容是违规的,比如被别有用心的用户引导给出了“恐怖主义”言论。当然,ChatGPT也是可以调教的,前面说过,生成式AI可以通过范例的预标注词条进行监督式学习,也可以通过评分来规范回答,但ChatGPT的母公司OpenAI毕竟是美国公司,美国和中国存在很大的文化差异,这些文化差异会让ChatGPT在中国出现水土不服甚至犯法。
但反过来说,国内如今缺少ChatGPT的对标产品。比如百度文心一言,在中文内容应答方面和ChatGPT不相上下,但如果你将场景切换到编程代码,两者就有很大差距。换句话说,对生产力支持方面,百度文心一言有欠缺。故而,如果你不让ChatGPT进来,那么就没办法短期内提高生产力。而你要ChatGPT进来,则需要适配规则,以提高对生成式AI内容的包容性。
进一步可以演化为两个选项:一个选项是通过特别规则来引进ChatGPT,人工智能不具备主观恶意,回答是“有口无心”,可以给予适度包容,让ChatGPT和国内各个领域迅速结合,提升生产力水平。当然,也要对教育等领域进行改革,以适应ChatGPT带来的改变。另一个选项是先拒绝ChatGPT,等待未来国产ChatGPT的平替产品。OpenAI成立至今不到10年,却已有如此成就,ChatGPT的形成原理并不深奥,关键还是要大量资金、人才、时间去烧出一个技术未来,需要排除万难持续投入,通过“你追我赶”,预期未来5年内必然出现类ChatGPT的国产平替产品。
问题二:中国科技企业在研发类ChatGPT过程中的瓶颈在哪里?
在生成式AI领域,中国科技企业缺两样东西:一个是心,是耐心和信心;另一个是芯,是算力芯片。
为什么说缺耐心和信心?
耐心方面,不只是中国企业缺,实际上在OpenAI推出ChatGPT之前,美国硅谷科技巨头也缺耐心,比如一直标榜人工智能领头羊的谷歌仓促应战,结果产品体验并不能达到用户预期,结果谷歌股价暴跌。最近几十年,机器学习是人工智能领域的显学,尤其是深度学习等算法,但之前大多数科技企业都因为生成式AI投入周期长,成本高而忽视了这条路线。企业的本质是盈利组织,会考虑成本效益问题。而OpenAI比较特殊,他之前是非盈利性组织,后来微软入主,转变为有限盈利组织,微软只负责给钱,不干预研发,OpenAI从从容容地在几年内烧掉超过40亿美元的资金,未来还要烧掉百亿美元资金进行优化。
OpenAI在一个细分领域投入如此集中,周期如此之长,且在之前并没有体现出应用价值,而ChatGPT的能力一旦表现出来,尤其是其对接更多应用的接口能力。便出现“十年寒窗无人闻,一朝成名天下知”的状况。当前聚拢到生成式AI的科技公司,无一例外都需要再走一遍OpenAI走过的路,所以耐心是必需的。比过去更好的地方在于,我们已经看到生成式AI的前景,当前这个领域不乏资本支持。
耐心之外,还有信心。导致中国科技企业信心不足的原因如下:
其一,很多AI领域的从业者认为:当前中文互联网存在高质量语料不足的问题。这个问题的成因很复杂,换个角度看,中国需要在高质量语料数据上投入更大成本。
其二,很多AI领域的从业者担心合规性问题。和ChatGPT引进的问题类似,谁都担心自己辛苦开发的成果不能应用。但这里并非无“技”可施。监督学习和强化学习本身会规范生成式AI的生成,法规只需要对少数情况给予适度包容即可。比如,对用户恶意引导AI“非法回答”的情况,要明确是用户的责任。
其三,很多AI领域的从业者担心算力受制于人。之前英特尔就A100显卡曾有过对华禁售,而ChatGPT成功的背后是微软为其部署的超过3万张的A100显卡,智算中心算力需求和数据中心并不相同,其核心主要还是在GPU芯片上,我国在高端芯片上的瓶颈会限制中国生成式AI的发展。
综上,中国“类ChatGPT”产品需要算力、数据上的支持,也需要制度、法规上的支持,面对科技革命,我们依然要落地到软环境和硬环境两方面,软环境就是合规性和产权规则,只有明确制度规范才能让企业有信心加大投入。硬环境就是硬件设施,就是算力和数据上的支持。
生成式AI的时代已经到来,AI从玩具转变为工具。由于ChatGPT经历过用户使用验证,所以生成式AI必然不是一阵风的热点概念,而是长期的、重要的科技高地,其产生意义可能类似于互联网,是改变人类生产力水平的关键应用。面对如此大的科技变革,中国需要抓紧转向去适应科技的变化,将科技转化为生产力,为我所用。与此同时,我们也要不忘初心,牢牢抓住“自力更生”这一点,提升我国在这一领域的技术自主能力。我们需要对生成式AI发展保持耐心,因为这是一个长周期的投入过程,生成式AI不能一蹴而就,当前要做的,是优化好环境生态,一步一个脚印,推动生成式AI产业发展。
(作者系浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员,工信部信息通信经济专家委员会委员)
每日经济新闻