我们正处于一个堪与人类生命崛起相提并论的变革边缘——弗诺·文奇
这两天看到吴军老师的直播转录文章知名计算机专家吴军:ChatGPT不算新技术革命,带不来什么新机会。感觉有不少地方值得商榷。有朋友也问到我的观点,遂写一些作为回应。
我是一个吴军迷,几乎每一本书都买来细读过。《浪潮之巅》、《数学之美》、《硅谷之谜》、《信息传》、《计算之魂》都堪称经典。几年前我还分享过一个朋友圈:“吴军的之字系列,集齐了"。
虽未当面拜师,但通过吴军老师的文字,我初识互联网,硅谷开放创新的科技精神让我心驰神往。后来机缘巧合进入自然语言处理和机器翻译领域,都得感谢吴军老师宝贵指引,说有“师恩"也不为过。
我仔细读了两遍直播转录文字,感觉吴军老师还是一如既往的冷静风格,担心媒体像区块链和元宇宙过度炒作ChatGPT。不过说到对语言模型的解读、ChatGPT的应用、对我们的影响。我很不赞同,斗胆说说我的观点。
1、语言模型是一个1972年就出现的“老古董”,“用来衡量一句话或者一个语言现象有多可能产生"。
事实上千亿级参数的大语言模型和IBM时代的小语言模型已经不可同日而语。
一方面,大语言模型几乎穷尽了互联网多语开放文本,这本质上是对语言所“理解”的世界的一个高分辨率建模。维特根斯坦说过:“语言的边界就是思想的边界”。大语言模型已经学到了人类语言所承载的代代相传的知识,以至于我们现在还不能解释其中的“涌现”现象。微软长达157页的GPT4评测论文也表明,大语言模型具备了一定程度的智能。
另一方面,GPT“预测下一个词”这样的理解深度和扩展空间,堪称机器学习的“第一性原理",让机器学习解决了无监督学习的问题,无限逼近世界原貌,这和IBM时代的N-gramm有云泥之别。转述OpenAI首席科学家Illya Sutskever的原话:
当我们训练大型神经网络以准确预测互联网上大量文本的下一个词时,我们在做的其实是在学习一个世界模型。从表面看,神经网络只是在学习文本中的统计相关性,但实际上,学习统计相关性就能把知识压缩得很好,神经网络所学习的是,它在生成文本过程中的一些表述。文本只是这个世界的一个映射,所以神经网络学习的是这个世界的多个方面的知识。
这就是它在准确预测下一个词的任务中所学习到的,对下一个词的预测越准,还原度越高,你看到的文本的准确度就越高。这就是ChatGPT模型在预训练阶段所做的,它尽可能多地从世界的映射(也就是文本)中学习关于世界的知识。
强化学习教父Richard Sutton,在总结过去70年人工智能研究领域的“苦涩教训”中写到:“最重要的一堂课,是只有通用计算方法(蛮力计算 )最终是最有效的,而且优势很大——因为摩尔定律,每单位计算成本持续呈指数下降。" 事实上,从IBM深蓝战胜国际象棋冠军卡斯帕罗夫,到DeepMind的AlphaGo战胜人类围棋冠军李世石,从语音识别、计算机视觉、机器翻译的突飞猛进,到如今的大语言模型,都是“大力出奇迹“的结果。
2、ChatGPT有什么用处?吴军老师认为ChatGPT擅长整合信息,回答一些问题,但没有什么神秘的。擅长写作,也其实是一些"靠蛮力计算"的排列组合。
我的想法是:知识问答和写作只是ChatGPT目前最原始的几个应用方式。实际上,ChatGPT,特别是GPT4在众多任务上的能力已经超过此前的自然语言处理专业模型。另外,在微软研究院关于GPT4的早期实验论文中,结论是:GPT-4在抽象、理解、视觉、编程、数学、医学、法律、对人类动机和情感的理解等多种领域和任务上的表现达到或超过了人类水平。这就相当于一个具备吴军老师所说“通识教育"的大学生,在进行微调和专业领域学习之后,潜力极大。此外,重磅级ChatGPT Plugins的发布,更是大大打开了应用空间。
另外,除了自己的使用体验,真实的市场反馈是ChatGPT“有用”的证据,ChatGPT仅用了3个月就突破1亿用户,一方面用户量急速增加,另外一方面,从周围朋友的使用ChatGPT的时长看,几乎都高频而持续,显然不同于VR头盔那种“概念产品”——买回来用用,然后放置一边落灰。如何衡量一个产品有没有用,或者有多大影响力?我认为除了NPS(净推荐值)这样的指标,用总用户量乘以用户平均使用时长,也是一个比较简单但相对客观的标准。
3、ChatGPT对我们有什么影响?吴军老师的回答是:“ChatGPT它某种程度上有点像鹦鹉学舌,你先要说一段话,它才能跟着学。它说出来的声音可能很好听,但是它并不提供更多的信息。"
关于“不提供更多信息”,我的观点是:日光之下,并无新事。我们所谓的“创新”,有多大程度上,其实是一种沿袭(知识学习)和重组(内容生成)?从微观的维度,我们过去和未来的创新,很大程度上是对世界早已有素材的一种组合。那么,一种对人类群体智慧——大语言模型的知识的抽取和组合,会产生创新也是自然而然的事。何况,加上人类的“画龙点睛”,价值迅速放大,大大提升了效率,为探索人类知识奥秘提供了太多可能。
ChatGPT确实算不上新技术革命,如果从“技术创新”角度来说,OpenAI的论文信息量,或者算法层面创新,连图灵奖得主杨立昆也看不过去。让人忍不住想起“人工智能之父"明斯基对连接主义和神经网络的忽视。
不过,如果把ChatGPT看作一个产品,才更容易理解它的革命性,以及评估它对世界的影响。
产品层面,我认为ChatGPT的革命性在于两方面:
一方面,大语言模型意味着人类群体的智慧。GPT为代表的大语言模型,作为AI的集大成者,学习了几乎整个人类以语言为载体的知识,在多达45T的人类文本知识里面,藏着人类的群体智慧,以及世界的镜像。
就像前面提到的,如果大语言模型获得了所有语言的信息,那就意味着获得了人类主要的知识——至少是语言能承载的知识。
另外,革命在交互方面。如此庞大之物,实现了以一种“大道至简”的方式——通过自然语言和人类互动。你只需要Prompt,就像面对一个人一样,ChatGPT就能理解,并对之进行“微调”,输出你期望的结果。
从前的自然语言处理范式,针对单独的场景需要单独开发独立的模型,比如对话、比如翻译,费时费力。到后来基于统一的大模型,在此基础上进行微调。基于Bert路线的Finetuning模式,虽然已经降低了模型训练门槛,但依然依赖算法工程师和标注数据。而GPT路线的Prompt路线,则通过自然语言的对话模式,做到“所说即所得”,用自然语言“微调”模型,来适应不同的场景和任务。
总之,通过Chatbot的模式,用自然语言和人类互动,甚至微调。这不亚于鼠标发明和Iphone触控模式的出现。
关于对人类的影响,我也想说三点:
1、把大模型等同于AIGC,就相当于发明电灯之后,把电力的应用局限在照明行业一样。实际上,那只是电力革命的起点,那时候的人们,还无法想象电冰箱、洗衣机、吹风机、电脑的世界。同样,浏览器出现之后,浏览器大战开启,直到后来却发现浏览器并没有那么重要,更大的机会是google、微软、Meta、Amazon这样的业务和形态……贫穷一次又一次限制了我们的想象力。
2、革命从0-1开始,但从1-10引爆。从历史上看,技术从无到有的影响力(这也是技术背景的人容易忽略的事实),远远比不上技术从奢侈品到平民化的商业化影响力。比如古登堡革命让书籍变得人人可拥有,出现了知识的平权,引发了文艺复兴。大型计算机每年就卖出几台,但微软和苹果让计算机成为人人桌上和手上都有的小型计算机。特斯拉不是电动汽车的发明者,却是让电动车从小众走向大众的革命者。从这个角度,ChatGPT引发的影响称得上知识革命——一场人类知识的平权,让所有的人在知识层面变得平等,就像人类历史上经历的农业革命、工业革命、电力革命一样,影响深远。
3、奇点临近。GPT4是否已经通过图灵测试?或者是否称得上AGI(通用人工智能)?开始有争议。虽然前一阵有生命未来研究所和马斯克的联名信,但连争议都似乎没有持续太久。人工智能安全,我认为是目前共识度最低的关键事项。
作为一个AI的“保守派”,我研究了一些呼吁关注AI安全的KOL的观点。主要有这些:
“机器智能将是人类需要做出的最后一项重要发明。——尼克·博斯特罗姆
“人工智能远比核武器要危险……是未来人类最大的威胁。它的能力远超所有人的认知,并且以指数级的速度进化……人类需要建立一个组织对人工智能进行监管。”——马斯克
“人工智能可能自行启动,以不断加快的速度重新设计自己。而人类局限于缓慢的生物进化过程,根本无法竞争,最终将被超越……彻底开发人工智能可能导致人类灭亡。”——霍金
“我认为任何一种对人类心灵的冲击都比不过一个发明家亲眼见证人造大脑变为现实。” ——尼古拉·特斯拉
ChatGPT无疑是一个历史时刻。在“盲人摸象”的初期,我们有限的认知恐怕只有两个选择——要么高估它,要么低估它。
如果我们高估了ChatGPT和可能到来的强人工智能,我们只是浪费了一些注意力。
而如果我们低估了它,等待我们的,或许是一场灾难。