从来就没有横空出世的爆品,只有一种看不见的强大势能日积月累。
开篇劝退的几句话:这是一篇写了一半,搁置了一个多月的文章;而且主要还是各路观点的直接引用;比较长,差不多一万字,只有一张图。
不过,还是有朋友说想看,我也觉得之前收集的这些从业者观点挺棒的,值得分享。另外,还有几个小亮点:
1、NLP前辈李维老师对LLM(大语言模型)的看法,是我邀请他写的,可算独家~
2、简单汇总这个list:国内目前各种渠道宣布即将加入LLM竞赛的团队:百度(文心一言)、腾讯(混元)、阿里、华为(Mindspore)、鹏城盘古、京东(Chat JD)、讯飞、商汤、出门问问(4月20日发布)、王慧文(光年之外,据传已收购一流科技)、李开复博士创新工场主导的 Project AI 2.0……
3、狗尾续貂写了一点感想,在文末。
接上篇——《ChatGPT全景图 | 竞争格局篇(上)》,上篇的几个问题是:ChatGPT“横空出世”背后的势能何在?大型语言模型在全球的竞争格局如何?
下篇主要的问题是:ChatGPT显示出的中美NLP差距?国内谁最有可能复刻ChatGPT?对中文版LLM的一些想象?
五、部分LLM相关从业者观点
问题1:ChatGPT所显示出的中外差距在哪里?
By 科技博主 Louis Bouchard
就全球大语言模型学术论文来说:
第一档:Google 8篇,Meta 6篇雄踞前二名,OpenAI 3篇但有两篇影响力巨大的(DALL·E 2和ChatGPT),如果按代表作评价,可能不输Google和Meta。
第二档:NVIDIA有2.5篇。
第三档:国内腾讯、百度、微软(出自亚研院)各1篇。国外有三星、迪士尼各1篇。Snap、Adobe都是0.5篇。
注:未包含GPT4发布后的相关论文。
By 符尧 (爱丁堡大学)
在国际学术界看来,ChatGPT / GPT-3.5 是一种划时代的产物,它与之前常见的语言模型 (Bert/ Bert/ T5) 的区别,几乎是导弹与弓箭的区别,一定要引起最高程度的重视。
在我跟国际同行的交流中,国际上的主流学术机构 (如斯坦福大学,伯克利加州大学) 和主流业界研究院(如谷歌大脑,微软研究院)都已经全面拥抱大模型。
在当前这个阶段,国内的技术水准,学术视野,治学理念和国际前沿的差距似乎并没有减少,反而正在扩大,如果现状持续下去,极有可能出现技术断代……此诚危急存亡之秋。
By 郑楚杰(清华大学)
国内没有 GPT-3.5 这种级别的基础模型;
缺少真实用户数据(指用于生产力而非娱乐):在当下的监管环境中,不可控的生成模型难以上线并获取真实用户的数据。但约束过多反会限制创造能力,这是个负循环。更不用说还有恶意调用和举报。
缺少技术积累,包括但不限于:数据处理和清洗、数据标注体系、训练和推理加速(部署上线所必需)。想做到 GPT-3.5 这种级别,需要在数据、模型层面做长期持续的打磨。但这种需要久功夫、苦功夫、硬功夫的事情。
缺少开创性创新的土壤,开创性创新需要对失败有极高的包容度,国内的氛围比较追求短期利益。
By 张俊林 (新浪微博)
GPT4的发布,预示着LLM最前沿研究的封闭化或小圈子化。技术报告里说了,出于竞争以及安全等方面的考虑,未公布模型规模等技术细节。从GPT 2.0的开源,到GPT 3.0的只有论文,再到ChatGPT连论文也没有,直到GPT 4.0的技术报告更像效果评测报告。一个很明显的趋势是,OpenAI做实了CloseAI的名号,之后OpenAI的LLM最前沿研究不会再放出论文。
在这个情形下,其它技术相对领先的公司有两种选择。一种是做更极致的LLM开源化,比如Meta貌似选择了这条道路,这一般是竞争处于劣势的公司作出的合理选择,但是往往相关技术不会是最前沿的技术;另外一种选择是跟进OpenAI,也选择技术封闭化。Google之前算是LLM的第二梯队,但在“微软+OpenAI”的一顿组合拳下,现在局面有点狼狈不堪。GPT 4.0去年8月就做好了,估计现在GPT 5.0正在炼丹过程中,这么长的时间窗口,结果Google都能落到目前这个局面,想想Transformer、CoT等非常关键的一些研究都是自己做出来的,竟沦落至此,不知一众高层作何感想。Google在后面能快速跟进,维持在第二梯队应该问题不大,很可能比第三名技术也领先很多。出于竞争关系考虑,我猜Google大概率会跟进OpenAI走技术封闭的路线,最先进的LLM技术优先用来炼属于自己的丹,而不是写成论文放出来普惠大众尤其是普惠OpenAI。而这很可能导致LLM最前沿研究的封闭化。
从现在算起,国内在经过一阵时间后(要做到ChatGPT的6到7折应该比较快,要追平估计要较长时间),必然被迫进入自主创新的局面。从最近三个月国内的各种情况看,将来会如何?大概率不太乐观。当然,这个关肯定很难,但必须得过,只能祝愿有能力且有初心者尽力加油了。
问题2:国内同类LLM(大语言模型)何在?谁可以复刻ChatGPT?
By 黄文灏(北京智源研究院)
国外OpenAI(Microsoft),Google(DeepMind),Meta这几家现在训练了不错的LLM了,当然这几个LLM水平有一些差距。我觉得国外会有个有趣的现象是更多的小公司会训练自己的LLM,可能会有三部分startup。第一部分是transformer四小龙(inflection,adept,cohere,anthropic)之类的强技术初创公司,说白了训练LLM就是需要大量的资金(GPU卡)和少量极优秀的人。这些公司都融到了大量的钱,而人都是从openai,google出来的技术大佬,有过训练大模型的经验,基本足够了。
第二部分是原来依赖OpenAI API的那些公司,这其中也有一些像Jasper.AI这样融资不错的公司,据说ChatGPT刚发布,Jasper的CEO就和Sam Altman打了几个小时电话,想了解OpenAI未来的计划,OpenAI做一个类似的产品对Jasper来说就是绝对的毁灭性打击。虽然Sam尽力安抚,但Jasper也宣布了未来会开始研究LLM,减少对OpenAI的技术依赖。
第三部分是像stability ai这样的主打开源的公司,虽然Hugging face探索开源方式训练LLM(Bloom)并不是很成功,但也趟了不少坑,stability也开始推了类似ChatGPT的项目。未来,在LLM方面,能否做到Stable Diffusion对MidJourney那样的知名度快速超越,能力逐渐接近,还挺有趣的。
国内如果要建设一个有很强能力的LLM(水平接近ChatGPT)其实很难。人、数据、投入、经验、耐心太多的问题了。前面提到的两个最重要的问题大量的资金(卡)和少量极优秀的人,国内更重要的一点是要有耐心。花9个月建立大模型训练pipeline,还有前几年花大量资金积攒下来的大模型训练经验不是我们一朝一夕就能复刻的。
By 袁进辉(一流科技)
1、如果说的是像OpenAI ChatGPT 这样实现从0到1的突破,那很不幸,国内还看不到希望,我在另一个问题里讨论过,最核心的还是人和环境两个因素,一方面没有那样的人,另一方面没有那样的环境。需要有远见且为理想而持之以恒的人,并且有能合理对接人才和社会资源的机制。
2、如果说的是当已经有人做出了从0到1的突破,复制和重现一个大模型,那么国内是可以的。不过要复现ChatGPT也是很难得,下面就针对这种理解来讨论,国内有哪些机构有能力搞出一个和ChatGPT 匹敌得模型。
首先,我认为,ChatGPT是国内不能错过的技术突破,必须想尽各种办法追上乃至超越,否则,后果不堪设想。
ChatGPT对已有工作范式的颠覆就像是当年深度学习对传统机器学习的颠覆。假设2012年,ImageNet和 AlexNet突破后,主要的论文和代码没有公开,只有少数机构掌握了深度学习这项技术,并不断在各个领域攻城略地,而绝大多数研究机构仍在使用2012年之前旧时代的技术(譬如支持向量机,Adaboost,topic model 等等)。今天的人们回顾历史就像开启了上帝视角,请思考一下,只能使用旧时代的技术的机构有没有可能实现 2012 年之后深度学习方法取得的一系列突破?如果能,需要多长时间?
然后,我们看看复现一个ChatGPT 主要需要哪些资源的支持。其实主要是数据,算力,算法,大模型的工程支持。其中的算法基本上是公开的,窗户纸已经捅破了,最主要的障碍清除了,当然“炼丹”还包含很多know how,需要反复的摸索(从而需要充分的算力来试错)。大模型的工程支持主要是扎实的分布式系统能力,所幸有很多开源系统,Megatron-LM, DeepSpeed,以及我们做的OneFlow LiBai等,这也是都是可以公开获得的。剩下的是算力和数据两个要素,我认为数据是更为重要的,算力的确需要很多钱,但毕竟是花钱就可以买到的(或者自建,或者公有云租赁),但是数据交易的机制不健全,而且真正高质量的数据不是花钱就能买到的(或者依靠自身核心业务积累数据,或者通过建设爬虫团队抓取)。
综合以上因素来看,几大互联网巨头是最有条件来复现ChatGPT的,他们已经集齐了七颗龙珠,唯一缺乏的是老大的决心和魄力。其次,融到比较多钱的创业公司也有一定的可能,不过可能性很小,因为综合来说需要的资金太大了,而这一两年创业公司(包括上市或未上市的独角兽)的资金非常短缺。政府投资支持的科研机构,不过这些科研机构普遍缺乏数据,算力资源相对于互联网巨头也不占优势,要看能不能得到更大体量的资金支持。
当然,和OpenAI一样,商业公司训练的模型首先服务自己商业目标,不会把最好的模型免费给别人用(当然,除了天价的训练成本,模型推理调用也需要耗算力),能通过API方式开放出来让第三方使用就已经很不错了,不太可能像过去的深度学习模型一样都开源出来,乃至像stable diffusion那样开源出来。
但是,我觉得从技术发展角度来说,行业需要一个完全开源(不仅仅是权重,还要包括数据和代码)的ChatGPT,这样才能让全世界的智慧形成合力来推动技术更进一步,否则全世界就只有几百个人在ChatGPT基础上向前推进。颠覆式的科技突破具有偶然性,概率很小,必须形成足够大的基数,才能让这样的突破形成必然,就像在过去10年间在深度学习技术身上所发生的那样。
所以,我想,除了互联网巨头,国内有没有一种另外的途径实现一个完全开源的、领先的ChatGPT。反复琢磨后,我觉得如果存在这样的途径,那一定是通过开源共建的方式来实现:有的机构贡献了开放的数据集,有的机构贡献了算法和工程的实现,有的机构贡献了研究和开发所需的算力,最后形成的成果以商业友好的许可证完全开源,所有参与方都可以使用这项成果(当然没有参与也可以,就像所有开源项目一样,肯定避免不了搭便车的行为)。
问题3:GPT大语言模型能力“涌现”的秘密何在?中文版大语言模型如何做?
By 李维(Trend)
对于 chatGPT 这样的语言大模型(LLM:Large Language Model)中的超能力“涌现”,很多人觉得是个谜。我认为应该归结为下列三个条件:
1. 学习对象必需有足够的可学的内容:自然语言正好满足这个条件。
以前我们做NLP的学习任务,一律是单一的,分类也好,抽取信息也好。单一的目标相对有限,数据量的无限增长不可能带来无限可学的标的,学到一定时候就趋于停滞,增长呈现平S曲线。
可是LLM改变了这一切。LLM没有特定的任务目标,学习对象本身的知识承载力才是理论上的天花板。这个天花板简直就是星辰大海,无边无沿:人类文明诞生以来的一切知识的承载,尽在语言中。于是,增长曲线呈现多S的阶梯形(下图),S与S之间貌似出现了颠覆式“涌现”现象,这是对感受到的超能力“涌现”的一种解释。
LLM 到了 GPT3 的规模,也不过就是划过了知识的冰山一角(毛估估也就 20%左右)。所学到的百分之二十的知识,从chatGPT的表现看,里面目前涉及几乎全部的语言知识,外加漂在人类认知上面的基本常识、百科知识、部分逻辑推理知识等。也就是说,从通用智能(AGI)的视角,自然语言本身作为知识/能力的源头和对象,还有很多可以学、但还没学完的内容。仰望星空,一眼看不到天花板。
2. 学习表示必须有足够的容量:单单对象本身有各种层次可学习的内容还不行,学到了必须有足够的空间放得下才行。这个条件也在不断满足中:在一个billion级参数的多维向量空间中,LLM们的表示空间较之深度学习革命以前的模型是大得太多了。
3. 学习过程必须有足够的深度和层次:这个条件也具备了,拜深度学习革命带来的多层网络所赐。尤其是 transformer 框架下的LLM内的注意力机制所赋能的学习和抽象能力,非以前模型可比。
阶梯式学习的超能力“涌现”,上述三个条件缺一不可。
这一切要落实到实处,implementation level 自然要靠海量的计算条件和工程能力。大厂,或由大厂做后盾的团队(例如 Open AI),具备了这样的软硬件能力。
最后,还需要 LLM 适合人类的胃口,尽可能避免生成垃圾和毒品,有了这个与人类偏好对齐的微调,加上友好的自然语言对话接口,才能放出LLM来。
于是,chatGPT 诞生了,一个划时代的里程碑。
By 李闯(中国金融认证中心)
大模型重要的是基础能力,训练一开始把中文能力作为目标意义不大。
很多人在体验ChatGPT时都遗憾它似乎对中文世界的知识没有那么熟悉,不太会背古诗,对中国名人张冠李戴,甚至对很多中国广为人知的历史、名著强行胡说八道,而相应的对欧美世界的历史、社会常识就好的多。所以大家都在呼吁中文版ChatGPT在哪里,我自然也有这种期盼,但我个人认为只有做出一个英文能力也超过ChatGPT的模型才可能同时实现中文能力也更好。因为模型的基础能力强吊打一切,语种只是上层表达,如果英文不能超越或持平ChatGPT,单单提升了中文能力的概率极小。
有证据表明大模型学习到的基础能力是超越语言跨越语种的“高级知识”,很多研究论文都有阐述,我这里仅说一些我的直观感受:1、RLHF论文中的训练数据英文占比99%+,西、法、德语还占了剩下的大部分,中文估计就是0.0x%这个级别,效果大家都体验到了,中文和其他小语种能力的提升同样也非常显著,这很强的证明这种训练方法是让模型学到了跨越语种的隐含信息;2、ChatGPT对话模型做了很多防止有害信息、承认自己不知道、尽量公正客观等限制,其中一个方法是预先的prompt提示语,我认为且也有一些蛛丝马迹表明这个prompt提示语只是用英语写的,但很明显它对所有语种都有效了。3、很多人都发现ChatGPT中文回复时偶尔有翻译腔的情况,这固然可能是训练中翻译数据的直接结果,但从宏观上也能看作是“高级知识”跨语种适配的体现。
中文的语言数据集需要艰苦卓绝的整理工作
垃圾信息问题,很多人不知道自动生成文本信息的技术在中文互联网早就泛滥成灾,当然只管生成数量完全不在乎质量,比如SEO搜索垃圾生成、水军机器人、电商评论机器人、各文库/知道自动改写、论文防查重“技术”等等,你只需用中文搜索稍不常见的词就能体会到垃圾信息的体量和威力,这些中文信息是完全不能出现在训练数据中的。很不幸我在测试一些国产大模型时都或多或少发现了互联网垃圾体的影子。英文互联网当然也有垃圾问题,但仅从搜索信息来看似乎要好很多。
移动互联网发达的意外之害,中国移动互联网的繁荣成功不可否认,但现在意外的发现这对于中文信息的开放共享是个灾难,各位是不是对“下载App继续阅读”深有体会?还有微信王国的海量各种号,从10几年前就开始各个领域优质用户产生的优质中文数据只有通过移动渠道/登录账号才能访问,还会把原有开放互联网上的信息删除或者加上层层限制。我甚至怀疑目前在互联网上能公开扒取到的语言数据已经不能完整反映中文世界的客观信息。并且对于微信、百度、知乎、小红书、各电商、教育平台等各相对优质数据的所有者,它们能联合起来共享么?
中文标注数据集匮乏,相信很多NLP的长期从业者深有体会。海量数据的自监督训练阶段结束后,那些之前积累的各种人工标注语言数据的监督训练才是画龙点睛那一笔,ChatGPT除了自己请人标注也用了已有的共享数据集。但可惜的是中文里这种数据集太少了。标注工作枯燥乏味而且很难出亮眼成绩,不过是为他人做嫁衣。我们经常羡慕别人重大突破时天才的灵光一闪,但是勤勤恳恳做基础整理工作的老黄牛们同样重要,我们也很缺。
训练中文版ChatGPT的可能正确方式
训练仍然要以英文为主。不得不承认,作为世界语言以及相对开放的互联网环境,英文信息尤其是高质量信息是统治地位,2022年某统计显示互联网上开放信息中文占比仅1.3%,而英文占比63%,其中高质量部分优势更大,比如论文,包括中国人在内的各非英语国家,一旦做出较大科研成果几乎肯定先发英文论文,后续也未必有中文翻译,维基百科、 StackOverflow、Reddit等资源也是中文只能羡慕的存在。而我们获取英文数据可能还更加容易。另外英文本身是和代码及大多外语是同源,而象形单音节的中文略显孤独,这可能也是个问题。总之既然已经证明了英文为主的道路畅通,最理智的做法是先走着。
其次以程序代码为辅,英语为主汉语为辅?不不,第二重要的应该是程序代码,有一些研究者认为ChatGPT展现出了初级推理能力要归功于其使用代码作为语言数据训练,进化出的初级逻辑思维链在中文上也有体现,说实话我并不确信这个推论,但很值得想象。即使此结论不正确,大模型拥有写代码的能力也极其重要,比如使用外部工具,为无限能力扩展提供了接口。代码数据的重要性对我们不是个好消息,ChatGPT应该用了github汇聚的全世界代码库,包括私有库,我们如何获取高质量的代码数据是个大问题。
顶住诱惑激进清洗数据,中文数据贵精不贵多,GPT3收集训练数据45TB,清洗后570GB仅保留1.2%,中文数据清洗保留比例可能还要少个数量级,很考验数据工程师的心里承受能力,辛辛苦苦收集的数据,你只让用0.0x%?我拍脑袋认为训练集中有3~5%的中文数据就足以改进ChatGPT缺乏中文知识的情况了,甚至在上述推论下,中文也没必要追求体量上超过西班牙语、法语、德语。后续监督、对齐、联网阶段还可以针对中文做优化。
六、David的一些非结构化感想:
1、对大模型和AGI本身的认知深度是核心差距。不久前Nvidia黄仁勋和Illya(OpenAI首席科学家)有两段有意思的对话。
一是黄仁勋问,这么牛的ChatGPT是怎么做出来的?Illya是这么看自己的工作成果的:
我工作取得的成果是训练了神经网络。我们希望训练神经网络来预测下一个词……当我们训练大型神经网络以准确预测互联网上大量不同文本的下一个词时,我们在做的其实是在学习一个世界模型……你对下一个词的预测越准确、还原度越高,在这个过程中你得到的世界的分辨率就越高。
而通过神经网络实现无监督学习的信念,在2012年AlexNet时代就开始了。这是一个十年以上认知深度的“信念”。
二是为什么多模态(GPT4可以看图)重要?Illya的回答:
一方面,人类是视觉动物,人类大脑皮层的三分之一都用于视觉,我相信由于没有视觉,神经网络的用处虽然相当大,但并没有达到它应有的那么大,所以这是一个非常简单的有用的论点。很显然,GPT-4 可以「看」得很好。
第二个原因是,除了从文本学习外,我们还可以从图像中学习这个世界……举个例子,人类一辈子会听到十亿个词。因为十亿秒是 30 年,所以像我们一秒只能看到几个字,并且我们有一半的时间都在睡觉,所以几十亿个词是我们一生得到的字符信息量……那么有尽可能多的信息来源非常重要,而我们绝对可以通过视觉学到很多。
这样的认知深度,可能远比我们看到的算法、算力、数据的差距影响要大。
2、ChatGPT是工程和产品的胜利。大模型本身是一个切入点准确且工程能力极强的证明。比如,为什么选择语言?维特根斯坦说过:“语言的边界就是思想的边界”,如果大语言模型获得了所有语言的信息,那就意味着获得了人类主要的知识——至少是语言承载的知识。
另外,但如何让AI回答符合人类价值观,“对齐”意味着大量的工程。根据 InstructGPT 的文章披露,当时 OpenAI 雇佣了约 40 名左右的标注人员来提供手工写的文字,这个数字在最近披露的报道中上升到了 1000 名左右。
LLM代表的GPT3甚至3.5还不够,还需要ChatGPT这个“大道至简”的产品来破局:通过Chatbot的模式,用自然语言和人类互动,甚至微调。这不亚于鼠标发明和Iphone触控模式的出现。
3、革命从0-1开始,但从1-10引爆。从历史上看,技术从无到有的影响力,远远比不上技术从奢侈品到平民化的商业化影响力。比如古登堡革命让书籍变得人人可拥有,出现了知识的平权,引发了文艺复兴。大型计算机每年就卖出几台,但微软和苹果让计算机成为人人桌上和手上都有的小型计算机。特斯拉不是电动汽车的发明者,却是让电动车从小众走向大众的革命者。
多年之后,我们看现在基于LLM出现的产品,应该会看到历史重现:范式转移的时候,“贫穷“限制了我们的想象力。就像电出现之后,大家都只关注电灯行业的变革,烤面包机的插头还要带着灯泡;浏览器出现之后,开启浏览器大战,后来却发现浏览器并没有那么重要了,更大的机会是google、微软、Meta、Amazon这样的业务和形态……
你能看到多远的过去,就能看到多远的未来。
历史不断重演,所以我的建议是:中国可以有一批人做LLM,但更多的优秀人应该去研究一下工业革命史、信息史,复杂科学,甚至科幻,放大时空尺度,开开脑洞。另外,从自己熟悉的行业和场景开始,尝试基于现有的LLM的应用落地。这样,也许能增大这一轮AI浪潮下国人“赶超”ChatGPT这样先发者的概率。