昆仑万维在这一波ChatGPT热潮中反应迅速。2月8日,昆仑万维宣布旗下的全球最大第三方独立浏览器Opera浏览器计划接入ChatGPT功能,成为全球除微软Bing搜索引擎、Edge浏览器之外,又一集成ChatGPT功能的浏览器;2月9日,昆仑万维更重磅宣布,将与奇点智源合作,在今年内发布中国版类ChatGPT代码开源,防止大公司技术垄断。
近日,昆仑万维CEO方汉,就ChatGPT开源、昆仑万维为什么会投入开源、以及开源会带来的技术平等等话题接受了财联社记者的专访。以下是专访内容:
方汉从2008年3月协助周亚辉先生创立昆仑万维,拥有29年的互联网从业经验。不仅是中文Linux奠基人、中文Linux四剑客之一、也是国内最早的网络安全专家,他从自1994年开始参与和倡导开源运动,属于互联网领域很早就倡导开源的人士。
01
ChatGPT达到了一个通用人工智能的入门门槛
财联社:您作为行业的长期观察者,在您看来此次ChatGPT火出圈,有哪些契机?
方汉:ChatGPT只花了2个月时间,全球用户就达到了1个亿,而实现这一记录,TiKToK大概花了9个月时间,Facebook花了4.5年。
根本原因在于ChatGPT达到了一个通用人工智能的入门门槛,这其实不论是对于互联网还是整个人类社会,都是一个标志性节点,我觉得可以跟互联网的出现或者是移动互联网的出现相提并论,必然会大大促进人类社会的进步和发展。
之前AIGC产品也很多,但没有一个产品能够越过这个拐点,让人类觉得它达到了人类智能的一个普通水平,比如有人用ChatGPT通过了谷歌面试,ChatGPT考SAT(美国高校入学资格考试)可以考1020分(满分1600分)。
ChatGPT并不是一夜之间就出现的。从历史来看,2018年OpenAI发布的GPT-1只有大概几十万参数,2019年OpenAI发布了15亿参数的GPT-2,2020年OpenAI发布了1750亿参数的GPT-3,2022年基于GPT-3,OpenAI通过RLHF(Reinforcement Learning from Human Feedback,即使用强化学习的方法利用人类反馈信号直接优化语言模型)才生成了ChatGPT,把人类历史上的文本、数据都作为语料在模型里去run。
可以用一个比喻来解释ChatGPT的原理:一家图书馆从一开始只有几十万本书,后来发展到有几十亿本书、现在已经有2000亿本书了,让图书馆管理员去找一本书,仍然容易找错。我们通过RLHF,让管理员一口气找10本,并不告诉他这十本书里哪一本是我想要的,只是给这10本书排个序,即哪个最接近、哪个最不接近,就可以迅速提高管理员找书的准确率。
为什么ChatGPT能够对普通人的感知这么明显?我们也知道美国有89%的大中学生在使用ChatGPT做作业、Top500公司的CEO中有13%在使用ChatGPT完成日常文案工作。虽然本质上ChatGPT是针对文本的一种人工智能,但我们在电脑上使用最多的工具是word、其次是美术工具,然后是编程工具。 对于能够在电脑上完成闭环的生产工具来说,ChatGPT能够影响的人群范围是最广的,我觉得这是ChatGPT火出圈的一个重要契机。
02
通过AIGC来寻找我们的第二曲线
财联社:昆仑万维从2020年10月开始发起昆仑天工项目,研究通用人工智能(AGI),子项目已经有包括天⼯巧绘(SkyPaint) 、天⼯乐府(SkyMusic)、 天⼯妙笔(SkyText) 、天⼯智码(SkyCode),研发投入巨大。昆仑万维为什么要率先投⼊AIGC/AGI⽅向的研发?当时是有什么契机吗?
方汉:我们是一家全球性的互联网公司,涉足浏览器、社交和游戏三个领域,这三个领域其实都是跟内容比较相关,也就是说我们属于一个内容互联网企业。 我们认为AIGC是对产业的一个巨大契机,我们也愿意全身心投入,来寻找我们的第二曲线。
对于内容产业来说,我们发现这样一条规律——当一个创作工具门槛越低的时候,内容创作的量会越大。举个例子,在手机摄像头出现之后,才有了快手、抖音短视频的出现。当时我们认为AIGC必然极大地降低用户创作内容的门槛,提升用户创作内容的速度,提高用户创作内容的质量。将来一个没有经验的人去写小说、做音乐、做视频,甚至做动画片,都是完全可以在AIGC技术的加持上实现的,这样必然导致整个内容产业的一个再次大规模发展。因此我们从2020年10月就开始布局AIGC。对于我们来说,这是很好的一条第二曲线。
03
通过开源实现AIGC的弯道超车
财联社:听说昆仑天工项目中AI图像、AI文本、AI编程的模型已经开源,2月9号你们也官宣了将在今年内发布中国版类ChatGPT代码开源,昆仑万维为什么要选择开源中⽂类GPT-3⼤模型以及类chatGPT模型?
方汉:第一,我认为 开源大模型是商业闭源大模型的一个有力补充和替代。
去年上半年OpenAI发布的DALLE-2模型是一个闭源模型,但在半年以后开源出了一个产品叫Stable Diffusion。从开源网站GitHub看,基于闭源的DALLE-2的项目只有202个,而基于开源的Stable Diffusion的项目有2758个。
背后原因在于, 开源能够让更多的人参与到相应的大模型的研发,也就是说我们可以用这些开源的大模型来定制一些长尾需求。
第二,在AI领域,中国对于美国来说还是一个跟随的一个态势。 要想弯道超车,一定要发动全世界开源社区的力量,有更多的人加入到中国的开源项目里去,这样中国AIGC大模型的能力和水平才能快速赶上美国的像OpenAI、DeepMind这样的公司。
我们坚信开源是AIGC生态发展的土壤和重要推动力量,希望通过众创积极地促进技术民主化、降低行业门槛。
04
昆仑万维的AIGC战略就是围绕着开源来进行的
财联社:中国已经有不少公司投入到ChatGPT领域,为什么昆仑万维能做好开源这件事情?
方汉:我们有几个优势。第一,我们对于开源领域的认知和经验积累比较深,从AIGC大潮刚刚兴起的时候就坚定地认为开源是AI产业最急需建设的方向。我们也驱动公司的投资部门投资了开源企业。 从启动之日起,我们的AIGC战略就是围绕着开源来进行的,现在也开源了很多大模型及聊天机器人等产品,并积极推进AIGC算法开源和模型社区的发展。
此外,我们自2020年起就建设有AI研发团队,拥有大量的AI专业人才,所以说我们才能在AI领域取得同国际水平接轨的成绩。
截至目前,昆仑万维在全球的平均月活跃用户有4亿,我们有丰富的行业经验去实现AIGC应用的落地。去年12月份我们的开源项目「昆仑天工」发布以来获得了大量的好评,有大量的商业公司在试用我们的产品,目前已经有中国移动咪咕等公司的测试使用,我们也成为AI开源最快的项目之一。
05
采用跟随策略,在半年到1年内赶上ChatCPT百分之七八十的水平
财联社:最近有公司表示,其类ChatGPT技术的各项指标只能达到略强于GPT-2的水平,与当前的ChatGPT相比尚有代差的落后。作为业内人士,您觉得国内现阶段在技术层面和OpenAI的ChatGPT实际存在多大的差距?主要的壁垒有哪些?
方汉: 最主要的壁垒是训练成本。当模型参数上涨的时候,训练费用也急剧上涨。基本上GPT-3单次训练成本大概在500万美金,我们预估GPT-3.5和ChatGPT的单次训练成本是2000万美金,也就是说AI行业成了一个资金密集 型的行业。
此外,人才方面,中国每年大概毕业370万的工程师,印度是280万每年毕业,美国是每年毕业80万工程师,全世界所有其他国家工程师每年毕业人数在50万以下。也就说中国目前存量工程师数目大概有6000万,是全球最大的一个工程师的国家。但是能不能说明我们中国的技术能够超过美国?还得从另外一个维度去看。比如说目前中国的存量的博士数目是98万左右,而美国是400万左右,这是中国跟美国最大的一个差距。
在高端技术人才的数量方面,目前中国跟美国几乎是1:4的关系;而中国AI领域高端人才跟美国比可能是1:2或1:3。虽然OpenAI、DeepMind仍然是全球领先,所有的创新基本上都来自于他们,但我认为 从技术角度而言,中国采用跟随战略,在半年到1年内赶上ChatGPT百分之七八十的水平,我觉得是没有问题的。
06
有一定实力的企业才能实现AI大模型的训练
财联社:国内的算力水平能不能满足AI企业包括训练大模型等的需求?
方汉:从阿里到腾讯、从华为到金山,中国公有云其实还是蛮发达的。AI企业通过租用的方法来满足训练大模型的需求,我觉得没有任何问题,但问题就在于单次训练的成本高,所以说我觉得还是 有一定实力的企业才能实现AI大模型的训练。
07
推动代码开源,实现技术平等
财联社:AIGC领域持续突破将是公司未来的一大看点,公司在AIGC、代码开源等方面,未来有哪些计划?想要达成什么目标?
方汉:第一步, 我们会坚定不移推动代码开源的工作,让AIGC的开源社区持续增长,希望能够率先发布开源的ChatGPT代码, 让技术实现平等,让中国的中小企业也能享受到AIGC进步带来的红利。
第二步,我们其实也观察到,AIGC就好像早期的互联网技术,从技术到产品还是有很长的路要走。而我们中国企业最善于的是模式创新,就是拿一个很先进的技术去产生更有创造力的产品,所以我们也会花一部分精力去做AI技术的产品化。
我们认为,ChatGPT类的AIGC的高速成长,必然会催生出下一代的独角兽互联网企业。
08
未来一定会出现可以完全对标ChatGPT的技术和产品
财联社:您认为,国内未来两年有没有公司可能完成对标ChatGPT的产品?
方汉:我觉得没有任何问题。技术迭代的速度是非常快的,我认为训练成本也会随着优化而大幅下降,也会有一些新的产品出现。
ChatGPT的技术领先优势其实窗口期并不长, 所以说未来在我们的共同努力下,一定会出现可以完全对标ChatGPT的技术和产品,也许是来自于昆仑万维,也许是来自于国内的其他公司。