划重点
●ChatGPT技术的突破是量变积累的过程,目前已经有十家左右的公司能去复现GPT-3同样数据规模的大模型,而真正的差距可能在后面,比如监督学习以及已经公测后经过大量用户使用、积累的海量数据。
●GPT系列模型已经达到瓶颈,从算力角度来说短期内很难让模型参数再以百倍、千倍量级增长,整个行业已经尝试过万亿级别的参数,跟千亿级别参数效果相差极其微小。
●人形机器人和ChatGPT两种技术是天然互补,但人形机器人与ChatGPT的结合还面临成本问题和工程化问题,短期内还无法实现。
●OpenAI的发展曲线比较符合新技术发展的特性,找小而精的研究方向突破,研究团队试图接近市场化,当把技术类问题、市场类问题、产品链交互解决后,才开始重成本投入。
●互联网增速见底但又衔接着未来,代表下一个十年的AI技术已经初具规模,从“上网”到“上算”,会复现互联网飞速的发展,也会有丰富的应用场景落地。
“新硬件主义”系列内容,关注未来的各类智能交互硬件,其定义、范围、本质、内核,并关注全球相关科技巨头、及中国科技公司的打法。腾讯科技联合安信元宇宙研究院院长焦娟,对谈深圳市普斯科技有限公司CTO,原创维软件研究院云端总架构师黄洪武,探讨ChatGPT火热背后人工智能发展的重要趋势。
以下为正文:
01
量变积累让ChatGPT实现突破
焦娟: ChatGPT实现了哪些突破?能否梳理一下背后的技术发展脉络。
黄洪武:它其实是技术研究量变积累的过程,从GPT-1到GPT-2到GPT-3,在算法上只做了无监督的学习,没有通过人工的样本数据去训练它。在GPT-3之后很难去通过算力增加来继续寻求技术突破,便开始尝试用人工监督数据以及强化学习的办法去解决GPT-3还存在的许多问题,通过这样的办法最终呈现了这个现象级的应用。
ChatGPT应用的技术非常多,基本将过去几年算法行业中验证的有效方法都引入,比如GPT-3之前没有:无监督学习、强化学习。
无监督学习指不需要人工去打的样本,只要用自然语言比如网上采集数据,直接喂给模型就是无监督学习。监督学习指人工整理好问题,你应该怎么回答然后用算法的函数映射,让模型去模仿人写的回答是监督学习。强化学习其实是选择的过程,网上宣传比较多的末端改进,其实是使用的就是强化学习这种弱监督学习的方法。通过人类标注去主动选择机器应该会什么,比如机器对一个问题能生成A、B、C、D四个答案,人类标注员去为它排序,要他认为B回答比A回答好,那通过数据喂给模型做调整即可。这些方法其实都是自然语言处理以及整个AI行业都已经广泛应用的算法。
但是OpenAI早期更专注做无监督学习,直到模型有比较强的能力后才开始引进能短期见效的方法,像监督学习以及强化学习的方法能快速提升模型的能力以及应用效果的能力。
▲2023年1月23日,法国图卢兹,屏幕上显示着OpenAI和ChatGPT的标志
焦娟:GPT系列模型刚开始的训练是无监督学习,通过算力增加进行参数提升,但看到算力堆积瓶颈时,才开始尝试用人工监督数据以及强化学习的办法,这是行业惯用的方法?还是特殊的案例?
黄洪武:我觉得早期小而精的团队会去进行长期最优路径的选择,但是在整个行业中也是属于比较少见的做法,这种做法是有独创性的。
现如今大众其实特别关心中国能否出现中国版的OpenAI或者某种大模型,其实并不需要完全复制OpenAI成功的路径。
每一家创业公司或者成熟的大公司,其实都有自己的路径。有的公司会寻求技术突破,引领行业,然后带来一定的技术领先。也有公司会等到技术先行者探清道路后再来追随。技术追随者对新兴的技术,只需要按部就班。而通过对原有技术的迭代,也有可能会有一小段的领先期,在这个领先期肯定会有其他的公司会去跟进他的所有路线。因为一般新技术肯定会有一段技术领先期,但领先期到底是三个月、六个月还是一年?行业开创者是否能一直处于领先地位,这其实都是很难预测的。
从AI行业来讲,其实现在行业已经有差不多十家左右的公司能去复现同样数据规模的大模型。目前主要的差距其实是在后面,比如监督学习,公测后经过大量用户使用,积累的海量数据。
焦娟:人工智能数据的投喂,只能让人工智能的回答更精准,并不能产生本质变化(有思考和灵魂),是这样吗?
黄洪武:我觉得从目前看短期内比较困难。其实有两个原因,第一个原因是因为深度学习毕竟本质上还是统计类算法,它的原理还是基于统计,统计有个特点是如果你观点比较多或者样本比较多,它就会慢慢把样本少的情况冲掉。它其实与人不一样,人懂得去分辨事实而且可以判断哪一个可能更加真实,其实有一些研究他会去从小的特殊情况学习到更多的东西。从智能化的水平来看,我认为它其实跟人类还是有比较大差距的,还是通过大量数据投喂出来的目前水平。
第二个原因,其实从目前可以看到的时间点算力已经是到达瓶颈,而且我认为它还必须至少五年后才有可能达到十倍、百倍量级的提升。所以从算力来说已经很难让神经网络参数再上增,经济效益也会变得非常低。整个行业其实已经尝试过万亿级别的参数,其实跟千亿的参数效果相差基本是极其微小的。
这里也代表如果再往上提升能力,他基本上要向百倍甚至千倍的量级去做,基本上从短期的算力上是挺难去支撑的。
所以其实无论从算法上还是算力上,还有第三个原因,就是数据,现在已经把全部的互联网数据都引入然后打标,未来如果要再提升,其实数据的经验上也是需要非常长的时间沉淀,让机器真正解决更有逻辑性的问题。举个例子,如果你发现从一位数、两位数加减乘除都能回答,效果比较好,但如果发现当你问他三位数乘四位数,每次出来的结果都很随机,其实是因为它背后的技术是是用拟合式的方法,而不是真正去用计算机实现运算。比如我们背乘法表,但我们不知道怎么做乘法,这时就会发现可能一位数、两位数乘法单从记忆中都能背下,但如果再延伸到三位数的乘法时就会发现,如果你不去掌握真正的乘法运算规律,就很难去得到更精准的结果。
02
人形机器人与ChatGPT完美结合,还有很长的路要走
焦娟:人形机器人跟ChatGPT有无技术上的相关性?它们之间的关系?如何结合?结合后的应用空间?
黄洪武:首先我觉得人形机器人和ChatGPT目前都属于比较前沿的技术,这两种技术结合在一起后会发现是天然的互补,如果单纯从技术上来说,ChatGPT仅仅是聊天机器人,只能存活在网络空间中。如果单从人形机器人来看,你会发现应用的局限性也很大,对人形机器人发出指令是很麻烦的,但这两个技术结合起来后,它的想象空间就会打开,你会发现它其实是未来的场景,比如可以通过人形机器人去用自然语言对话的形式,人就可以去通过天然交互的形式让机器人完成人类生活相关的事情,或者是企业To B的相关场景。之前工作机器人可能主要被设计代替流水线的功能去做简单重复劳动,但如果结合ChatGPT后就会发现这种人形机器人或许未来某一天就会走到每个人的家庭中。
▲特斯拉人形机器人
面对TO C的场景,首先我会尝试去从个体的角度去享受,比如人形机器人要达到何种程度,未来才有可能去花钱购买它。比如生活中经常会有搬运东西、端茶倒水以及拎包这些场景。这些都是非常需要机器人来帮助我们,提高生活的便利性。
从养老方向,机器人能挖掘的应用场景也有很多,比如陪伴护理,以及大脑面临的记忆力衰退,都可以有陪伴机器人提醒自己。另外还有儿童,低幼儿童其实需要年轻父母用大量的时间去看护照顾,同时随着年龄的增长也需要教育,综合以上这些问题也导致现在很多年轻人不愿意生育。从这些角度来看,很多人都会期待未来人形机器人技术真正成熟,最终普及到每个人。但人形机器人能否出现,除了技术突破,成本问题也尚待解决。
人形机器人和ChatGPT属于两个独立技术,人形机器人主要会面临物理硬件的问题,ChatGPT属于软件算法类的问题。怎么样让机器去理解人与人之间的对话,并将二者结合,就能达到类似于仿生机器人的效果。
焦娟:智能交互硬件目前确实能被当做工具,但还不能发挥陪伴的属性,所以涉及到从认知的角度去推演未来的科技框架,这两者之间有什么关系或者有什么层次?
首先它们的结合刚开始一定是在特别细微的场景中出现。比如现在的硬件与硬件结合,去识别人的行为——同样一个动作,它背后到底有怎样的可能性。如果不放在特定的场景当中,那基本需要用穷举的方式去进行分析,但只要放在特定的场景当中,实际上就可以把分析的范围急剧的缩小,比如在银行、铁路,特定高频的应用的场景中可能会率先实现ChatGPT与智能交互硬件的结合。现在有这种结合,当然不是ChatGPT,而是非常简单的算法跟硬件结合在一起,如果后续持续叠加类似于ChatGPT的产品,持续更新硬件的功能性或者灵敏性。慢慢的就可能把适用的场景扩大,慢慢的走向同等的智能平台。
所以简单来讲,可以首先期待一下ChatGPT这样的软件算法,在未来的虚拟现实世界当中先呈现出爆款的内容场景和应用,然后同步期待人形机器人本身作为物理的装置,它的功能跟灵敏性持续迭代,再到两种技术结合到一定程度(有可能是结合在一起),产生的爆发力就会更足。
过去的认知会被颠覆:机器人仅仅被用于机械行业从事简单劳动。更多的还是场景跟应用的认知角度,因为中国在移动互联网时代在比较擅长做内容、做应用、做场景、做变现,ChatGPT可以先在虚拟世界当中实践,之后在现实生活中作为生产工具与场景结合生产新的内容。
今年苹果即将推出的眼镜,它可能可以实时切换沉浸式的VR与增强现实的AR,就相当于我们既在电影世界当中体验又能够覆盖现实世界的体验,AI实现在特定现实世界中特定应用场景的延展。
涉及到元宇宙又有怎样的说法?首先元宇宙它是终极形态,它能够让人分不清虚拟与现实的边界,这背后肯定有非常强大的硬件、软件配套,让人的体验感愈发逼真。这其中需要靠人工智能与虚拟现实的技术的发展、产业的共识或者创业者的共识,还需要治理理念。从中国的角度来讲,技术发展目前看来有一定的落后,但可以跟随最先进的技术做出中国版的生态,同时我们也需要向不擅长的地方努力,才能真正实现突破。
03
从“上网”到“上算”
由“网络世界”至“虚拟世界”
焦娟:我最近写的报告题目叫从“上网”到“上算”,由“网络世界”至“虚拟现实”。我认为上网的渗透率,进程是非常缓慢的。经过几十年的发展,及一些外部因素的触发,终于让我国的上网渗透率有了很明显的提升。下一步需要将虚拟与现实之间的边界进行消融,模糊化处理,依靠下一代计算平台(相当于单独存在的网络世界)将虚拟世界与现实世界无缝衔接。在这个过程中所有应用场景与内容要用AIGC的方式重新做一遍。
▲AIGC,人工智能生成内容
所谓的上网是上一个时代的关键词,考察的是渗透率;下一个时代在现有渗透率的基础之上,依靠算力重新做一遍。所以上网时代其实又分上下半场,PC互联网与移动互联网也分上下半场,上半场是虚拟世界成型的过程,下半场是囊括现实物理世界的过程。
黄洪武:关于未来,我觉得非常有意思的是红利期往往都是来自于市场变革。META早期倾尽全公司的力量,每年投入上百亿在元宇宙,遇到的困难重重。大部分新的技术,都是需要漫长的探索和研究周期,到最后把所有的技术类问题、市场类问题、产品链交互解决后才开始重成本投入。OpenAI的发展曲线其实比较符合这个特性,先小而精的研究方向,快接近市场化之后再加大投入。但我认为元宇宙其实是综合性的技术,无论是从设备的形态以及交互。基于自然语言的对话模型,近几年才开始成熟。目前包括ChatGPT等模型,如果最终要走到普及每个人的物理设备中,还有很多工程化问题需要解决。后面如何用AI技术去重构产品,它未来会有些什么样的产品形态,这都是未知数。
焦娟:如果我们把时间拉到最近50年,实际上苹果在PC与移动互联网时代都是王者。它定义了两个交互方式。微软是PC互联网时代的霸主,到移动互联网时代微软渐渐退出竞争,这时FaceBook、Twitter出现,它们没有硬件,单纯是“软体动物”,没有硬件公司的基因。
互联网公司的操作思路是提前三到五年试水,防止一旦新趋势起来就垮台。所以META提前投入其实就相当于把一部分钱用来在新趋势起来的时候“反脆弱”,保证自己至少还有挣扎的空间或者反击的可能。从FaceBook的财报来看,大概2021年四季度基本增速见底,这背后也是全球互联网的流量即将见顶的时期。
从这个角度来讲看,第一Meta本身信念不足,第二个它清楚自己的增长上限在哪里。虽然看起来他入局比较早,但实际上从公司本身的角度来讲已经被迫不得去寻找第二曲线。我个人认为硅谷创始人非常清楚资本市场的诉求或者节奏,在一般人看起来还非常辉煌时,就去找第二曲线。包括像特斯拉的人形机器人,在马斯克看来是第二曲线。最近半年特斯拉的利润一直在上涨,但是股价一直往下掉。硅谷的创始人很清楚知道自己的不足也知道自己的瓶颈,所以某种意义上来讲实际上是各种因素集合在一起,让他不得不在那个时间提早去布局元宇宙,必须要抢占到时间与空间,这是他作为“软体动物”与苹果这种硬件公司完全不同的地方。
当下移动互联网已经成为真正的旧世界,必须需要一个新大陆出现,那在新大陆的一个发现过程当中,我觉得马斯克、扎克伯格如此有魄力地去改变,不管成不成功,也是率先踏上了寻找新大陆的征程。
黄洪武:我发现过去20年日本的科技公司经常在第二曲线上走错路,但美国的科技公司似乎总是赌对。日本企业其实从十几年前就看好机器人这个转型方向,大家似乎都感觉日本在赌国运似的发展机器人,但人工智能时代来临时,日本科技公司好像没有多少声音,而中国逆转以前的十几年前的趋势,变成美国第一霸主地位的挑战者。这其实和整个国家的产业环境相关,需要创业团队以及资本方有强大的技术敏锐性和预见性,能看到几年后的社会发展变化。
04
互联网增速见顶
AI或将接力下一个“十年”
焦娟:近两年特别看重两个词,一个叫规模,一个叫头部,什么意思?规模足够大后,它就有很大的容错空间,毛利率足够高容错率就会高。另一个可能是因为现在处于是移动互联网的尾部红利时代,你必须站在最高点,否则你就会被忽视。就这两个现象也会反应到未来到新的计算平台上,只有头部,才能被看到,规模也很重要,马斯克做特斯拉,很重要的就是规模化的能力。
微软现在还是全球第二大公司,他的体量足够的大,就算是消耗掉自己每年一半的净利润瞎投,对他来讲问题都不大,所以规模很有魅力,创业公司首先需要保护好自己,夯实生存问题,再向规模化的方向走。
黄洪武:从“上网”到“上算”的逻辑框架很好,正好现在是互联网红利期的尾部,互联网增长乏力。时间点又正好衔接上了,代表下一个十年的AI技术已经初具规模。这种情况下未来一定是走到“上算”,可能会复现互联网飞速的发展,逐渐在各个场景渗透、普及。所以我觉得这里其实不管从创业的角度还是投资的角度,都是在研究技术变革和研究趋势,以及用户的需求变化,它能帮我们大家去提前抓到一些趋势的红利。