出品 | 搜狐科技
作者 | 梁昌均
“我觉得我们现在太着急了,谈应用可能还有点太早。”在6月14日下午的智源大会的一个论坛上,清华大学长聘副教授、面壁智能首席科学家刘知远对搜狐科技强调到。
他是此次智源大会一个论坛的主席,在其它嘉宾讨论期间,他来到会议室外,跟搜狐科技等两家媒体站着聊了半个多小时,语速飞快,神态颇显兴奋,他的同事评价他“这两天特别嗨”。
这也是面壁智能被斯坦福AI团队抄袭事件刚过去不久,作为联创的刘知远,首次公开露面,看起来心情不错。他长期从事知识图谱与语义计算等方面的研究,在基础大模型技术前沿探索上取得多项成果,并和他的学生曾国洋一起创立了端侧大模型公司面壁智能。
他认为,今年大模型行业更关注落地,更关注成本和效率。但在对话中,他至少有七次表示大模型应用“不要着急”。“从技术的成熟,到真正有所谓的超级应用或Killer APP,还是需要几年时间的探索。”
对于是做C端还是B端,业内争议不断。刘知远认为,AGI未来愿景跟2000年左右互联网产生的影响力相当,甚至是有过之而无不及。但现在讨论ToC、ToB谁优谁劣,没有意义。
他认为,通用人工智能的影响一定是全方位和颠覆式的,B端C端都有非常大的机会,所以不要着急。而在这个过程中,创业公司最大的优势在于创新,包括商业模式和技术创新。
“我觉得拥有数据,拥有场景的公司,包括拥有数据的大厂反而都会焦虑。如果不能够把自己的数据、知识转化为智能,那自然会有人颠覆它。”刘知远说。
对于目前大模型落地难、落地慢的原因,刘知远认为,这需要有一个跟用户需求契合的过程。“很多时候需求是被创造出来,就像抖音,是挖掘激活了人性。”
谈及目前业内频繁被讨论的Scaling Law,刘知远提到,OpenAI验证了这个规律,接下来就是要高质量地去实现它。
但如何高质量地做这件事?需要什么样的数据、模型架构、学习过程?他认为,还没有形成共识。“数据驱动的方向大致确定,但技术路线还远远没有被收敛,还是在高速演进。”
“未来大模型面临着如何把更多的知识放到更小的参数里,这是主战场或主命题。Scaling Law固然是一个很重要的趋势,但我们要做的是科学化地找到最优成长的曲线。”刘知远称。
在他看来,端侧大模型就是一条非常有前景的路径。“我们的目标是要找到大模型的摩尔定律,提出了一个叫知识密度的概念。总结出来的规律就是,每八个月大模型的知识密度增加一倍,比摩尔定律还快。”
他表示,这在未来能否持续下去,还有许多需要去极致优化的方向。“如果现在就是这种低水平的模型,去打价格战,完全不看是不是比人家好,那大炼钢铁也都是废铜烂铁,没有用。”
随着苹果等布局,端侧模型越发受到国内外关注,刘知远也非常看好。“我觉得一定会有属于AGI的智能终端,它还会是手机的形态吗?稍微激进来看,我觉得一定不是。”
不过,目前在端侧设备上的AI功能颇有些同质化的趋势。对此,刘知远认为,这本质是低水平导致,一方面受限于算力,另外技术上可能还不ready,比如应该要有端云协同。
他表示,这也可能是固化的思维范式导致。“AGI本身意味着我们要新,可能是新的终端、新的模型、新的做法、新的思想。这就是我们的机会,如去做机器人,做具身智能。”
他提到,现在想出来创业的学生比之前的十年还要多。“这就是当年2000年互联网的时候,会在未来的五年、十年,充满了无限的可能。”
以下为对话精编:
Q:今年国内大模型行业最大的变化是什么?怎么看大模型目前的应用情况?
刘知远:我觉得比去年更加关注大模型得落地,落地就得关注成本和效率,关注质量到底怎么样。但我觉得现在谈应用可能还有点太早,从技术的成熟,到真正的超级应用或Killer APP,本身还是需要几年时间的探索。现在我们有点太着急了,觉得说看到了大模型技术,马上就要找到应用,我觉得它的潜力还远远没有被挖掘出来。
Q:做B端还是C端好像大家也有不同看法,C端一条路径是在原有产品加上AI功能,比如苹果,还有一种就是所谓的原生应用,您看好哪条?
刘知远:我觉得AGI激活了人类的知识,原来都是替代的是体力劳动,现在替代的是脑力劳动,这显然是人工智能一次非常大的变革。
通用人工智能未来的愿景跟2000年左右整个互联网产生的影响力相当,甚至是有过之而无不及。整个互联网对人类生活方方面面的影响,难道仅仅是说用ToC、ToB可以涵盖的吗?我特别不愿意去讨论ToCToB谁优谁劣,没有意义。互联网To c好做吗?不见得,ToB也是。
通用人工智能是比互联网可能都要更宏大的一次技术变革,它产生的影响一定是全方位和颠覆式的。B端C端,都有非常大的机会,所以没有必要那么着急。
Q:您观察到行业里最着急或焦虑的是哪部分群体?
刘知远:现在这条技术路线,是数据驱动,要从有数据变成有智能,要从数据里面去学智能。所以我觉得拥有数据,拥有场景的公司,包括大厂反而也会焦虑。如果不能够把自己的数据、知识转化为智能,那自然会有人颠覆他,第二名如果把这个技术用上,那么就可能弯道超车,这就是为什么大厂都积极拥抱大模型。
Q:您怎么看B端的落地路线,微调和垂类模型怎么选?
刘知远:大模型找到了一种从数据到知识的学习或萃取的通用方式,大模型在任何一个领域能发挥作用,一定说这个领域的知识有价值。到底是采用微调,还要用行业大模型,其实只是术层面的事儿,道层面还是知识,要判断知识的重要性,然后如何充分大模型的技术,这需要一个过程。
这个过程需要大模型的科技工作者和行业专家,能够达成共识,实现双向奔赴。这些行业的知识存在于相关领域的数据中,也存在于这些领域的专家头脑里面,需要大家一起来做。很多领域都要做自己的大模型,但实际上我看到还没有真正做好这个准备,比如数据,相关专家的动员等,从今年开始应该要在这些方面加强。
Q:您说不要着急,但创业公司可能会有资金等压力,您觉得创业公司出路在哪?
刘知远:我觉得所有的创业公司,一定是找到了一些大公司做不了的事情。如果大公司能做的很好,那就没有机会。
大公司的机制很难创新,上下很难形成一个非常好的内部协同。不管是商业模式的创新,还是技术的创新,创业公司最大的优势一定是创新。这些新的东西大公司想做,可能也很难能调动起足够多的力量,然后很有执行力地去做。
Q:业内很关心成本问题,您觉得目前大模型落地难、落地慢,成本是主要的障碍吗?
刘知远:我觉得是很多方面的因素,第一就不能太焦虑,不能太着急,还得去跟用户的需求做契合。很多时候所谓的超级APP或者Killer App,需求是被创造出来,比如抖音,这个需求是被创造出来的,是挖掘激活了人性。技术做了足够大的扩散,自然就会有产品,然后找到超级应用,这是一个产生化学反应的过程,没有必要那么着急。
Q:Scaling Law成为业内谈论热点,但大家分歧也比较多,您怎么看?
刘知远:很多人会把这个看成是一个比较简单的现象,或一个规律,模型越大效果就会越好,OpenAI验证了这一点。在我来看,OpenAI已经把Scaling Law展示给大家,接下来我们的命题是什么呢?其实就是要高质量的去实现它。
但如何做呢?到底需要什么样的数据,模型架构,学习过程,整个这个事儿大家还没有形成共识。最近这两年的发展,告诉我们,数据驱动的方向已经大致确定,但是技术路线还远远没有被收敛,还是在高速演进。
比如模型架构Transformer够不够?肯定不够,因为它本身非常低效、特别耗算力;比如数据如何去治理,学习的过程到底如何组织模型,参数如何设置,都还需要解决。
未来的大模型面临着如何把更多的知识放到更小的参数里,这是未来的主战场或是主命题。Scaling Law固然是一个很重要的趋势,但是我们要做的是科学化地找到最优成长的曲线。
Q:我们现在在这条成长曲线上找得怎么样?
刘知远:芯片领域有所谓的摩尔定律,摩尔提出来之后,整个半导体领域所有的从业者,都在为了这件事儿来去努力,今天还在持续。大模型能不能做这件事儿呢?我们给自己设定的目标就是要找到大模型的摩尔定律,提出了一个叫知识密度的概念。
2020年1750亿参数的GPT-3的模型的能力,我们现在用2.4B的模型就可以做到。这四年我们把知识密度做了数量级的提升,总结出来的规律就是,每八个月大模型的知识密度增加一倍,比摩尔定律要快。
未来有没有可能持续下去,应该要在行业达成共识,从架构、数据、训练方法等方面一起来努力,还有非常多需要去极致优化的方向。所以要高质量的发展,不然就卡脖子。如果现在就是这种低水平的模型,去打价格战,完全不看是比人家好还是不好,那大炼钢铁都是废铜烂铁,没有用。
Q:现在有云端大模型,还有越来做多的公司做端侧大模型,苹果也开始布局,国内做端侧大模型,有什么挑战或优势?
刘知远:云端大模型,的确可以粗放式去做,但是端侧需要各个方面技术极致的优化,才能保证跟别人有代差。
第二,一般认为我们第一个成功的智能终端是手机,第二个是车,第三个是什么?第四个是什么?但所谓的这些智能手机、智能车,其实都不是那么智能,所以手机厂商一定会去做真正的智能手机。
但在我看来,AGI一定会有属于自己的智能终端,它还会是手机的形态吗?我没看到,稍微激进一点,我觉得一定不是,这个就是未来展现给我们的无限的可能性。
Q:现在给人的感觉就是同质化确实非常严重,苹果提出的很多AI 功能在之前的安卓机上都看到过。
刘知远:同质化本质是低水平,端侧的确受限于算力,现在水平还是会有限。另外技术上可能还不ready,比如说应该要有端云协同。iPhone出第一款手机时很轰动,但现在没有这种感觉,原因在于大家已经进入到固化的思维范式里面去了。但AGI本身就是意味着要新,意味着可能是新的终端、新的模型、新的做法、新的思想。这就是我们的机会,比如机器人,做具身智能。
Q:不过具身智能也有争议,李开复就明确说不会投,怎么看它本身面临的问题?
刘知远:本身有机器人的问题,因为机器人其实过度专用化,扫地机器人就是专用。后面有没有通用的,人形机器人就是在做这方面的努力。但我觉得还远远不够,未来的形态是啥,下一个终端是啥,我觉得充满了无限的可能。