当前位置:首页|资讯|人工智能|商汤

缅怀 | 汤晓鸥:人工智能的兴起与科学家创业的甘苦

作者:商务印书馆发布时间:2023-12-19

原标题:缅怀 | 汤晓鸥:人工智能的兴起与科学家创业的甘苦

汤晓鸥教授(1968—2023)

商汤科技创始人、全球人工智能领域最有影响力的科学家之一、浦江实验室主任、上海人工智能实验室主任、香港中文大学教授汤晓鸥因病救治无效,于2023年12月15日23时45分离世,享年55岁。汤晓鸥教授的不幸辞世,是全球人工智能研究领域和学界的重大损失。

2017年9月8日,汤晓鸥教授在清华大学参加了由著名经济学家钱颖一教授主持的高端学术对话会。在这场对话会上,汤晓鸥教授针对人工智能的兴起、科学家创业、人工智能时代的大学教育等议题阐发了精彩而独到的见解。本次高端学术对话会的文字稿以《对话布莱恩•克比尔卡、马化腾、张首晟、饶毅、汤晓鸥:科技驱动成长为题收入钱颖一教授所著钱颖一对话录——有关创意、创新、创业的全球对话》一书(商务印书馆2021年3月版、2023年11月第3次印刷,第113—149页)。在汤晓鸥教授不幸辞世之际,我们从《钱颖一对话录》中节选了汤晓鸥教授在前述高端学术对话会上与钱颖一教授的部分对谈内容,以飨读者,并寄托我们对汤教授的深切哀思。

2017年9月8日,钱颖一与斯坦福大学教授布莱恩克比尔卡(左二)、腾讯公司董事会主席兼首席执行官马化腾(左三)、斯坦福大学教授张首晟(右三)、北京大学教授饶毅(右二)、商汤科技创始人汤晓鸥(右一)在清华经管学院对话

人工智能的兴起

钱颖一:我们这儿有一位人工智能的专家汤晓鸥教授。人工智能在这一年受到了全球的关注,从清华本科招生的情况中就可以看出来。我作为清华经管学院院长非常高兴地看到,今年清华计算机成了最受追捧的专业,显然跟人工智能是紧密相关的。在过去的几十年,你一直从事人工智能的研究,所领导的在中国研究团队的实验室,入选全球十大人工智能先锋实验室,做得非常出色。我想请你来讲讲,人工智能在过去这几年的突破,根本原因是什么?人工智能在未来的10年,哪些方面还会有新的突破?哪些方面不太可能有重大的突破?

汤晓鸥非常感谢今天邀请我过来。这里是中国最顶级的、最大的舞台,但是来了以后,没有想到这个“舞台”这么小(指报告厅的前台)。

人工智能为什么变得这么热?从更高的层次讲,我跟饶毅的观点有一点像。如果不做人工智能,反过来说,那就是一种说法,就叫“自然的傻瓜”,所以不得不做人工智能。这个领域为什么会兴起来?从20世纪50年代开始就在做人工智能了,但是从50年代到2011年,我们真的是做得太差了。2011年,其实我们大家都不敢把自己的领域叫人工智能,有做多媒体的,有做计算机视觉的,有做机器识别的,有做语音识别的,没有人说自己是做人工智能的,因为什么都没有做出来。

但是现在如果不管自己的领域叫人工智能,根本就融不到钱。所以每个人都管自己的领域叫人工智能。2011年是一个分水岭,为什么会有这个分水岭呢?有四个方面原因。

第一,需求。之前手提电脑非常多,虽然这个电脑能移动,但是大部分情况下,人们不会拎着电脑去吃饭,不会出去旅游拎着电脑拍照。手机出来以后,摄像头变成了人的第三只眼睛,我们在微信上发得最多的就是照片或者是视频。一图胜千言,这时候产生了大量的数据,这些数据要分析,所以有刚需,这是第一点。

第二,产生了大量的数据。这个量起来了,有手提电脑的人,1万多块钱一台还是很少的,但是红米手机一出来,500块钱一台,一个农民兄弟有两个。不到1亿的用户一下子变成10亿、20亿的用户。数据体量出来了,也是产生了训练数据的激烈竞争。

第三,硬件的训练平台。原来我们用CPU、用超级计算机的时候,做人脸识别用了1000多个核,要跑两个月才能把一个算法跑出来。后来采用GPU,6台机器、10台机器,6个小时就跑出来了。所以,这给了实验室和小公司能力做这个事情。

有了前三样还是做不了,深度学习的框架允许我们做端到端的学习。

十几个人手设计的参数想解决全球的问题,设计各种各样的便捷条件,结果到现实中一用,没有一个条件是满足的,马上就不管用了。发表了大量的文章,一出来用不了。

深度学习用网络框架,允许我用几千个、几万个、几十亿个参数,干脆不用去理解,直接覆盖就好了。这个时候再推出来,就可以在一些单向的应用上超过人类。在单向的应用上超过人的操作,就是可以代替人类来做这个工作。所以说这几个原因加起来,实际上是取得突破的主要原因。

近期和远期人工智能在哪些领域是可以突破的呢?我觉得有三个方向用得比较多。一个是语音识别,这个相对成熟,也是第一个突破的。紧接着就是视觉,现在的主战场就是在视觉领域。我们先把听的能力解决了,第二个是看的能力。看的能力的场景是非常多的,这个是目前的主战场。第三个就是对自然语言的理解,是我们真正的大脑的功能。这件事情目前完全没有解决。关于视觉这个领域,回过头来我们讲到工业应用时再讲。

人工智能在自然语言领域的应用变得很热,很多公司推出对话机器人,包括国外的公司。但是实际上这是一件非常难的事情,因为要求的背景知识和各种条件非常多。比如说我讲一句话:上次你交给我的事情我给你办了。“上次”是哪一次?是昨天、前天,一个星期前、一个月前、一年前?不知道。这个“事情”是关于什么事情?这个也不知道。所有这些背景都要知道,才能理解这句话,这需要非常多的信息。或者我评价一下台上的人,今天有化学家,有物理学家,有生命科学家,有“赚钱学家”,其实我说的是企业家。你说你是做经济的,跟我太太一个行业的,我管你们都叫“忽悠学家”。你想想,对自然语言的理解,机器怎么能做得到?“忽悠”这个词,是我们“东北特产”,一般人是理解不了的。

要想真正理解我们这些对话是很难的。现在市面上的智能产品是什么呢?就是出门的时候找一些餐馆,问在哪儿看电影,诸如此类这些固定的场景。还有一些机器人,好像是能跟人很聪明地对话,实际上这些机器人,好多五点钟要下班的。我当时纳闷为什么要五点钟下班呢?因为后台有人在帮助解决问题,后台的人下班了。这是核心的点。

是不是中国人这么忽悠呢?其实不是的。我有一个学生在苹果公司工作,他有一段时间很核心的工作就是召集各个团队的人过来每周开会。这些人就是来回答反馈回来的最难的那些问题,问得最多的问题,需要他们给出一个标准答案,每次回答就是那个答案了。

所以实际上这个不是人工智能,是“人工智障”。我儿子对这个最喜欢,他拿了机器以后就骂,人家不理他,他就拿两台机器,让它俩对话。一直也没有骂起来,因为后台的人不骂。

我再讲一个长远的,人工智能到底可能不可能控制人类?这个事情讲的是最多的。

你听到的名人、网红讲的所有的事情,都是不可能的事情。这就够了,怎么说呢?我们做这个行业的人,在第一线做的时候很苦。过去几十年一直没有做出什么来,不好意思见人。我招生的时候说,到我们这个行业来,因为我们这个行业会持续很长时间,因为我们这个行业一辈子都做不出来。我们每年的成长速度是,前一年1%的成长,你算一下,22%到100%需要80年,这个活儿,我们是准备干80年的。深度学习一出来,我们真的是几年以内就干到了将近70%,识别率是95%以上。

如果有一天我们这个领域的大佬从实验室出来了,说我解决了机器人控制人类这件事情,我觉得只能说明一件事情,就是他该退休了,因为他太老了,这是绝对不可能的事情。一个是不要相信权威,权威说的话不一定是这个领域的权威。当然我的话是可以信的,因为我也不是一个权威。

钱颖一:今天你说的最权威的一句话是:不要相信权威,但是你不是权威,所以你的话是可以信的。你来评价一下现在AI领域的投资,热得不得了,你来评价,因为你是这里面的专家。AI的技术水平,咱们国家的这么多的研究团队,他们的研究水平跟世界其他的国家相比,现在是处在一种什么样的状况呢?原来是否法国人比较厉害呢?现在是不是还是美国的技术最好呢?

汤晓鸥:这个今天讲不完,我简单讲一下。现在国家的规划是,到2035年赶上世界先进水平,大概是18年以后。核心研究,比如深度学习算法,真正的最早做的一批人,实际上确实是没有我们什么事儿。2006—2011年很多人做了很多的工作,他们在学术界受到了很大的打压。他们的前期研究没有跟传统的算法结合,不懂视觉,不懂语音,拿深度学习的理论去拼,拼不过。所以说,实际上他们是蛮痛苦的。但他们坚持下来了,2011年跟微软合作,微软懂语音以及深度学习,又有大量的数据,双方一结合,就真正做起来了,2012年开始发展起来,谷歌、脸书就把他们给收到公司里了,这一下子就发展起来了。

中国人在里面其实没有起到什么作用。在2011年的时候,很幸运,我在微软研究院管过那个视觉组,有很多的合作,所以我第一时间听到了“深度学习”这个事情时,我们就压上了。现在学术界有一个特点,越“大佬”的学校越是不愿意转向,如果我做传统的,你让我做深度学习,我就承认我输给深度学习了。但是我们转得很快,我们在传统领域做得相当好,体量又大。转向以后,在前三届的学术会议上,总共有29篇文章涉及深度学习的研究,我们一个实验室做了 14 篇文章,将近占了全球研究的一半。在2014年人脸识别技术上,我们的技术是第一个超过人类眼睛功能的,后来跟谷歌竞争,取得了很好的成绩。我们开始做新的、实际的算法,18个专项技术,我们都是全球第一个做的。我们在起跑线上没有输,一直是领先的。但是基础研究领域,没有我们什么事儿。

再往下走,我们拥有大量的数据,这个数据肯定比美国大,我们的人口就是美国的五六倍,我们有很多的应用场景,我就不说了。

从国家的相关法律方面讲,其实是没有那么严格的。在限制方面,不像美国的法律制度很严,中国的这个领域现在是一个灰色地带。所以我相信中国是有很多优势的,应该是不会太落后的,所以我还是很看好中国的人工智能的发展的。

左起:钱颖一、克比尔卡、马化腾、张首晟、饶毅、汤晓鸥

科学家创业

钱颖一:请问汤教授,你联合成立了商汤科技,目前被投资界非常看好,我想你的被看好肯定不是忽悠,大家确实是觉得你的公司很有价值。你刚才说了很多,是站在科学家的角度,对AI做了评论。下面转换角度,你作为这个公司的创始人,这时候看问题的角度就不同了。人工智能有很多应用的领域,作为公司要有市场价值和实现的目标。在你看来,人工智能在近期或者是5年这样的一个时间段内,哪些领域会有非常大的或是真实的市场价值?

汤晓鸥刚才提到,克比尔卡教授2002年成立了公司,我在2002 年左右也成立了一家公司,叫美图,我们做人脸识别、摄像头、VR,做了一年就关掉了。我发现技术也不够,人才也不够,我没有办法再做科研了,觉得这个是不可能做的事情。在中国做原创要先做积累,再出来做公司。

2011年左右我开始再准备,那时候人也够了,100多个博士已经培养完,我有准备。你知道我太太的脾气,她坚决反对,她说不,就不。我在犹豫,成立一家公司非常难,但是不做,真的是很难再积累这么强的100多人了。最后她的一句话提醒了我,她说:以你的情商和智商,公司做一年就倒闭了,上次就是。我一想,这下子可以做了,大不了就一年倒闭。

钱颖一:你太太是经济学家。

汤晓鸥人家说这是痛并快乐着,我觉得只有痛,没有快乐。在国外创业,成功的概率非常小,在中国再缩小十倍,概率非常小。前面有谷歌、Facebook、微软这些大的公司,后面有一些中国的小公司,旁边还有政府的定向支持,上面还有两座大山,两座姓马的大山。今天政府也不在这儿,谷歌也不在这儿,“大山”中的一座在这儿。

中国三分天下的局面已定,很难有机会让一个企业再成长起来了,不管是做科技还是什么行业,这个压力很大。大家很早就要站队。在国外是没有这样的现象的,跟谷歌做什么事,就不能跟微软做事了,没有这样的道理。但是在中国基本上是这样的局面。这件事回头请马先生再讲。

从我们的角度来说,我们很愿意跟这几家公司合作,虽然我们做学术的很有骨气,大丈夫不为五斗米折腰,但是如果是六斗呢?比五斗多一斗。刚才说的一句话很重要,其实不存在一个独立的AI行业,AI行业一定要跟场景和各个应用行业对接,跟互联网是一样的,如果只有互联网,只连起来,什么事也不干,就剩玩儿了,也不行。这其实是一个赋能的产业,可以把各个行业的效率提高,就像谷歌,其实谷歌做无人驾驶,做AlphaGo,不是靠这个赚钱,是深度算法把搜索的效率提高了30%、50%,每一个点就意味着几个亿、几十个亿的产出。无人驾驶一开始看前景很好,现在已经分离出来了,基本上也不可能成为下一代的一个产业,就是做着玩儿。

真的是要跟各行各业结合才有发展,这个是非常非常重要的。你如果问我说哪些行业是重要的,短期是哪些,长期是哪些,对我们来说,第一步是要活下来,所以我们不能挑那些高大上的事情来做。第一步先做安防,因为安防方面,国家花的钱最多,安防非常重要,钱都花在那里。我们要做是因为要活下来,首先要赚钱。然后是手机,手机应用有很多的需求,视觉、图像等。我们跟高通,跟各个手机厂商包括三星,都做一些合作,这个是直接落地的,签的都是大的合作订单。第三个就是中国特色的“直播”,网上直播其实需要很多很多的视觉技术,不管是广告植入,还是做各种特效,现在很多直播的App,其实最初都是我们提供的后面的核心技术。现在我们也在往前走,也在跟一些合作伙伴做这些事情。这几个是可以直接见效的。也包括金融,我们跟银行、跟P2P公司合作,中期或者是长期,金融肯定是发展的一个领域,用户是外表的,核心的是大数据运算,提高效率,或者是智能投资顾问这些方面。

靠算法赚钱的投资,这个行业已经存在很久了,但是一个算法管用了,大家都用,就跟没用一样。紧接着是深度学习,谁先用谁先赚一把。还可以做其他的事情,比如说做保险,可以远程定损,可以帮助他们定点地给客户打电话,提高效率。自动驾驶、芯片、医疗这几个领域,5—10年内AI肯定是有很大的应用。

刚才讲了人工智能替代什么样的职业,实际上就是顶替那些带“老”字的职业,就是老司机、老医生,需要积累很多很多经验的。

钱颖一:包括老教授吗?

汤晓鸥:不包括人工智能的老教授,因为总要有人教他们。神经学领域你也放心,咱们两个肯定是没有问题,物理学领域我就不管了。为什么说这三个领域一定是可以做的呢?因为大数据的积累。但是真正落地的时候,其实是要脚踏实地来做这个事情,是要真正从原创技术开始做。

在中国有一个特点,就是大家喜欢一拥而上。现在很多人会问我,说汤老师,为什么现在有这么多的企业支持做芯片,做医疗和自动驾驶?为什么这三类企业这么多?我说这三类企业5—7年之内是不会赚钱的,但是投资人不会说你怎么还不赚钱,所以怎么忽悠都行。这个行业“忽悠”是最多的,好多人拿给我看,全人工智能芯片,让我们调研一下。我就问:你这个全人工智能芯片怎么弄的?芯片是大企业做的,你怎么把这个事做了呢?他说先把钱拿到了再找人。这个是完全不靠谱的东西,但是已经融资了。踏踏实实地做,其实是有很多事情可以做的。自动驾驶领域有30多项技术,真的是要好好做。我们队伍里一半的人在做自动驾驶,因为这个门槛是最高的。

芯片不能自己做,一定要跟大的芯片厂商合作。汽车也是一样的,一定要跟汽车厂商合作,OEM厂商来做,它们是有百年的经验,你只是作为其中“大脑”的一部分。医疗领域就更不用说了,牵涉各行各业,还牵涉法律方面的事情。医疗事故是怎么出的,我也不清楚。

后面的事情是特别多的。所以这个真的是需要从很高的层面,或者是通过大的公司来做这些事情。小公司大量融资,最后几百家公司“百花齐放”,结果就会很乱。

经常有人问我:汤教授,我一直不明白,我们公司的人跟我讲,自己也做人脸识别,也做图像识别,准确率跟你们也不相上下,你们到底有什么不同?我就回答说:我们写了第九交响乐,他们会演奏第九交响乐。如果你想听第十交响乐、第十一交响乐、第十二交响乐,我们可以谈。

(本文节选自钱颖一著《钱颖一对话录:有关创意、创新、创业的全球对话》)

《钱颖一对话录:有关创意、创新、创业的全球对话》

钱颖一 著

ISBN:978-7-100-18650-6

商务印书馆

2021年3月第1版,2023年11月第3次印刷


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1