当前位置:首页|资讯|AI大模型

百应科技吴凯:解读AI大模型如何重构“AI基建”范式

作者:百应发布时间:2023-06-01

原标题:百应科技吴凯:解读AI大模型如何重构“AI基建”范式

AI、大数据、物联网、云计算等数字技术正在以前所未有的速度塑造世界经济,产业数智化成为当下人们讨论的话题中心。当下,我们相信,这一拥抱数字生产力的热情在2023年并不会消退,反而会愈演愈烈。而在2023年,产业数字化又会落到何处?又是否会有新兴数字技术的出现?

现状、挑战、路径、趋势、未来......我们关注科技产业化的真实,为了进一步推动科技产业走向数智化,在技术与产业的融合中寻找规律,朋湖特推出“一期一会 观势论策”系列分享会线上直播活动,直播自2023年2月起每月一期,拟邀专家学者、科技企业创始人及高层、投资机构、国家相关机构、行业协会代表等产业各方嘉宾于线上聚首,以“对话”的方式,聚焦当期主题展开深入探讨,多视角、多立场为科技产业前行者探索远行方向。

在于5月18日举办的第四期中,朋湖聚焦“AI大模型”这一主题,邀请了竹间智能总裁兼首席运营官孙彬、澜码科技CEO周健及百应科技首席算法专家吴凯,针对在ChatGPT再一次引爆AI行业,大模型掀起一波又一波数字化浪潮之际,解读AI大模型如何重构“AI基建”范式,并针对AI大模型时代下所面临的挑战和机遇展开全局性、创新性、前瞻性的探讨,朋湖创始人周元生做对话主持

以下为对话实录(经朋湖网整理删减):

周元生:首先有请三位嘉宾简单地介绍一下自己。

吴凯:大家好,我是来自百应科技的吴凯,我们百应主要是在对话式AI领域做智能用户运营,助力政府机构及头部企业能够更有效地连接用户,形成长期信任、创造价值。主要有AI+营销与AI+服务两个方向,今天非常开心在这里有机会与大家一同分享关于大模型的一些想法。

周健:大家好,我是澜码科技的周健,澜码科技主要的方向是基于大语言模型构建自动化平台,同时也赋能各个软件厂商转型,在已有的软件之上构建对话框,再把大语言模型的能力赋能给它,使得其更好地理解用户需求,并且把它拆解为对不同API的调用。今天很高兴有机会跟大家分享。

孙彬:我们竹间智能的团队一直是在专注NLP赛道上的专业团队,在过去的七八年中,我们一直致力于让NLP技术在To B产业中落地,我们的目标是通过使用大语言模型及各种模型的产业应用落地后增加大家的创造能力,提高效率,让AI产业真正落地。

01新一轮AI浪潮涌至

周元生:请各位分别谈一谈,ChatGPT出来之际,您最大的感受是什么?

孙彬:作为这个赛道的从业团队,我们在此之前就已经在使用各种各样的模型,在ChatGPT经验产业后,对我们而言有两个特别大的反应。一方面是兴奋,因为过去这个赛道,大家其实都比较焦虑,希望产业能够发展再上一层,现在看到大语言模型的优势后,其实对整个赛道而言是一个非常大的帮助,许多瓶颈问题被解决了,我们看到了产业的突破点。

另一方面,坦诚来讲是感受到了巨大的压力,因为我们之前花了七八年的时间在产业模型中间花了巨大的精力去完成准确率的问题、解决工程的问题等,但现在大语言模型在它这种暴力美学的方式中,它其实可以把很多我们现在的工作基本上都可以覆盖掉,虽然他现在还不能够去做太多私有化的部署,但是在能力上来,做的绝对很好,所以这样的话,对我们这些从业者来讲,七八年的心血投入被技术很快地能够迭代的话,其实是压力倍增的。换句话讲,从业者如果不能够在大语言模型中间去驾驭大模型的话,那可能就会被淘汰,所以现在应该如何去用好大语言模型,对当下团队来讲是一个最关键的事情。

周健:如果用一个词来描述的话,我觉得应该算是波澜壮阔。澜码科技中“澜码”的阐释也就是波澜壮阔的代码,怎么去理解呢?大语言模型带来了一个极大的变革,我们内部的共识是它开启了第四次工业革命。今天虽然澜码只是一个创业公司,但因为有了大语言模型,我们相当于有了一个300多人的NLP团队,同时能够以较低的成本获得极大的效率提升,所以,对我们这样的创业公司而言,今天也是一个前所未有的创业机会,当然也会把整个社会都“卷”起来。

吴凯:ChatGPT出来后,我的心情是起起伏伏的,因为我本人是做算法出身,最近的五年,都聚焦在对话式AI这个产品形态上,反反复复的去打磨。而ChatGPT是GPT3.5大模型在对话上的一个应用产品,对我们正在做的一些对话式产品就有直接的冲击。所以我们感到非常兴奋,第一时间我们去使用它、了解它、学习它,但在了解到它的成本后,觉得这个事情其实有一个巨大的门槛,对于算法而言,其实会稍微有些失落,因为无法入场。然后今年4月份开始,我们看到开源大模型的涌现,我们又开始兴奋起来,因为这是我们的机会点所在,伴随着微调的技术越来越成熟,利用行业大模型去做指令微调,在解决我们具体的一些实际的场景问题中有可能用更低的成本产生比之前模型方案更大的效果。

周元生:大模型时代会给创业者带来怎样的变化?同时,大模型这样的新工具,会给企业数字化转型带来哪些变革转机?

周健:我从几个维度讲一下,因为大模型本身运用了大量的数据,所以它一是具备通用的NLP能力,其次是有一定的复杂逻辑推理的能力。因此在此背景下所有的软件开发都会进行一个很大的范式改变,原来觉得没有办法实现的事情,现在都能做了,这是很大的变化,从这个角度来讲,确实也给企业减少了一些成本的投入。

孙彬:其实,确实带火了几个层面,第一、在To B行业的客户群体中,从来没有这么高度关注过技术赛道,这应该是这么多年来技术被关注的最高点、最热点,客户对ChatGPT及其他大模型这些底层技术的高度关注,是对行业来说一个巨大的变化;

第二、对于行业从业者而言,我们在做的NLP技术也是比较底层的技术,上面还有中间层和应用,这次ChatGPT把底层技术推到风口浪尖,让大家知道大模型的边界在哪里,产品的应用会在哪里,所以对AI产业中的每个细分赛道而言都是一个极大的业务促进;

第三、产业中间的格局会发生变化,我们现在有很多大模型上它以能力的方式对外输出,所以就会有很多创业的公司,就像刚才周总说的,可能300人的公司也是在大模型的能力上面来做能力的应用的突破,那可能35个人的公司也可以借助大模型在做某些细分领域的能力应用,所以在创业领域重点和竞争势态上面,我觉得ChatGPT又拉齐了一个起跑线,让大家能够在同一个技术底座上快速去创新。

最后,我想说,大语言模型本身带动了一个极大的产业范式转变,在今天,人和大语言模型可以对话代表的就是人和机器可以去完成对话,那就也就代表以前我们语义理解中的难点,就是说去理解人的意思,人和机器对话的理解这一瓶颈的问题被极大的解决了,所以这样就会带来很多产业范式的变化,不管是C端的应用也好,还是B端的应用的变化可能都以语言驱动的方式或者互动的方式来改变,所以这个对产业的影响意义是非常大的。

吴凯:我从技术的视角做一些补充,ChatGPT带来了一些新的技术范式转变。我们以前做业务的时候,碰到一个具体的小问题,就需要去训练一个模型,而且很多的模型底层框架还不一样,解决问题的方式也不一样,系统里面集成了许许多多个小模型,导致系统负责性非常高,而小模型的构建和迭代成本也很巨大。而ChatGPT带来了一个新的技术范式,就是我用一个通用的大模型,再加指令微调,然后用指令工程的方式用一个统一大模型去具体解决一个个的业务问题。

此外,对整个模型的产能而言,都能得到一个极大的释放,因为大家都知道,大模型的话,它其实是用一个极高的压缩比,把世界上的知识都压进了一个百亿、千亿的模型参数里,所以我们再去做模型应用的时候,只需要去标注很少的数据,就可以达到之前大量数据的效果。另外,现在大模型的话,哪怕你去做预训练,它的成本也在快速的下降,现在开源的生态其实也冲击了一些大厂的先发优势。

总体而言,我们在解决一个具体的实际问题的时候,就可以不去追求那么大的参数量,它对我们工程化的成本有很大的降低,这样,大模型赋能的一些应用场景也会越来越丰富。

周元生:这一波大模型的热度对NLP的从业人员和科研人员有何影响?

孙彬: 对NLP的从业者的影响,我认为是巨大的,大模型的突破应该是一个划时代的意义。在NLP赛道中间,产生了前所未有的热度,我们讨论下来,可能通用的大预言模型会有一些边界问题或者一些可控性问题,还会存在专业模型的问题,其次模型训练会极大加速,原来可能大家关注度小、投入度低,但在这个加速后,产业的实现性可能会很快的达成,所以作为从业者来讲,第一点我们得谨慎,要充分学习,因为淘汰会加快,第二点是我们的客户方和我们行业方期望会更高,会对落地更有高期望,高期望的背后是高压力,对从业者而言,机会和危机并存,所以要拼命学习奔跑,然后拿出我们过去产业落地的经验,快速的上手,给客户带来一个最佳实践的方式。

吴凯:对NLP的从业者人员和科研人员而言,会有比较大的不同,因为本身两个方向的模式、路径都会不大一样。首先对于NLP的从业者来说,在工业界,通用大模型通常来说是难以企及、难以进入的,而当下随之而来的是行业级大模型,其实是一个非常好的创业的机会点。

对于从事NLP的科研人员而言,可以说ChatGPT加速了通往通用人工智能的路径,确实让大家看到了曙光,但是,ChatGPT其实也是很多条路线里面走出来的成功路径之一,还有没有其他的一些路径,我认为是有的,所以ChatGPT的成功会激发科研人员的研究热情,去思考探索更多的路径,进而带给行业更多的可能性。

周健:我更多从甲方的视角去看,一开始我也会觉得NLP算法的工程师就要失业了,但后来在我的实践过程当中,我发现不是的,我们其实还是缺懂NLP的人,所以对于NLP的从业者来讲,既是巨大的挑战,也是巨大的机会。在此之下,需要调整发展,保证自身的价值。

周元生:在当下ChatGPT高速发展的形式下,基层开发者要如何调整发展才能保持住自身价值?

孙彬:会用新AI技术的人会淘汰不会用最新技术的人,这就是一个最基本的建议。其次,所有的从业者要理解一个现象,我称之为“计算机现象”,计算机出来了后,其实的确是替代以前很多的打字设备,现在今天大家所有人都会去用计算机去工作,那我们展望未来,未来所有人以后都会用AI的工具,包括大语言模型去做它的相关的工作,所以我们的代码人员一定会用大语言模型去帮助他去校验代码、编写代码等,往这大方向走肯定不会错。

吴凯:因为我本身也是一线开发同学出身,可能会有三个小建议,第一个就是深度使用,一定要拥抱大模型,深度去使用后,它不仅可以提升自己的效率,同时也可以拓展自己的视野。第二个是建议大家可以有一个玩家心态,下场玩起来,其实大模型的门槛可能没有想象中那么高,它可以在具体的工作上做一些赋能,下场玩起来其实就会有无限的可能。第三个是快速学习,深度使用以后还是会有许许多多“最后一公里”的问题摆在面前,那这个时候就需要快速学习,然后去解决这些问题。

周健:从基层程序员来讲,相当于是出现了一个新一代的编程语言,是一种全新的方式,大家应该尽快去适应这一方式,可能越早拥抱它,越早变成新一代的程序员,就相当于拿到了进入新时代的“船票”。

02落地!如何探索?

周元生:做大模型需要怎样的“入场券”?请各位分享一下各自的看法。

孙彬: 其实现在各家公司都在尝试,不管是使用它也好,训练它也好,大家都在研究,站在我们自己在做模型团队的视角来看,我认为需要以下几大条件:第一、要有足够好的工程师,大语言模型在我们看来是技术和工程的一个完美结合,所以要足够好的工程师能够驾驭它;第二、从训练的过程中间中,我们经常能看到好的语料能够产生正向极大的效果,不好的语料可能会造成训练的走偏,所以足够好的语料或者是专业的语料其实对训练模型是会有很大的帮助;第三、要有足够好的工程能力,即控制工程能力,这个都是我觉得是必要的条件,在国内我认为算力是可以获得的,只是费用的高低与否,只有足够的工程能力,足够的算力,才能够让团队拥有去玩转大模型的条件。

此外,最关键的是如何用大模型,因为任何的商业本质都是落地,能够被使用的,今天大模型不管是用在C端还是为B端做服务,产业中间如何把大语言模型进行产业落地是最为重要的,否则就变成了练模型,不能只是为了练而练,为了技术突破而突破,它不产生经济的回报性是不行的,所以从中长期来讲,我觉得技术突破一定要能带来产业的变化,以上是我认为的“入场券”。

周健:我和孙总的观点差不多,关键的基本上就是数据、算法、工程和最重要的需求侧,从我的角度来看,我认为工程这一侧其实还是挺难的一件事情,就像是“炼钢炉”,怎么样去搭出炼钢炉来,让它到达足够高的温度是非常难的事情。我以前也搭过大规模的计算系统,一方面硬件的参数选择其实也是一个很难的事情,今天也有很多新的硬件,如何组合完全是一个工程问题。所以,工程能力至关重要。

吴凯:大模型的话,在我这里的话可能会拆解成三种,第一种是通用大模型、第二种是行业大模型,第三种是业务大模型,大概定义的话就是通用大模型,通常参数量在一千亿以上,然后行业大模型的话,它体量应该在100亿参数以内,就是10到100亿之间。然后业务大模型,其实应用大模型的in-context learning能力、指令学习能力,压缩到大概一亿参数量左右,实际解决某个业务问题,这种是可以工程化快速落地的模型。

针对这三种大模型,它的“入场券”也会不太一样,对于通用大模型而言,算力和海量的数据是一个比较大的门槛;其次,行业大模型的话,高质量的行业数据带来的挑战会比算力更大些,对通用大模型用高质量行业数据进行微调去fine-tuning行业模型;最后,有一些业务模型是在行业模型的基础上针对具体业务进行微调,并且压缩到一亿以内的参数量去做部署。总体来看,大部分的机会都在行业大模型及业务大模型的应用场景当中。

周元生:大模型竞争关键要素是什么?AI大模型需要怎样的数据?

孙彬:从业务口来看,今天通用大语言模型用了太多的互联网数据,所以,它其实并不是一个完美的“问答”模型,而只是“对话”模型。换句话讲,它的核心目标是为了让对话更加顺畅,所以它会有妥协,但是,今天我们在To B的服务过程中间,大家把它用在了很多场景当中,是用在标准的问答上面,尤其是在一些知识问答、企业的问答当中,这个数据数据准确性要求是极高的。

像在金融机构、政府政务服务当中,它的这些答案是要有公信力的,要有准确度的,所以其实这个大语言模型,我们在真正产业落地的时候,我觉得要分场景来使用,如果用在对话场景,表达情绪对话,或者游戏对话当中,那么我觉得在这个准确率上来说是可以妥协的,它的目标其实是让对话完成,能够让意图表达,但是如果在很明确的行业问答中,那么我们就应该考虑如何将数据准确地表达,可能我们就是需要更准确的数据来训练模型,或者是用模型来调用已经准备好的知识库里的答案数据,那么大语言模型承担的角色,它就不再是深层答案,而是说是理解客户的需求,然后获取答案。

所以今天在大语言模型的挖掘数据过程中间,我觉得通用大模型会发挥它的通用理解力和对话的继承性,如果在专业领域中间,就应该去追求答案的准确度,那如果大语言模型本身的边界数据受一些影响的话,我们就要用工程的方式去解决它,比如预先设好标准的问题,所以我认为真要落地的话,其实是大语言模型加上行业或者企业数据,再配上我们工程师比较好的控制方式,这样的一个组合的工程能力才是我们的解法。

周健:从我的视角来看,我可能比较相信的是仿真,就是说未来生命一定会用新的结构。我觉得下一个阶段难点是大语言模型本身它更像是大脑当中的语言模块,基本上可能它就已经到达一个极限了。今天应该是仿真仿生的大脑能够去补充很多其他架构,最简单的一个例子,记忆模块,现在大语言模型因为架构的原因,它更多的是抽象概率,是一个统计以上的事情,所以怎么样用一个过去的数据库结合起来,能够去和大语言模型结合起来,(是需要思考的)。澜码科技是想要让每个人都能用上自己的智能助手,那么,它怎么样能够在基础世界的知识之上,能够适应个体需要,这个是考虑的。

吴凯:我再做一些细节的稍微补充,沿用我自己刚才说过的描述,就是我们要分清行业大模型和通用大模型所需要数据的差异。因为我们都知道GPT其实是分三个阶段训练出来的模型。第一个阶段的话,它其实需要是海量的数据,就互联网上所有的数据,进行无监督的训练。第二个阶段,它通过一个Q&A的指令训练数据集进行。第三个阶段,针对同一个问题生成若干的Q&A进行排序标注,训练一个奖励模型。如果回到行业大模型来说,它是基于通用大模型的指令微调,通过指令的方式去构建数据集的结构其实是非常丰富的,就是说,我可以QA对的方式去做,也可以添加多轮对话的方式,甚至可以把对话和抽取的信息加进去一起做,所以它出来的效果和目的其实和跟应用场景是高度相关联的,这个是行业大模型的特点。

03浪潮中的“风波”与未来

周元生:在将大模型技术应用到业务中是否遇到一些问题与挑战?

孙彬:我们的确是已经开始在春节前后就将大模型运用在我们的产品中间,给到我们过去的三四百家头部的行业企业在使用了,那么大家普遍反映过来有这么几点注意事项,我觉得是我们从业者要面对的。

首先,就是大语言模型的安全性,因为大部分还是还是以云端调用为主,所以对一些企业尤其是数据相关的企业,如何能够保证数据安全至关重要,所以很多企业,他们可能会考虑更多的是私有化部署的模型,这是一个挑战。第二点,使用大语言模型的过程中间,和客户的使用场景中间会有一个可用性的冲突矛盾,就是客户可能很多是在以问答的方式在提供服务的,那么问答的方式,它是需要准确的数据,在大语言模型中,它在没有知识的时候,它会按照自己的原来的生成模式去生成数据,这数据也有可能是不对的,甚至可能是错的,所以如何在这个上面来说进行控制,其实也是需要考虑到的过程,比如说用原来的知识配上大语言模型来做工程调配,数据的准确度这也是目前的一大挑战。第三、大语言模型在产业中间可落地的场景还不够丰富。

吴凯:刚刚孙总提到的在实际过程中碰到的问题,我们确实都碰到过,所以可能这观点会有比较大的重合。首先,大模型它的通用接口确实在做一些应用开发的时候涉及到一些数据数据出库,并且是出境的一些问题,因为现在GPT3.5和GPT4.0提供的底层模型和它的API效果确实很好,但是实际情况更多的是只能去做一些内部赋能的工具,去做应用落地的话,涉及到数据安全的问题是没法规避的,所以就会有一个比较大的行业大模型的诉求,行业大模型需要去做个性化的定制,可以去做私有化的部署。

其次,在具体的解决“最后一公里”问题的时候,因为大模型它本质上还是预测下一个词的概念,所以它会编造会创作,那其实业务上通常又需要的是一个非常确定、准确的甚至要有一个完整的证据链的回复,面对这样的问题,大模型目前来说是比较难解的,所以我们通常采用的方式是大模型加本地知识库的方式。

周健:从产品的视角去看,当年,我在上上一家公司的时候做人脸识别,人脸识别从2013年不能实现,到现在普遍可用,其实不同的人脸闸机、人脸门禁、人脸搜索等对人脸识别的定义是完全不一样的,怎么样有一套话术去定义产品,今天其实也是一样的。我们用上了大语言模型,我们第一个标杆客户是一家头部的办公自动化软件公司,在表格后面,我们能帮它去调用各种各样的API。今天其实有很多生成式AI,让他去生成邮件、PPT,大家可能看一眼没问题,但是问题是你怎么教会用户说什么时候他应该用这个产品,这件事情我觉得很有挑战性。

周元生:未来,大模型何去何从?发展趋势会走向何方?

吴凯:我可能会觉得大模型会带来极大的一个增长,可以设想一下,可能以后每个人都会有一个数字分身,即一个AI分身,他可以帮你完成工作,而你随时随地可以去拥抱诗和远方,这个其实是类似于通用人工智能来的一种可能性,我相信,大家都会对这个事情抱有极大的一个热情和开放的态度。当然,目前来说确实还有很大的距离。

当下闭源生态与开源生态彼此之间也在追赶,看谁能成为一个比较主流的方式,其实现在并不是看得很清楚,因为对于大模型的底层技术框架相对来说,开源也好,闭源也罢,OpenAI也好,谷歌也罢,其实它底层相对来说是比较共通的,核心的差异点是在高质量的数据上面,而且现在整个开源生态对大厂的先发优势带来了冲击,所以未来基于开源的生态,其实会产生出很多很多的变种,也会演现出来非常丰富的应用场景和行业大模型、业务场景的大模型等,形成一个非常健康的生态链。整体来说,现在其实离通用人工智能还很远,但是相信这条路一定是可以达到的,所以现在需要大家积极去拥抱大模型的趋势,众人拾柴火焰高,然后去贡献大家的能力和智慧,推动通用人工智能时代的到来。

周健:我的观点比较类似。今天GPT打开了一个可能性,就是我们未来的智能就像当年英特尔遵循的“摩尔定律”,软件的交互会从图形时代进入自然语言交互的时代,这会造成大量的重构,我们期待这一天的到来。

孙彬:认为大语言模型会改变我们目前的软件范式,大语言模型会把APP通过对话的方式进行改写,APP之间的壁垒方式会打破,将以能力的方式或插件的方式和这个大语言模型整合在一起。

所以大家以后会有更多的助手做这件事,C端如此,B端其实也会有大的改变,B端过去我们叫数字化,就是把设备联网起来,管理起来叫数字化的第一阶段,那么第二阶段,其实我们看到ERP起来之后,很多的业务流程、财务系统,其实是利用起来了,今天带来的大语言模型就可以帮我们把数字化智能化大幅推进,就换句话讲,以后企业中间的不管是行政管理、HR相关的还是企业的问询管理工作都可以用对话机器人知识库的方式沉淀,以数字员工的方式去工作,这应该是企业数字化转型的第三个阶段。今天从这个阶段来讲,我们应该是庆幸自己是从业者,我们有这个兴奋度,但同样我们也感受到压力,因为不断的新技术在迭代,所以我想说跟所有的从业者们共勉,要让新技术快速地在国内土壤中生长,和大家一起共建科技时代。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1