“根据现在的反馈,任务性能测试上,包括ChatGPT在内,没有一个大模型能够全部达标。”这基本上是业内对雨后春笋般不断涌现的人工智能大模型的共识。
ChatGPT推出后,基于大语言模型技术的同类型产品还在加快涌现。进入4月以来,从互联网大厂,到A股上市公司,以及一众创业公司,再加上高校科研院校,都先后发布各自的大模型,总数已经超过30家。
短短数月,多个模型竞相涌现,各家模型实力究竟如何?国内大模型是否过剩了?行业终局,究竟是百花齐放,还是赢家通吃?在这场技术变革的讨论声中,大模型带来的新能力里,哪些是最为关键的,最有可能带来长期影响的?
▍AI大模型如雨后春笋 任务性能测试还未有“满分答卷”
据民生证券的统计,国内已有超30个大模型亮相,行业俨然一副“百模大战”的场景。
根据《科创板日报》记者约访的人工智能行业人士反馈来看,业内目前还没有就具体模型给出直接的评判定论,但他们提供了一些维度,供外界做参考。
思必驰联合创始人兼首席科学家、上海交通大学教授俞凯在接受《科创板日报》记者采访时表示,一个必须要承认的事实是,现在的大模型,只有ChatGPT通过了通用性测试(用户破亿),国内大模型与之对比,均还存在差距。
俞凯告诉记者,衡量一个大模型实力,第一是可以基于任务的性能测试,即通过定义任务集的方式,去比较所有大模型在每个任务上面的完成度。这种性能测试与人类能力对齐,包括理解能力、推理能力、判断能力等。根据现在的反馈,任务性能测试上,包括ChatGPT在内,没有一个大模型能够全部达标。
第二,从安全性角度去判断,这一点更多的体现为大模型与人类价值观的耦合程度。
第三,是模型运行角度,从工程特性去判断。“这是一个特别重要的能力。”俞凯强调,如该大模型能够接收多大的文本、回答反应的速度、运行的性能等。
俞凯所言,侧重于技术指标。当然,也有从资源禀赋层面作出判断的。
大模型领域资深行业人士王钧(化名)则告诉记者,做大模型对团队要求非常高,资金、技术、工程、产品、商业化等多个方面都不能有短板,最终考验的是:核心成员对大方向、大节奏有没有真正想清楚,能不能获取足够多的资源和支持,能否吸引各方面的关键人才加盟,吸引了一群不同背景的牛人之后,能不能磨合好。
“其中最稀缺的是核心算法研究和平台工程的技术人才,这方面整个华人圈子人数都不多。”王钧强调。
人才之争,这在大模型市场的起势阶段已有十分鲜明的写照。
“先发制人”的百度,派出的掌舵者是CTO王海峰,创业者团队中,澜舟科技的周明,衔远科技的周伯文等,他们在人工智能行业的影响力已经无需多言。此前,高调官宣人工智能创业的王慧文,入局的第一步就是在其个人社交媒体平台发英雄帖,重金(新公司75%的股份)招聘顶级研发人才。
“判断做得好不好的标准,不能看各公司自己的宣传,一些业界公认的评测基准当然也可以作为参考,但最重要的还是用户的认可,用户尤其是高频或者付费用户最多的才是最好的。”王钧称。
▍逼近了AGI核心 产业应用“泛化性”才是关键
囿于各种商业原因,对于各公司大模型实际的数据、测试反馈指标、投入的资源情况,乃至用户数据等,外界很难全然知晓,那么对其实力情况,也很难去做全然科学的判断。
但记者注意到,受访者们均提到了一个显性的评测角度,那就是“用户反馈”,如回答的反应速度、准确性、可用性、上下文连贯逻辑等。这也是为何,每逢一个大模型新品推出,用户第一时间会去关注回答是否会“翻车”。
就国内当下几个代表性大模型,《科创板日报》记者此前均有过实际体验,结合多位用户的使用反馈,目前大模型整体呈现如下特征:
ChatGPT-4是一个多模态大型语言模型,支持图像和文本输入,以文本形式输出,在“模拟人类”的文本输出方面,以及用户规模上,综合实力领先。
相比之下,国内大模型种类多样,能力各有千秋,目前更注重探索产业应用,用于解决产业技术壁垒问题。
在中文语义方面,国内包括文心一言、千义通问等各模型理解能力有高有低,并未明显拉开距离。在对刁钻中文语句的理解方面,因国内大模型的训练数据主要来自中文语料库,相比于ChatGPT主要来自英文语料库,国产大模型因而会更胜一筹。
但也有个例。复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,其英文回答水平比中文高,原因在于,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,且相较中文数据,英文数据开源程度高。
另外,MOSS在设计时考虑了人类的伦理道德准则,不会产生有偏见或可能有害的回答,这在一定程度会避免一些潜在的法律风险和商业伦理问题。这一点上,ChatGPT则没有明确地处理。
大模型测评声仍在此起彼伏。但俞凯坦言,目前去评判各模型能力如何以及好坏,其实不是合适的时间点。
在他看来,现在已经面世的大模型,变革在于,基本都已实现思维链的涌现能力,逼近了AGI(通用人工智能)最核心的部分,业界现在更关注大模型是否有足够的“泛化性”,即广泛使用,但从产业角度而言,国内大模型的用户量级也还未达到泛在化。
“在未达到广泛的通用性之前,以通用性的标准去做评判,还是需要慎重。”俞凯强调。
▍大模型并未过剩 先发者未必就是"王者"
多个模型短期内同时涌向市场,也有观点提出,现在需要这么多大模型吗?换句话说,大模型现在过剩了吗?
行业普遍认为,尽管现在这么多大模型出现,但还远达不到过剩的程度。
王钧认为,大模型对厂商的技术、资金、实力要求,目前只能说现在的产品刚刚能够用得上。
俞凯表示,未来的行业AI应用范式将从一个通用模型变成一簇通用模型,大模型会分化,如按照领域区分,按功能区分,结合具体行业具体场景。现在来看,非常专业的精深大模型还没出来,这些会在今后不断涌现。
达观数据创始人兼CEO陈运文在接受《科创板日报》记者采访时也表示,大模型赛道目前国内是处于探索赶超阶段,技术本身也还不成熟,未来还有很大的成长空间,“就像现在的饮料品牌一样,如果拉长时间线来看,今天的大模型数量其实并不多。”
那么在未来,行业的终局,究竟是百花齐放,还是赢家通吃?
俞凯和陈运文均表示,未来将会是百花齐放的状态,原因就在于现在正处于起步阶段,未来大模型在每个行业里面生长出来的产品形态都会不一样,而面向不同的行业,也将会出现垂直行业的应用模型。
王钧则表示,大模型的高门槛决定了这是少数玩家才能做的事情,未来不会是百花齐放的姿态,但究竟会不会像搜索引擎一样一家独大,还是操作系统只有两三家的局面,亦或是云计算多家发展的格局,“现在没法判断,还是有些变量。”
多位资深业内人士告诉《科创板日报》记者,在人工智能大模型上,OpenAI只是暂时一个暂时领先的“先发者”,微软绑定OpenAI后确实取得了一定的竞争优势,但要看到谷歌、亚马逊、Meta等也正在奋起直追。未来到底哪家公司能够携AI大模型取得类似苹果今天一样的全球市场地位,目前还极难判断。先发者并不是最后王者的案例太多太多,以中国互联网发展为例,最先出发的是新浪、搜狐、网易,但后面真正切得大蛋糕的却是腾讯、阿里和字节等。
▍要更多地关注和深入思考AI的应用场景
无论是诧异ChatGPT的惊人表现,还是对“百模大战”的思考,今日种种关于大模型的讨论,本质无外乎这场技术革命给人类带来的机会和挑战。
但在网易有道CEO、计算机科学博士周枫看来,在这场技术风潮讨论中,还有一个问题没有被充分讨论,那就是大模型带来的新能力中,哪些是最为关键的,最有可能带来长期影响的。
周枫认为,与之前众多的自然语言处理技术相比,大语言模型至少具有三项根本性新能力:涌现能力、作为基座模型支持多元应用的能力、支持对话作为统一入口的能力。
周枫表示,涌现能力之所以重要,不仅因为它们是大模型出现后才有的新能力,而且由大模型涌现出来的,多数是非常重要的能力。例如,常识推理能力一直是AI领域的重大难题,而大模型的出现使得常识推理取得了重大进展。再比如,一旦‘推理‘能力涌现,“思维链提示”策略就可以用来解决多步推理的难题。“因此,涌现能力的出现,是大模型带来的一项根本性变化”。
在基座模型方面,周枫说到,大型模型不仅可以缩短每个具体应用的开发周期,减少所需人力投入,也可以基于大模型的推理、常识和写作能力,获得更好的应用效果。因此,大模型可以成为AI应用开发的大一统基座模型,这是一个一举多得、全新的范式,值得大力推广。
本轮让大语言模型真正火爆的契机,是基于对话聊天的ChatGPT。周枫表示,虽然之前的聊天机器人存在各种问题,但大型语言模型的出现再次让聊天机器人这种交互模式可以重新想像。未来或将涌现出很多类似的以对话形态让助手完成各种具体工作的项目。
“这三项能力在学术界已经被广泛讨论,甚至被视为常识,但是在产业界和产品团队中却缺乏足够的关注。”周枫称,“这些大模型技术的特点已经改变了我们对业务和产品规划的思考方式,也会改变很多产品的经济模型。因此,产品经理和业务负责人需要更多地关注和深入思考这些新能力的应用场景。”
俞凯也认为,在这场技术变革,除了技术层面的参数量级,资源层面的算法、算力、数据、人才资金等的讨论,更需要关注的是,除大语言模型之外,其他与人工智能体系相关的东西。
这些就包括对语言的理解,对对话式人工智能的理解,以及对多模态人工智能的理解等。这些不仅是单独算法的问题,还关涉业务,训练策略,以及对人工智能技术历程的理解。