GPT大模型带来的人工智能热没有降温的意思,各家都在展示在人工智能技术上的积累。而相比于海外在基础研究层面的创新,国内人工智能的发展总体上更偏重应用和落地。
机会有多大,焦虑就有多大。ChatGPT有多火,国内大厂和人工智能创业者就有多焦虑。
上周,OpenAI的多模态大模型GPT-4发布,ChatGPT迁移到GPT-4之后,一本正经胡说八道的情况明显减少,学习和进步速度之快,令人惊叹。与此同时,微软将GPT4的能力全面接入Office全家桶,打工人也能用大模型的能力,比如Word写论文、素材直接生成PPT、表格也不用再记公式,这些之前令人头疼的场景,现在都能用人工智能解决。
微软描绘的这一幕让国内网民兴奋不已的同时,大家不免都在疑惑,国内企业有没有类似可以比肩的人工智能技术?
很多国内互联网大厂都在面临类似的灵魂拷问。数智前线获悉,国内几家大型互联网公司和人工智能企业接到了客户密集的问询,了解ChatGPT和大模型相关的内容。尤其是行业龙头和大企业,都有一种焦虑:国内的大模型进展如何,技术是否跟得上,与业务有哪些契合点等等。
“过去,大家普遍认为,国内与海外在人工智能方面的进展,相差不大,但ChatGPT出来之后,大家有点措手不及。”一位互联网大厂人士告诉数智前线,大模型参数超过千亿之后,实现了质变,让人工智能初步具备了逻辑和推理能力。
ChatGPT带来的这种紧迫感无处不在。王慧文、李开复等人都亲自下场,组团队,搞人工智能项目。甚至连圈外的俞敏洪都说,企业家如果没玩过ChatGPT,没资格谈高科技发展。
事实上,尽管效果上与ChatGPT还有很大差距——即便是谷歌和Facebook等海外巨头,在大模型上的表现也不如OpenAI——但国内大厂在人工智能大模型上的布局早已经开始。包括阿里的M6大模型、百度的文心大模型、华为的盘古大模型、腾讯的混元大模型以及智源的悟道大模型,其参数量都在千亿规模以上,而且都是多模态。
国内厂商在人工智能领域的努力有目共睹。百度在过去几个月,加班加点,追赶ChatGPT的进度。3月中旬,百度推出的类ChatGPT产品“文心一言”已经对外开放测试,尽管在效果上不如ChatGPT,但也引起了国内用户和企业的积极尝试,数万家企业申请调用API服务,服务器一度被挤爆。
AI四小龙之一的旷视科技创始人印奇则透露,旷视接下来会在大模型的技术能力上非常坚定的投入,旷视甚至专门有个小组,只做核心的模型设计。
腾讯也在公开回应中明确表示,腾讯在相关方向上已有布局,专项研究也在有序推进。3月22日的腾讯财报会上,总裁刘炽平也回应了投资者关切,称腾讯将积极投入资源来构建基础模型,并在未来将其应用到腾讯的每一个业务线中。
腾讯做事一向比较低调,但其实腾讯在人工智能上的布局并不少,时间也不短。据数智前线获悉,目前腾讯旗下主要有三大人工智能实验室:优图实验室主打计算机视觉和产业AI应用,WeChat AI专注开发语音AI,AI Lab则专注于基础研究和应用探索的结合。
在腾讯云智能之前披露的“四级加速架构”里,不仅有最底层的算力(自研AI芯片加速算力效能),也有开发层的混元大模型,并通过腾讯云TI平台提供多元行业大模型精调解决方案,上面还有即插即用的标准化应用行业和行业解决方案,已经形成了一套从基础算力到算法模型到上层应用完整的链条。
具体到外界非常关注的模型层,腾讯在2022年对外公布过AI大模型“混元”,取”混沌初始“之意,包含了CV(机器视觉)大模型,NLP(自然语言处理)大模型以及多模态大模型,覆盖了业内主流的研究方向,先后在中文语言理解权威评测集合CLUE 与 VCR、MSR-VTT,MSVD等多个权威多模态数据集榜单中登顶,实现跨模态领域的大满贯。
混元大模型的优势在于,一是腾讯在人工智能领域的技术积累和储备,让其在多个细分赛道获得了突破。比如在NLP领域,依托于腾讯的太极机器学习平台,腾讯在去年推出了万亿中文NLP预训练模型HunYuan-NLP-1T,这个模型在最新的自然语言理解任务榜单CLUE上斩获三个榜首。
二是腾讯有海量应用场景。除常规公开数据集之外,“混元”大模型还学习了商业领域特有的文本数据集。相较于业界其他AI大模型,“混元”能够更好地理解各种长度文本信息,应对搜索、广告、新闻、问答等多样化的场景任务,在阅读理解、知识图谱相关的下游任务中也更加具有优势。
如今,在ChatGPT的声浪中,国内大厂们正在加速行动。据数智前线获悉,算力和数据作为大模型的关键要素之一,国内不少企业在大量购买英伟达GPU,同时也有些巨头正在寻找高质量的中文数据,为训练效果更佳的大模型做准备。
“最重要的事情就是现在能把GPT-3.5复现出来。”印奇说,“GPT-3.5是更重要的点,至少让大家在共同的基准上,这样后续无论是应用的创新、对技术的创新各方面至少有感觉。”
正如任正非在不久前的座谈会上所言,未来AI大模型赛道会风起云涌,不只是微软一家。
至少在GPT大模型出现之前,国内人工智能产业的发展看起来并没有与美国之间有太大差距,从机器学习到深度学习一步步都能跟得上。
国内大厂在2012年前后广泛成立了人工智能相关的实验室,后来,主打机器视觉的AI四小龙也相继出现。海外出现的新技术,国内几乎同时出现,在全球技术榜单上也不乏中国企业的身影。
比如2016年,谷歌的AlphaGo在人工智能圈大放异彩,战胜了围棋冠军,其在科技圈掀起的人工智能热潮不亚于今天的ChatGPT。而像腾讯AI Lab也在同年初就开始研发围棋人工智能程序“绝艺”,并且在后续一年中对顶尖职业棋手取得59连胜,甚至后来以让二子的情况下,战胜了世界冠军柯洁。
不难发现,国内企业在人工智能等相关领域的技术布局并没有落下。正如创新工场的李开复不久前表示:“美国仍是全球突破性的创新者。”但中国的互联网巨头,如阿里巴巴集团和腾讯,“都在建立与OpenAI、微软和谷歌相媲美的大型模型。”
但问题在于,一些重大的底层技术上的创新,往往先来自美国。在业界看来,海外大厂有充足的资金以及创新的氛围,更愿意在基础研发上投入,而不那么看重短期的商业效益。
OpenAI和DeepMind是全球人工智能领域最顶尖的两个团队。而被谷歌收购以来,DeepMind累计亏损超过了20亿英镑,且在2020年之前一直亏损。但这些都是由财大气粗的谷歌买单。OpenAI同样如此,这家含着金钥匙出生的机构,在2022年的净亏损额达到5.45亿美元,而营收还不足3000万美元。不难发现,优秀成绩的背后是不计亏损的巨额投入。
旷视科技创始人印奇坦言,中国AI公司不可能拥有OpenAI和DeepMind那样奢侈的条件,因此,国内一方面要用最艰苦朴素、奋斗的状态来攻坚核心AI技术,另外中国 AI 公司想活得长,必须要把大模型商业化。
“相对于美国不计代价的纯技术创新,中国AI公司还是要面临相对短周期、商业化的压力。我们要有极强的危机感。”印奇说。
这也造成了中国和美国在人工智能发展路径上的侧重差异。国内人工智能的发展更为重视应用落地。
马化腾曾多次表示:“腾讯AI布局注重场景应用,而不是为了研究而研究。”腾讯云智能负责人吴运声此前也表示,优图实验室在成立之初就强调,不只做基础研究,而是要坚持研究和产业落地两条腿并行的策略。
而产业落地的需求最早往往源于内部。比如十年前,优图就将视觉AI技术用于QQ空间,通过图像显著性内容的检测,就能拿自动找出图片中最能代表图像的区域。后来,优图通过活体检测技术,服务微众银行解决网上交易视频验证身份的难题。如今,这套视觉AI的能力被用在了工业质检上,腾讯云将这个场景里的实践,通过拆解算法里的每一个流程,将其沉淀到腾讯云TI平台上,最终形成了一个对外输出的面向工业质检场景的产品化平台。
腾讯在人工智能领域的每个动作背后,都有相应的落地路径。比如微信AI实验室主打的语音,也是与社交业务紧密相关,微信有大量语音转文字和语音输入的需求。腾讯的多模态大模型则是先在腾讯内部的广告业务开始应用。腾讯云的数智人是整合了腾讯在语音交互、自然语言理解、图像识别等领域几乎所有的AI能力,再根据对行业需求的理解,以不同形象服务于金融、传媒、文旅、出行等行业。
“AI将成为腾讯未来业务增长的放大器。”刘炽平说,生成式AI和基础模型技术可以补充优化腾讯的社交、通讯和游戏等业务,“但不会对这些业务造成威胁”。例如,利用生成式AI,可以帮助小程序开发者更高效地开发小程序,而像聊天机器人服务,也非常容易整合到微信和QQ中,让它受益于腾讯广泛的分发和用户触达。
国内的AI企业大多在遵循相似的逻辑。旷视科技的企业业务负责人赵康表示,“如果没有百业的捶打,AI永远是空中楼阁”。旷视的算法研发从早期开始也结合了落地,从算法交付到AIoT交付,逐步走入产业核心场景。甚至京东云也表示,旗下言犀人工智能应用平台将整合过往产业实践和技术积累,推出产业版ChatGPT。
而除了科研环境的因素,中美人工智能的差异也是由各自的产业环境所导致。
国内无论是政企,还是大大小小的行业客户,正在如火如荼地进行数字化升级改造,像工业、矿山、金融、营销等领域,给了人工智能技术大量的落地机会,质检、核身等场景应用在国内已经非常成熟。
相比之下,美国的企业信息化进行得较早,新技术在行业场景落地时面临着更高的成本。而国内基于全球产业链,世界工厂的基础,能找到更多积极、宽松的应用环境,也使得新技术得到更多反馈,迭代也更快。
所以说,中美在人工智能领域展现出的差距和差异,并不是一个非此即彼的关系,更多是路径和阶段的不同。只不过对于国内企业而言,在需求和应用出发之外,如何一步步缩小底层技术上的时间差异是不得不面对的挑战。
“我们的策略是追求以正确的方式发展,而非速度。我们希望确保基础模型是正确且稳固的。”刘炽平认为,聊天机器人只是未来多款应用的其中之一,“这是一个随着时间推移逐渐建立起来的业务机会,而非我们当下需要立刻解决的业务威胁。”所以,腾讯能够集中资源,以可持续性的方式建立相关能力和模型。
当大模型被捧上神坛时,人们下意识认为其无所不能。事实上,大模型正在与不少行业有了结合的可能,但真的在行业落地应用时,大模型也面临着自身的问题。
比如大模型是否会取代行业小模型,后者是当下很多企业在采用的方式。
业内资深人士称,这要以“解决问题优先”的态度来考量。很多应用场景,原来垂类模型用得很好,就没必要去赶热度。“毕竟大模型对客户来讲,是有额外成本的,这是我们的大原则。”百度云资深人士也告诉数智前线,像门口的闸机,准确率已高达99%,就没有必要再去用一个大模型,“这是个适度问题”。
但在一些方面,大模型将替代垂类模型。比如,智能客服系统,原来要靠人工进行大量数据标注。业界都知道,这是最消耗成本的部分,很多企业要耗费数千万甚至几个亿。现在,大模型将开发范式进行颠覆,仅需要少量数据。
“我们后面应该更多探讨,在成本适当增加后收益如何,在考虑ROI、性价比的情况下,把大模型的技术和效果发挥出来。”上述人士称,业界的核心诉求是如何取得大模型的最优解。
其次,人工智能已被企业寄予了为业务降本增效的厚望,但它的应用落地却门槛高、投入大、周期长,大模型就更有挑战性了,像GPT3一个训练周期就要34天,还用了1000多张英伟达最先进的A100 GPU卡,这些严重提高了模型产出的门槛。
智源研究院总工林咏华称,如果把大模型类比一座冰山,它的落地更要关注冰山之下那些层层的技术栈。“没有这些从底到上的技术栈,是露不出冰山一角的。”
这些在应用落地时遇到的难题,也在场景不断打磨中得以改进。比如,针对人工智能落地流程长、其中任何一个环节出问题都会影响落地,百度采用了人工智能开发运营一体化标准,类似软件开发运营DevOps,将AI开发落地的流程和实践标准化,以保障质量混合效率。腾讯云也用了类似的方法,依托大模型,结合实践经验封装成一个全栈式人工智能开发服务平台——TI平台,它贯通了从数据获取、模型训练、模型评估、模型部署到 AI 应用开发等的全链路,简化AI工程化。
这样的路径异曲同工。以腾讯TI平台中下的TI-OCR为例,在企业实际应用的场景中,单据识别是不少银行日常处理最多的业务,比如各类申请表单、交易票据等。TI-OCR是这个场景下的专业训练平台。它支持了5000多种版式,泛化准确率能达到90%。而且,对于新版式,拿5张样本就能快速训练,准确率达到95%以上。这避免了每次算法工程师要用大量数据进行训练的问题。
伴随人工智能成为企业必不可少的技术,业界有了模型即服务(MaaS),算法也是基础设施的趋势,这样的人工智能开发一体化平台将降低AI落地的门槛,并保障质量。
而下一个发展阶段,大模型训练成本也会降低。最近斯坦福已提出一次算法训练600美元,而且效果达到GPT3.5,如果实际中真达到这样的成本,将为大模型的落地进一步扫清障碍。
再次,针对中国企业极为关注的私有化部署,百度云人士认为这不是问题。腾讯云则告诉数字前线,腾讯云基于分布式云遨驰,公有云和私有云是同样一套解决方案,想采用私有化部署没有问题,私有化部署方案可以把能力1:1复制到专有云。“很多国内客服用到大模型,期望私有化的同时,还能低成本,需要压缩模型,效果不能影响太多。”
而业界对大模型的落地考虑得越来越细化。比如,国内市场在端侧的场景非常多。人工智能落地的时候,哪些放在端侧计算,哪些在云侧计算,端侧计算部分怎么保证模型小型化,满足端侧的低功耗要求,面向边缘场景如何提升研发落地和运营效率。再如,无论多么大的模型,总会有概率出现一些问题,如何进行大模型的状态监控,如何更快地去调优这个模型,也是业界在做的事情了。
上述腾讯资深人士告诉数智前线,AI落地产业已走入深水区,AI应用已被企业融入到他们业务流程中。业界正在加速提供AI标准化应用,也包括依托底层大模型让生产环节、业务环节更好地用上AI技术,期望实现大模型等技术应用的最优解。
不难发现,尽管国内在GPT等大模型技术上还有差距,但国内对人工智能的研发热情以及背后广泛的场景需求,使得这一技术在国内的前景依然被看好。甚至从场景需求出发来,最终反哺底层技术的投入,也不失为一种更加符合国情的策略。
本文来自微信公众号“数智前线”(ID:szqx1991),作者:游勇 石兆 ,编辑:周路平 ,36氪经授权发布。