随着首批通过备案的大模型陆续开放使用,国内生成式AI应用战在上周正式打响。腾讯混元大模型在本周正式加入这场激战。
9月7日的2023腾讯全球数字生态大会上,腾讯自研通用大语言模型“腾讯混元”正式面向产业亮相,同步亮相的还有融合了大模型的多项产品,包括腾讯会议、腾讯文档、腾讯广告等。持续两天的论坛现场人头攒动,大量行业观众冒雨而来,甚至有人站在会议室门口聆听分享。
今年以来,百度、阿里、京东等互联网大厂陆续发布了自研大模型及其应用产品,腾讯在3月份推出面向大模型训练的计算集群,6月宣布基于腾讯云TI平台打造行业大模型,对于通用大模型却一直称“还在打磨中”、“不急于求成”,这也让外界对于腾讯自研大模型的期待值逐渐拉满:微信、QQ、腾讯会议等国民级APP与腾讯混元大模型之间会擦出什么样的火花?坚持“不做半成品”的腾讯究竟有何用意?
大模型和应用同步亮相
9月7日,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生介绍,腾讯混元大模型目前拥有超千亿参数规模,预训练语料超2万亿tokens(token是大语言模型训练中的最小单位),具有强大的中文创作能力、复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
腾讯集团高级执行副总裁、腾讯云与智慧产业事业群CEO 汤道生
不同于其他大模型的匆忙上线,这是一款出道即“能打”的大模型。据介绍,腾讯混元大模型已接入腾讯50多个业务并取得初步效果,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务和产品。
现场演示中,腾讯会议基于混元大模型打造了一款AI小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后则可以生成智能总结纪要。在指令理解、会中问答、会议摘要、会议待办项等多个方面,混元大模型均获得较高的用户采纳率。
腾讯混元大模型在腾讯会议中的应用
在文档处理场景中,腾讯混元大模型支持数十种文本创作场景,这在腾讯文档推出的智能助手功能中已有应用。同时,混元能够一键生成标准格式文本,精通数百种Excel公式,支持自然语言生成函数,并基于表格内容生成图表,目前这些功能正在内测阶段,将在成熟后面向用户开放。
在广告业务场景,腾讯混元大模型支持智能化的广告素材创作,能够适应行业与地域特色,满足千人千面的需求,实现文字、图片、视频的自然融合。此外,基于混元大模型的能力,广告智能导购能够帮助商家在企业微信等场景,提升服务质量和服务效率。
腾讯混元大模型在腾讯广告中的应用
丰富的内容生态和业务场景给通用大模型提供了天然的练兵场,这是腾讯的优势,也是腾讯混元大模型“沉得住气”的原因。只有让混元大模型在腾讯内部各类C端应用、B端场景中扛住考验,才有底气把能力和经验对外输出。
“我们研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中。”腾讯副总裁蒋杰表示,“今天我们展示的都是深度接入腾讯混元大模型的业务,如腾讯会议、腾讯文档、腾讯广告等,它们都有大量用户基础。我们希望先在内部打磨成熟,再通过腾讯云对外开放,提供给客户和生态合作伙伴。”
不急于拿出半成品
回顾腾讯大模型的研发起点,蒋杰认为可以追溯到2021年。公开资料显示,蒋杰于2012年加入腾讯,是中国人工智能产业发展联盟(AIIA)副理事长,中国计算机学会(CCF)大数据专家委员会委员,目前在腾讯混元大模型研发团队中担任主力。
腾讯集团副总裁 蒋杰
从2021年开始,腾讯先后推出千亿和万亿参数的NLP稀疏大模型,打破CLUE三大榜单记录,实现在中文理解能力上的新突破。2022年底,ChatGPT在全球火爆,随后国内大模型密集发布,短短半年时间里,涌现出了近百款大模型,其中既有互联网大厂,也有初创公司。
事实上,以腾讯的技术积累,在上半年推出一款通用大模型并非难事。腾讯却始终不争热度,埋头于底层技术的打磨。“互联网企业都有很多的积累,都在做,我们也一样在埋头研发,但是并不急于早早做完,把半成品拿出来展示。”腾讯董事会主席兼首席执行官马化腾在2023年股东大会上如是表达了对大模型的态度,他认为这是互联网行业十年不遇甚至百年不遇、类似工业革命一样的机遇。“对于工业革命来讲,早一个月把电灯泡拿出来在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好,而且更关键的是场景落地,相信我们有很多场景是可以落地的,目前(我们)还在做一些思考。”
今年3月、5月以及8月份的财报电话会上,腾讯总裁刘炽平被分析师们反复追问何时推出通用大模型及生成式AI产品,他表示公司积极投入资源来构建基础大模型,但对通用大模型的进展始终不紧不慢,“我们希望沿着正确的路线踏实前进,不急于求成,先打好基础,我们的第一款产品将会是多次迭代之后的产品。”
这一“慢下来”底气来自于腾讯的研发实力,包括使用场景资源,海量数据优势,以及云计算基础设施的加持。尤其在基础设施方面,腾讯有足够的算力来打造基础模型技术,其次腾讯拥有足够强大的云业务和相关技术。
今年7月,腾讯发布面向AI 原生的向量数据库 ,腾讯云向量数据库,它最高支持业界领先的10亿级向量检索规模,并将延迟控制在毫秒级。统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗,相比传统方式可以实现10倍效率的提升。如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2~4个数量级。
全链路自研应对海量高并发场景
随着混元大模型公开亮相,腾讯大模型的研发投入过程也揭晓。蒋杰透露,腾讯混元大模型从第一个token开始从零训练,掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。
在蒋杰看来,只有全链路自研,才能做到优于行业水平,实现技术上的创新突破。“举个例子,当你使用别人训练好的模型,里面存在错误信息时,你是没办法更改的。只有运用自己的技术栈体系,迭代、研发才会更快,才能实现技术和业务能力的突破。”
众所周知,国内外的大模型均难以克服“一本正经地胡说八道”的问题,由此导致应用场景相对有限,目前主要集中在容错率高、任务简单的休闲场景。
对此腾讯在算法层面进行了一系列自研创新,提高了模型可靠性和成熟度。如针对大模型容易“胡言乱语”的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题;此外通过位置编码优化,提高了超长文的处理效果和性能;通过提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策……
另一方面,全链路自研不仅可以加快迭代速度,也会让大模型在海量高并发的应用上跑起来时更为稳定,这是大模型和生成式AI实现规模化应用的必经之路,对于坐拥十多亿用户的腾讯更需要反复打磨,以保证海量用户的使用体验。
“从最底层的服务器、网卡,到整个高速的组网,包括平台、模型、算法都是基于腾讯自研的,这一定会让我们在后续的迭代逐步加快。另一方面,腾讯是一个海量高并发的业务,开源的架构不适应腾讯的体量,所以我们一定要走自主研发的道路,才能够应对海量、高并发业务的冲击。”蒋杰称。
从应用中来,到应用中去
从内部业务场景中锤炼而出的混元大模型,下一步同样是拥抱业务,既包括来自各行各业的B端业务场景,也有备受关注的社交、游戏等C端业务场景。正如腾讯在发布会上强调的,混元大模型是“从实践中来,到实践中去”的实用级大模型,这是混元大模型区别于其他大模型的关键差异。
“尽管大家都喜欢从to C的角度,去关注和使用通用大模型。我们认为最务实的做法还是回到每个企业自身的痛点,用行业大模型去解决问题。比如降本或者增效,可能刚开始使用的版本只能解决问题的80%,但在一个清晰的使用场景下,用户的反馈能够形成反哺,让解题的准确率,一步一步提高。”汤道生在采访中称。
他同时强调,腾讯已经和1万1千家生态伙伴展开紧密合作,推出了覆盖100多个产业场景的行业解决方案,共同服务千行百业。去年,生态伙伴收入占到腾讯云整体收入的三分之一,收入增速是腾讯云增速的4倍。
接下来,混元大模型将作为腾讯云MaaS服务的底座,客户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用,助力各行各业智能化升级。
“百模大战”的发令枪已然打响,有人蓄势待发,有人率先抢跑,无论何种姿势出发,等待大模型选手们的都不是百米赛跑,而是一场难以预测终点的马拉松。
文/马宁宁
锌财经 2023-03-25
虎赳虎叔虎AI 2023-04-07