腾讯技术周-腾讯元宝展示。(腾讯供图)
深圳商报首席记者 陈小慧
输入1000字以内的文字提示,选择动画、电影、赛博朋克、写实等各种视频风格,很快就能自动生成一段高质量的AI视频……近日,腾讯混元大模型上线了文生视频能力,这是继腾讯文生文、文生图、3D生成之后的又一创新业务。
今年以来,腾讯多次传来大模型进展。从今年5月腾讯开源混元文生图大模型,到11月的开源MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”,再到12月开源的混元文生视频大模型,腾讯不断拥抱大模型开源,用技术反馈开发者社区。
“文生视频发布之后,业界的反响或是更多反馈和需求也会陆续收到,我们下个月还会对功能做出一些升级。”近日,记者随深圳市重点企业科技创新调研采访团走进腾讯,腾讯设计杰出专家、腾讯混元产品负责人陈妍分享了混元大模型的最新进展。
据悉,腾讯混元大模型上线的文生视频能力,其参数量达130亿,是当前最大的视频开源模型。
技术升级:腾讯混元更“全面”了
当前,大模型技术成为了人工智能领域的热点,去年以来各类大模型“百花齐放”。腾讯混元大模型便是其中之一。2023年9月,腾讯正式发布了混元大模型。
事实上,腾讯混元大模型发布早有“预演”。“腾讯一直都有在做大模型相关的工作,在ChatGPT发布之前已经有一些积累,主要是用在一些比较特定的业务场景里。”陈妍表示,腾讯在大模型技术上不是完全“从0到1”开始的。
在混元大模型发布之前,腾讯就不断在技术路径、人才规划、业务应用规划方面进行迭代,一边做服务内部业务的模型,一边在准备全自研大模型的发布。直至去年9月,腾讯混元大模型正式“出炉”。
“混元大模型发布一年多的时间里,我们也陆陆续续在训练数据量、模型能力等方面做了一些升级。”陈妍告诉记者。
12月3日,腾讯混元大模型上线文生视频能力,支持中英文双语输入、多种视频尺寸和清晰度,已经在技术社区发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。
腾讯方面介绍,腾讯混元视频生成大模型可以生成超写实的高质量视频,比如,像冲浪、跳舞这种大动作场景,生成的画面自然合理,不容易变形。
“之前我们说大部分应用都在文生文上面,往后可以看到图片、视频、语音结合文本的一个能力,可以说是全模态的。我们马上可以看到大模型会进入下一个阶段,你可以通过更加自由的方式去跟大模型进行交互。”陈妍说。
应用落地:700个业务场景“装上”大模型
随着人工智能发展进入新阶段,大模型技术如何应用落地成为市场焦点。据了解,混元大模型已经在腾讯内部业务经过验证和广泛使用。其中之一就是“敲代码”。
“腾讯有很多工程师,有非常多的代码场景,他们都是借助AI来帮助编码,目前腾讯内部已经有80%的程序员使用腾讯云AI代码助手实现开发提效。”陈妍告诉记者。目前,腾讯元宝、微信公众号、小程序、微信读书、腾讯广告、腾讯游戏、腾讯会议等近700个内部业务和场景,都应用了混元大模型的能力。
除了腾讯内部业务,陈妍也表示,对外腾讯也会通过一些toC的产品,让用户体会到AI带来的效率和体验提升。“大模型基本上学了人类有史以来这么多年的一些知识,如果你懂得怎么样去问它,我觉得对于人类来讲是一个最大的价值。”
面对市场竞争,陈妍表示:“这个圈子我们每天一睁眼又有新东西,我们还是需要一如既往保持对用户、对市场需求的洞察,能够把技术更好地运用在实际工作、生活和学习场景里。”
研发投入:“小按钮”里的“debug精神”
“凌晨1时的时候,Pony(马化腾)还在跟我们建议怎么把元宝的分享体验做得更好,觉得元宝APP里有一个分享的按钮设计得太小,用户不好发现。”谈及大模型背后的研发工程师团队,陈妍向采访团分享了腾讯的“debug”精神。
“昨晚我们就腾讯元宝的一些功能进行‘debug’,每周客服都会罗列出用户体验反馈清单,我也会收集内部员工,甚至身边朋友的反馈,随时更迭新的功能。”陈妍表示,“debug精神”就是不断修改技术问题。“作为一个产品负责人或技术负责人,如果没有把问题解决好就睡不着觉,我们会有这样的极致追求精神在里面。”