机器之心报道
编辑:杜伟
一边是国民级短视频应用快手,另一边是致力于打造 AI 时代世界一流学院的高瓴人工智能学院,这对业界与学界的合作伙伴未来会擦除什么样的火花,我们拭目以待。
要说近几年 AI 领域最火的技术是什么?大模型当仁不让。从谷歌 BERT、T5 开始,到 OpenAI GPT 系列,大模型显示出了无与伦比的生成式能力和巨大的应用潜力,更让业内人士看到了实现 AGI 的希望。
以 GPT-4 为例,它是一个多模态 AI 大模型,在语言、数学、编程、视觉等多种任务上都有出色的表现。文本、图像、语音、视频等多种模态能力的融合被认为是最终实现 AGI 的必由之路。国内外大厂也在不遗余力地研发自己的多模态大模型,除了 GPT-4 外代表性的还有 DeepMind 的 Flamingo、微软的 Kosmos-1、谷歌的 PaLM-E 等。
建立跨场景、多任务的统一多模态基础模型成为目前主流 AI 发展趋势之一。然而只研发不落地也是不行的,大模型要发挥其价值必须要有其应用场景。国内国民级短视频 App 快手在研发多模态超大模型的同时加速在短视频场景的落地,并应用于内部搜索、广告、推荐、直播、电商等核心业务,探索出了一条自己的大模型训练到落地的技术路径。
与此同时,业界与学界的连通对于大模型研发与应用同等重要。因此,快手也极其注重产学研生态的建设,积极推动与高校的合作。如今,在多模态 AI 大模型蓬勃发展之际,快手找到了其在学界的合作伙伴——人大高瓴人工智能学院。该院文继荣院长带领团队研发了首个中文超大规模多模态预训练模型「文澜」,产生了广泛影响。
4 月 22 日上午,快手与高瓴人工智能学院联合成立的中国人民大学 - 快手未来媒体智能联合实验室启动了签约仪式。签约仪式由该联合实验室主任、高瓴人工智能学院长聘副教授宋睿华主持,双方探讨将围绕多模态 AI 大模型、跨模态智能创作、智能算法推荐等领域优势互补,资源共享,合作共赢,通过产学研用深度融合,在人才培养、科学研究、成果转化等多方面开展多层次、多领域和多形式的合作。
中国人民大学高瓴人工智能学院执行院长文继荣(左一)与快手副总裁王仲远(右一)签约
中国人民大学副校长王轶(左二)与快手高级副总裁于冰(右二)鉴签
联合实验室签约仪式上,快手与高瓴人工智能学院双方合影留念
谈及此次快手与高瓴人工智能学院的深度合作,莅临签约仪式的人大副校长王轶表示,「高瓴人工智能学院承担着重塑人大学科的重要角色,是人大学科体系调整创新的战略支撑。高瓴人工智能学院和快手都非常有眼光,找对了合作伙伴。此次签约是双方合作伙伴关系向前推进的第一步,希望以此为契机将来能够进一步深化在科学研究、人才培养、社会服务、国际交流、文化传承等方方面面的合作。同时相信在快手的诚意和支持下,高瓴人工智能学院未来一定会办得越来越好。」
快手高级副总裁于冰表示,「互联网产业的爆发式增长得益于规模与技术的乘积效应。快手作为国民级的短视频直播平台,有高密度技术人才、丰富的应用场景、巨大的用户与数据规模,以及大规模算力资源,积极向学界开放合作,能为科研提供真实可靠的验证环境,大幅提升相关科研成果的含金量。双方的强强联合,突破 AI 硬核技术,每个方向上能做出 1 个点的收益,都可以对各行各业产生深远的影响,发挥更大的价值。」
中国人民大学副校长王轶致辞(左)、快手高级副总裁于冰致辞(右)
从内容生成、理解到分发,快手步入大模型驱动的智能媒体新时代
自 2011 年成立以来,快手不断地拓展自身业务形态,现如今已经发展成为了集短视频、社交、直播、电商等多种功能于一体的数字化社区。
快手副总裁王仲远介绍到, 快手用户关注量和活跃度早已今非昔比,2022 年日活和月活用户分别达到了 3.66 亿和 6.4 亿。如此大和活跃的用户社区孕育了多元化的内容生态,如快手短剧、体育、二次元、三农以及面向人文教育的泛知识类视频等。
快手副总裁王仲远发表演讲
在创意内容尤其是短视频创作中,AI 技术充分赋能了高质量视频生成。以直播内容为例,快手拥有行业顶尖的人像美化和视频特效技术,在手机端就能随心变换人像风格。在近来热门的文生图领域,快手推出了其首个中文版图像生成系统。此外快手深耕数字人领域,推出其首个官方虚拟主播关小芳,助力蒙牛集团推出首位数字员工奶思,并且赋能快手蓝领招聘平台 “快聘”。
快手蓝领招聘平台 “快聘” 数字人
在多模态内容的精准理解上,大规模多模态大模型开始发挥重要作用。快手自研了千亿参数多场景统一大模型 ——K7 大模型,基于多模态模型得到的多模态特征及其相关信号在推荐、直播、商业化、电商等诸多场景中推全并取得了显著的线上收益。同时,在多模态理解领域国际权威榜单 VCR 上,快手自研 VLUA 算法保持榜单第一超过半年时间。快手还利用千万级标签刻画快手内容,保证用户更快更准找到满意的内容。
快手短视频理解标签体系
此外,快手打造的业界首个多模态短视频百科体系快知,通过多模态和知识图谱从海量视频中挖掘知识,提升用户知识获取体验,构建良性知识分享生态。与此同时,对于近来火爆的语言大模型(Large Language Model,LLM),快手也正在重点推进中。
在视频内容的分发上,背后是通过复杂多样的智能推荐算法来驱动的。快手副总裁宋洋表示,「快手短视频直播推荐面临的挑战是巨大的,一方面是用户群体大,每天分发到用户观看的视频超过千亿次,其中数据包含的信号多,交互方式丰富,业务关键指标多,不同目标对应的预估任务存在相关性和差异性,另一方面是快手业务场景多,生态复杂,平台兼具内容、社交、电商等多种属性 ,需要兼顾消费、营收、社交等业务要求,业务之间相互影响。快手投入上千名算法工程师在推荐算法的模型与策略研发上。」
快手副总裁宋洋发表演讲
为了精准描述和捕捉不同用户的兴趣,结合了用户行为序列建模、长短期兴趣建模、门控专家算法等算法,快手研发并落地业界首个万亿参数精排模型,它具有 1.9 万亿参数规模和千亿模型特征量。同时针对用户历史行为序列做了超长建模,从最近几十个历史行为扩长到百万量级的历史行为,实现了对用户全生命周期的建模。快手排序模型支持多任务多场景建模,用大模型方法解决不同场景的用户行为与候选项分布不一致的难题,融合千人千模 PEPNet(见论文 [1])和两段式兴趣网络 TWIN(见论文 [2])等多项前沿技术成果,捕捉并满足用户不同场景全生命周期的兴趣和需求。同时,快手将搜索与推荐联合建模,实现搜促推的效果。
快手万亿参数精排模型架构
除了云端部署大模型技术外,快手在业界短视频领域首次提出端智能重排技术(见论文 [3]),利用移动设备算力和存储资源部署深度学习模型推理甚至训练,实现用户反馈信号和客户端独有特征的实时利用,从而得到当前上下文下更准确的预估值,提升用户体验,并带来显著的线上效果提升。该成果获得信息检索和数据挖掘领域重要学术会议 CIKM 2022 的最佳论文奖。
快手端智能短视频推荐系统
此外,快手在推荐算法方向上布局广泛。快手副总裁江鹏表示,「快手在推荐算法上技术创新投入很大,近年来在强化学习、因果推断、图学习、搜推联合、端智能等前沿方向上取得突破,大量成果发布在 WWW、KDD、SIGIR 等顶级学术会议上。随着 GPT-4 多模态大模型的发布,我们积极探索生成式大模型在推荐系统领域的创新。」
多模态 AI 大模型蓬勃发展之际,快手在产学研合作上积极布局,找准学界合作伙伴。高瓴人工智能学院在 AI 尤其是大模型、多模态大模型领域的科研成果让快手看到了合作的潜力,成为双方达成进一步合作、建立联合实验室的重要根基。
强强联合,与高瓴人工智能学院合作促应用、创价值
高瓴人工智能学院成立于 2019 年,旨在打造一所能够影响和塑造未来人工智能时代的世界一流学院,为全球思考并创造「智能而有温度」的未来。成立至今,学院已经取得了很多成绩,在业界也有口皆碑。2020 至 2022 年,互联网与信息检索方向连续两年位居 CSRankings 排行榜世界第一,人工智能学科排名已稳定位于世界前列。2022年1月,学院师生论文发表数量已达到 200 篇。2023 年 1 月,文继荣、赵鑫、窦志成、徐君、宋睿华等教师申报的「以用户需求为中心的互联网信息获取关键理论与技术」项目获得教育部自然科学一等奖。
2019 年 4 月,高瓴人工智能学院正式揭牌成立
文继荣院长介绍了高瓴人工智能学院发展情况。4 月 22 日,恰逢学院建院 4 周年,四年来,学院在学科建设、人才培养、重大平台建设、对外合作等方面高速发展、成绩斐然。学院师生持续产出高水平科研成果,尤其在大模型、多模态大模型领域成果引人瞩目。此次与快手成立联合实验室,期望能强强联合,在人工智能这一前沿领域共同发力,有所成就。
中国人民大学高瓴人工智能学院执行院长文继荣发表演讲
学院始终遵循 AI + 社会科学研究新范式,在信息检索与自然语言处理、机器学习与计算机视觉、数据挖掘和人工智能理论与交叉应用等领域持续产出高水平的科研成果,如中文超大规模多模态预训练模型「文澜」、检索增强的内容生成模型 WebBrain。
中国人民大学高瓴人工智能学院副院长窦志成发表演讲
我们以信息检索领域为例,高瓴人工智能学院副院长窦志成介绍称,新一代信息检索呈现为三种形式:个性化、对话式和生成式。在信息获取手段方面主要有检索和生成两种手段,前者以索引为核心,高效快速从海量文档中检索出相应的内容,如搜索引擎、推荐系统;后者以大模型为核心,一步到位直接生成满足用户信息需求的内容,如 LLM、ChatGPT。
然而两者皆有缺点,检索无法有效整合信息,而生成则可能会产生过时、虚假和错误内容。因此探索检索与生成融合的信息检索新范式至关重要,比如端到端生成式检索、检索增强的生成以及基于 LLM 增强的搜索。对于检索增强生成范式,WebBrain 是高瓴人工智能学院的代表之作。
与 GPT-3 等已有预训练生成模型相比,WebBrain 将互联网上已有的海量信息与预训练模型结合,通过提取英语维基百科文章以及参考文献构建了一个大规模数据集 WebBrain-Raw 和分别用于训练域内检索器和生成器的任务特定数据集 WebBrain-R 和 WebBrain-G。
最终 WebBrain 成为了在大规模语料上定向训练的检索生成模型,可以直接形成一篇完整的文档。WebBrain 或许将极大地改变人们获取信息的方式,未来可以广泛用于知识洞察助手、搜索问答、辅助阅读等场景。
文本生成任务与 WebBrain 的比较。图源:论文 [4]
除了信息检索,高瓴人工智能学院在多模态通用生成模型领域颇有建设。学院卢志武教授团队前段时间推出了国产多模态通用大模型「元乘象 ChatImg」,不仅支持文字聊天,还能看懂图片上的内容并根据图片内容回答问题。
卢志武教授认为,ChatGPT 和 GPT-4 带来了研究范式的革新,需要积极去应对和适应。不过应看到,现有多模态生成模型都存在各自的问题,比如 GPT-4 暂时没有视觉版,因此在该方向上发力还是有机会和前景的。
能用图片聊天的「ChatGPT」
此外,在平台生态与机制设计、图神经网络设计及应用等其他方面,高瓴人工智能学院的科研团队也有深入研究和成果,前者如长聘副教授祁琦团队,后者如准聘助理教授黄文炳团队。
具体地,祁琦团队致力于研究平台生态环境下的机制设计(包括流量竞争机制、最优扶持机制以及多目标机制),同时探究通过扶持机制来维护平台生态,展现出了机制设计在平台经济领域的广阔应用前景。黄文炳团队致力于通过设计图机器学习方法和图神经网络模型,挖掘图数据内在的拓扑和几何结构,解决药物发现、3D 物理场景模拟、智能体行为决策、社交网络分析等跨领域重要问题。
中国人民大学高瓴人工智能学院长聘副教授祁琦发表演讲(左)、中国人民大学高瓴人工智能学院准聘助理教授黄文炳发表演讲(右)
对于此次与快手成立联合实验室,文继荣院长认为,「学院自建立之初就跟快手有着千丝万缕的联系,快手给予了我们很大的支持。」其实,快手上述研究成果中就可以看到高瓴人工智能学院的身影,比如快手搜索与推荐双向促进的研究。宋洋表示,「后续与高瓴人工智能学院加大合作的一个方向是继续利用序列建模预测用户搜索情况。」
不仅如此,高瓴人工智能学院还在其他多个科研领域与快手展开了合作,如基于用户搜索和浏览行为的推荐系统研究、 基于知识图谱的推荐系统研究、基于视频 - 文本预训练模型以及基于检索的文生视频模型研究。
目前,双方在科技创新与人才培养方面均取得了丰硕成果,比如联合发表顶会论文 5 篇、联合培养 11 位硕博生。相关研究成果也切实提升了快手的业务效果,提升了观看时长、完播率、点赞率、生产作品数等核心指标。
如今,中国人民大学 - 快手未来媒体智能联合实验室的成立将双方的合作推向了更深的层次,合作形式也会更加丰富。
4 月 22 日下午,中国人民大学 - 快手未来媒体智能联合实验室举办了首届学术研讨会 ——WWW 2023 论文分享会。快手的一众算法专家和高级算法工程师与高瓴人工智能学院的博(硕)士生共聚一堂,分别就基于多任务 / 偏好 / 表示的推荐、个性化搜索与推荐、可信搜索与推荐和基于强化学习的推荐等主题进行了精彩分享。另外,此次分享会的直播得到了中国人民大学实验室管理与教学条件保障处的大力支持。
在此次分享会上,高瓴人工智能学院副院长窦志成与快手副总裁江鹏分别做了致辞。国际万维网大会(The Web Conference,旧称 WWW)是中国计算机学会推荐的 A 类国际学术会议,WWW 2023 已是第 32 届。高瓴人工智能学院和快手都分别有 7 篇论文被本届 WWW 会议录用,其中前者被录用论文涵盖了对话式搜索、个性化搜索、推荐系统公平性、可解释推荐算法等方向,后者被录用论文涉及了强化学习、因果表征、提示学习、序列推荐、多目标推荐等方向。
窦志成称,作为未来媒体智能联合实验室的开门红活动,本次分享会为双方提供了学习和交流的平台,未来也将更多、更细致地举办类似学术活动。江鹏表示,本次分享会旨在学习分享双方在推荐与搜索上的最新前沿技术成果,碰撞出更多的创新火花。
高瓴人工智能学院副院长窦志成致辞(左)、快手副总裁江鹏致辞(右)
未来,中国人民大学 - 快手未来媒体智能联合实验室将围绕多模态大模型、AIGC、数字人和搜推广等主题展开全面探索。「契合国家重大战略的发展需求,面向未来进行技术布局和联合研发,继往开来再创新的辉煌。」王仲远对此期许到。
快手与人大高瓴人工智能学院将会擦出什么样的火花,我们拭目以待!
参考内容:
[1] PEPNet: Parameter and Embedding Personalized Network for Infusing with Personalized Prior Information(https://arxiv.org/abs/2302.01115)
[2] TWIN: TWo-stage Interest Network for Lifelong User Behavior Modeling in CTR Prediction at Kuaishou(https://arxiv.org/abs/2302.02352)
[3] Real-time Short Video Recommendation on Mobile Devices, CIKM 2022(https://arxiv.org/abs/2208.09577)
[4] WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus(https://openreview.net/pdf?id=eiuj6cNv4iI)
正肽生化 2024-11-20
苏州赛为斯噪声治理 2024-11-20
西南发布 2024-11-20