杨净 发自 凹非寺
量子位 | 公众号 QbitAI
大模型引领的AI 2.0,远比想象来得更加猛烈。
尤其是被认为最先被颠覆的搜索引擎领域,产学研界都蠢蠢欲动,对可预见的趋势展开激辩。
没有了用户点击,内容提供商/广告该怎么办?未来将靠什么来赚钱?
对话即入口的交互方式,操作系统是不是就无需存在了?
传统的智能推荐和搜索,又该往何处去?
……
带着这些问题,CCF CTO Club最新一期CCF C³来到了小红书,数位在推荐、搜索领域深耕多年的技术专家,聚焦于当下信息分发、推荐搜索等热议话题,进行了分享和探讨。
最终共吸引16000+人在线观看,直播数据创历史新高。接下来就带你来一文看尽~
大模型带来真正的个性化体验
ChatGPT会取代搜索引擎吗?这个最先叩响的产业问题,也在会上进行了深入的探讨。
他们都对ChatGPT乃至大模型采取积极拥抱、但同样谨慎审视的姿态。这其中最常提及的一个关键词,就是 个性化。
天津大学教授 郝建业表示,传统的推荐系统基于有限的用户数据,通过过拟合的方式进行相似内容的分发,但其实无法真正了解用户的心智变化。而有了大模型加持,能更好地理解用户,带来真正的智能化、个性化和人性化的体验。
具体提及到的一个重要价值,小红书社区技术负责人 夏侯谈到了对于搜索中长尾问题的应用。
传统的通用搜索中长尾信息不足,这种情况下ChatGPT可以自动生产内容补充,以满足更多个性化需求。正如New Bing中制定菜谱、旅行计划等。
事实上,这恰好与小红书的搜索方式不谋而合。更多通用搜索不能解决的长尾问题,在小红书上都能找到答案。基于此,也构成了小红书不同于其他搜索的本质区别。
小红书技术副总裁 风笛在现场分享了他们背后推荐系统的技术创新与实践,可谓是满满干货。
据透露,目前小红书app内搜索用户渗透率行业第二。产品形式主要是最上边的搜索框以及下边的信息流。内容形态包括图文、视频、直播、商品等多元的内容。对应的机遇与挑战主要来自四个方面:
多模异构内容推荐、去中心化分发、兴趣多样性和人群破圈、成本控制。
首先围绕场景特点,包括多模异构内容以及双列的产品形态。风笛坦言,双列的方式并非是一个高效的产品形态,是因为给到用户可选择的权利才坚持到现在。
但推荐或搜索本质上是高效的信息分发和信息匹配。小红书又是如何解的呢?
实际设计上主要包括三个方面:从多元异构价值对齐公式到模型融合的转变;流量分配测,从PID到在线流量匹配;重排侧,则主要是Whole Page重排。
具体到 多模态内容理解这一方面,传统人工定义的层次化标签,无法完整刻画图文和视频内容。
风笛透露,他们技术团队基于10亿量级的图文、视频笔记进行多模态预训练,随后运用到推荐系统中,获得内容的向量化表征。未来将打通内容表征和行为表征,两域联合建模。
另一个公认的技术挑战来自 新内容冷启——新内容行为稀疏,行为表征学习不充分。他们一直在实时推荐上实现了分钟级别的更新。
与此同时,在多目标融合这块,替换掉传统人工排序公式,通过AutoML领域的ES算法来寻找到最优的个性化融合参数。
在兴趣多样性方面,风笛表示会设置各种指数遗忘策略,对用户的实时兴趣做降权,来平衡用户的长短期兴趣。
除此之外,还分享了用户增长以及成本控制、算力优化等方面的技术实践,以及留下两个问题探讨:
搜推系统将往何处去?如何做高效的兴趣检索?以及如何做留存建模?
事实上,整个工业界也都面临着这两个难题,而且随着ChatGPT时代的到来,挑战也更加艰巨。
人机对话将更加频繁,在实际业务场景中,如何在亿级商品中抽取用户感兴趣的候选商品? 搜推系统的召回阶段就非常关键,直接决定了后续精排阶段的成功与否。
形象地来说, 召回决定了精排阶段的巧妇会不会面临无米之炊。
武汉大学 李晨亮教授回溯了近几年搜推系统召回阶段的主要进展和主流方法,并探讨了未来的前沿趋势。
他谈到,当前召回的主要目标,就是在保证 低时延的情况下,更大地利用好用户的场景信息和他的历史行为数据。随后重点谈到了自深度学习兴起,召回逐步经历了表示学习、交互式学习两种方法。
而在这两年兴起的交互式学习方面,李晨亮教授分享了他们目前的做法,简言之就是在商品侧和产品侧做交互式学习来分别提升他们的表征,进而来优化计算、降低开销。
未来,低时延依旧是一个无法逾越的障碍,召回也将来到 大模型Cover一切场景或任务,也就是多场景、多任务学习的一种趋势。
用户大模型可破之?
在主题报告分享结束后,来自中国人民大学教授 徐君、天津大学教授 郝建业、中科院副研究员 敖翔、汇量科技首席人工智能官 朱小强、小红书社区技术负责人 夏侯全面展望了智能推荐和搜索的未来。
首先论及的,就是大模型、AIGC的爆发带来的机遇和挑战。
搜索研究方向的 徐君教授结合New Bing的例子谈到大模型改变传统互联网的搜索习惯和广告盈利模式。
以往是以点击网页排序的方式进入到内容提供商的网页。网站可以依靠广告来维持他们的运营。未来用户不愿点击,搜索引擎不能为网站引流,他们将靠什么活下去?
敖翔则表示偏乐观的态度,他提出要积极拥抱新工具,一方面不要完全相信模型给出的结果,需要根据不同场景进行评估,另一方面要多思考如何利用大模型,实现更多的价值。
来自工业界的 朱小强持短期保守、长期激进的态度。短期内,大语言模型为企业提供私有数据之外的常识;而从长期来看,当人们获取信息方式发生变化,信息分发技术会迎来新的冲击,原有的推荐形态和模型可能需要重新构建,这是一把悬在我们头上的剑。
夏侯提出未来3至5年面临的挑战:传统的搜索和推荐都是基于用户点击触发的行为模式。过去单纯以用户点击而驱动的算法分发模式,正走向用户行为+内容理解双轮并驱的分发模式,能否真正实现搜推一体化,更好地提升用户行为效率呢?
既然趋势已定,智能推荐和搜索引擎又该往何处去呢?
敖翔与 郝建业教授都谈到了 用户大模型的趋势。
敖翔表示不管是做什么应用,归根结底都是在做 用户画像。
能不能做一些使用者的基础大模型,理解用户行为,把用户很多数据拿出来做分析,然后去做更精准的画像。这是下一阶段应该考虑的。
郝建业教授则是谈及RLHF (基于人类反馈的强化学习)对推荐系统的启发。
他谈到,以往因为数据的片面和有限,导致用户奖励函数也就是兴趣建模非常不准。
现在一方面,可从跨场景用户的联合建模这个角度来思考;另一方面,基于用户长期兴趣建模。将不同场景数据真正融合起来,去训练一个推荐领域的用户奖励函数大模型,但这就要求企业各部门数据的打通以及数据的高质量。
最后,针对这段时间高密度的技术爆发,每位专家都对未来的智能推荐进行了展望。
夏侯表示如果ChatGPT代表的是一种未来的操作系统,那么推荐有可能变成一种 底层操作系统的基本能力,就像今天的文档打开或存储一样,将会反映在生活的方方面面,而非现在某个APP的几个页面。
朱小强和 郝建业都谈到了交互方式的改变。
朱小强则谈到了交互方式的重构,一切服务都会以新的入口的方式呈现。正如当年搜索引擎诞生,围绕在旁的是“是能力还是入口”这一思考。
此外,他还谈到现在都在说ChatGPT代表着操作系统,如果更激进一点的看法可能远远不止这样, 我们为什么还需要操作系统呢?
敖翔也认同“入口”这一观点,他感叹既然观点就这么趋同了,那就得 自我革命了——看准了直接往里杀,别犹豫。
郝建业则表示,以往大家习惯于用鼠标和键盘,现在变成触屏,未来这些东西可能都不复存在。
徐君教授则朝着更多领域方向展开想象。以往人工智能都是从其他行业“薅羊毛”借鉴灵感,现在是否有可能朝着反向输出,比如帮助了解大脑,真正变成一件科学的事情。
关于CCF C³
CCF C³活动是由中国计算机学会CCF CTO Club发起的,旨在联结企业CTO及高级技术人才和资深学者,每次以一个技术话题为核心,走进一家技术领先企业。
目前为止,CCF C³已举办18期活动,先后走进京东、小米、搜狗、百度、亚马逊、阿里巴巴、联想、OPPO、讯飞、腾讯、并行等企业。
— 完—
「人工智能」、「智能汽车」微信社群邀你加入!
欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。
PS. 加好友请务必备注您的姓名-公司-职位噢 ~
点这里 👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~