多模态成新“时尚” 谷歌OpenAI万兴科技等出奇招探索多模态能力及应用

作者：砍柴网发布时间：2023-10-11

国庆假期,国内欢度佳节的同时,海外大厂在忙着“搞一波大的”。日前,谷歌正式发布新一代安卓旗舰手机Pixel 8/Pro系列,并宣布面向安卓与iOS设备,推出“Bard助理(Assistant with Bard)”,用户可通过文本、语音或图像与Bard助理互动——换言之,此次谷歌推出的Bard助理将具备多模态功能。

无独有偶,9月底,OpenAI宣布ChatGPT将推出新的语音和图像功能。用户不仅可以在文本框中输入提示,还可以通过语音或图像与ChatGPT交流。据OpenAI称,新功能将在未来两周内向ChatGPT付费用户推出,不久之后会推广到其他用户。

海外两家当之无愧的AI龙头已纷纷进入多模态时代,而国内大厂的步伐也并未见缓慢。目前,华为的AI大模型架构里已包括盘古多模态大模型,科大讯飞推出的讯飞星火认知大模型也已提供多模态交互体验。此外,一直在AI应用层面颇为市场关注的AIGC软件A股上市公司万兴科技(300624.SZ)也宣布,即将发布国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型“天幕”。根据资料显示,该“天幕”大模型也具备多模态能力。

随着科技巨头和明星科技企业逐步强化各大模型对多模态能力的支持,“多模态”无疑已成为继AIGC、大模型之后的又一“年度热词”。这并非是大厂们心有灵犀,事实上,多模态已成为众多业界人士公认的,通向通用人工智能(AGI)的重要途径。

在早期对于AI和深度学习算法的探索中,科研人员大多专注于研究单模态模型,并利用单一模态数据来训练模型。然而,在现实世界中,文本、图像、语音、视频等形式很多情况下都不是独立存在的,而是以更复杂的方式融合呈现,如同人类的“五感”互相连通密不可分。因此,在人工智能的探索中,跨模态、多模态也成了近几年业界研究的重点。

业内人士分析称,多模态预训练模型集成语音、文本、图像、视频等各个模态信息的处理模式,降低了AI任务的门槛,更加贴近人类感知,也具有更高的社会价值和商业前景,使AI有望成为万千大众都能使用的生产工具。

从年初的NLP到现在的多模态,剥去瞬息万变的技术“外壳”,AI行业的核心,依旧在于“应用”二字。目前国内厂家在C端的布局不可谓不多。从层出不穷的ChatGPT“平替”、火出圈的妙鸭相机,再到数字人短视频创作神器万兴播爆,国内厂家们从文字、图片到视频“全面开花”,各出奇招探索AI内容生成技术的创新玩法,力图攻占国内用户的心智。

以万兴科技为例,作为AIGC出海龙头、国内最大的数字创意软件出海企业,万兴科技早已开始AIGC应用布局,并已涉猎目前市场上大部分主流C端AIGC应用种类。

不久前,万兴科技宣布多媒体大模型“天幕”时,即一次性展示了旗下数款融合大模型能力的创意软件应用。其中,包括AI数字人直播神器万兴播爆直播版、AI文字视频剪辑产品Wondershare Kwicut、在线图像音视频轻编辑AI创意平台Wondershare Media.io、卡点音乐视频模板产品Beat.ly等音视频AI技术应用产品,AI电商图片生成工具Wondershare VirtuLook等图片AI技术应用产品,以及AI讲演神器万兴智演、AI虚拟伴侣产品Trumate等文本AI技术应用产品。

此外,公开资料显示,万兴科技旗下万兴喵影、Wondershare Filmora、Wondershare PDFelement、亿图图示、亿图脑图、Mockitt等创意软件产品也已集成AI能力,应用场景覆盖AI生成电商短视频、AI生成原型、AI生成流程图/思维导图等图示、AI生成文本等。

通过分析万兴科技的AI产品分布可以发现,目前对于国内厂家,具有实用性功能,例如提升工作效率、提升作品吸引力的产品,可能能够带来更好的收益。至于未来还有哪些新玩家入局、又会以怎样的方式在什么领域切入市场?一切值得期待。