毋庸置疑,2023年年末的闪亮之星是“多模态AI”,那么我们要关注多模态AI的哪些机会呢?
我们先了解下,什么是多模态。所谓多模态即具有处理不同形式数据(语言+听力+视觉)的能力。从Pika 和Gemini 为代表的模型,打开了AI应用领域的巨大想象空间。
国外AI
最近,Pika推出了一系列的测试账号,这些账号受到了国内外用户的一致好评。Pika1.0不仅具备之前官网宣传视频展示的特点,如文转视频、图转视频,还能实现3D动画、动漫或电影等多样化的转换效果。
此外,它还提供了视频局部编辑、时长延伸等多项编辑功能。测试表明,在精确而合理的指令下,Pika能够创造出具有电影级别质感的3秒视频片段,其稳定性、动态范围、光影效果等方面都令人印象深刻。
12 月 6 日谷歌宣布推出了他们认为是迄今为止最大、最强大的AI模型——Gemini, Gemini的上线,让生成式 AI 进入了原生多模态时代。Gemini分为三个版本:GeminiUltra、GeminiPro和GeminiNano。
12月13日起,开发者和企业用户将能通过谷歌AIStudio或谷歌CloudVertexAI的GeminiAPI访问GeminiPro;而新推出的Pixel8Pro手机将支持GeminiNano。
国内AI
美图公司发布自研 AI 视觉大模型 MiracleVision 4.0 版本,主打 AI 设计与 AI 视频,AI 设计新增矢量图形、文字特效、智能分层、智能排版四大能力,同时上线全新视觉模型商店,AI 视频新增文生视频、图生视频、视频运镜、视频生视频四大能力;
阿里巴巴集团智能计算研究院出了最新 AI 应用 Animate Anyone,只需一张人物照片,结合骨骼动画,就能生成人体动画视频;出门间问旗下的 AI 数字人视频创作平台奇妙元推出奇妙助手功能,可以快速生成制作视频所需的素材,上传 PPT 后可一键生成讲解视频。
我们将2月份至今AI应用领域的进展情况整理成了文档,感兴趣的投资者可扫码下方二维码免费领取。
目前,多模态已成为生成式AI重点发展方向。文生视频模型Pika走红和谷歌Gemini的发布,表明了AI应用领域的巨大想象空间,在多模态发展趋势明确,以及大模型能力持续迭代下,中国AI产业的空间或将加速打开。
根据《2023年中国AI技术变革企业服务白皮书》,2022年,中国AI大模型市场规模达到891.2亿元,随着AI技术的成熟和在各行业中的广泛应用,预计到2027年,市场规模将增至2777.5亿元,年均增长率为25.53%。
经过深度复盘,这两家公司深入多模态领域。
公司1:公司在数字人驱动、文生文、文生图等场景积极引入 AIGC 技术和产品,在文生视频、图生视频、视频转视频等生成式 3D 内容场景积极探索。
公司2:公司研发的AIGC一键成片系统,基于多模态大模型能力,支持自动成片、长视频缩编等多种应用场景,可预设多种模版,有效提升视频生成效率。公司加大在AIGC领域的技术开发和应用力度,推动AIGC相关技术在内容创意影视剧内容制作、短视频创作等领域的深度应用。
扫描下方二维码免费领取《多模态AI年末机会研报》
股市有风险,投资需谨慎
投资顾间 侯勃(投顾编号:A0710621040002)
注: 本篇文章及产品均由利多星投资管理有限公司提供