今日要点:
1、谷歌大手笔投资的Runway正式发布Gen2,文字生成视频成真,内附见智实测;
2、360智脑通过中国信通院可信AIGC大语言模型功能评估,为国内首家;
3、阿里达摩院开源Video-LLaMA,帮大语言模型加上“眼睛”、“耳朵”;
4、AI生成二维码—将快速应用于广告市场;
每日AI
1、谷歌大手笔投资的Runway正式发布Gen2,文字生成视频成真,内附见智实测
今天,真正的文本一键生成视频出现了。Stable Diffusion和《瞬息全宇宙》背后技术公司Runway,出品的text to video的AI视频编辑工具Gen2,今日开放用户使用。Gen2,也在内测阶段就被网友称赞“视频界的Midjourney”。
见智今天使用runway的app版本做了一个猫的视频;Prompt: A golden gradient cat is jumping in the grass,同时又给了一张小猫咪的图作为模板。
目前来看runway已经能够按照指令生成相应的视频,但是精细程度和对prompt的理解程度相对图片生成平台Midjourney还是明显要弱一些的。但是随着用户大规模的使用改进,相信Runway的Gen2很快可以风靡小视频创作领域。
见智点评:随着多模态模型的发展,从文字-图片-视频之间的相互生成将改变整个用户生态。对于产业界来说,只成为素材生产者还远远不够,能够将生成素材进一步便捷让用户生成最终形态应用将是AI应用发展更重要的一步。
2、360智脑通过中国信通院可信AIGC大语言模型功能评估,为国内首家
360智脑的360GPT-S2-V8型号产品获得了中国信息通信研究院“可信AIGC大语言模型基础能力”评估报告,报告显示必选项目评估内容均通过。据悉,360智脑是国内首个通过中国信通院该项权威评估的大模型产品。
见智点评:360智脑成为首家通过中国信通院权威认证,一方面说明了通用大模型的基础能力得到认可,重要的是数据集的安全性有了国家的背书,更有助于之后大范围的商用应用推广。同时关注明天的360智脑发布会。
3、阿里达摩院开源Video-LLaMA,帮大语言模型加上“眼睛”、“耳朵”
阿里达摩院的研究人员提出了 Video-LLaMA,一个具有综合视听能力大模型。Video-LLaMA 能够感知和理解视频中的视频和音频信号, 并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音 / 视频描述,写作,问答等。目前论文,代码,交互 demo 都已开放。另外,在 Video-LLaMA 的项目主页中,该研究团队还提供了中文版本的模型,让中文用户的体验更丝滑。
见智点评:阿里达摩院让Video-LLaMA开源,进一步推动国内多模态大模型的发展进程。视听综合大模型非常适用于办公、学习领域的应用。另外,Video-LLaMA大模型对于静态图像也有比较强的理解能力,能够完成图片描述和问答。
4、AI生成二维码—将快速应用于广告市场
摆脱单调的黑白,使用 ControlNet 的 AI 生成的二维码将更具特色和商业价值。
见智点评:ControlNet是基于Stable_Diffusion进行AI生成的一种训练方式,它的特点是计算方法更高效,因为训练不需要在原始编码器上进行,所以更节省GPU内存,训练速度也更快。最值得关注的是,ControlNet这种有控制的生成AI图像更能够得到我们想要的图片结果,同时操作方式简单能够在PC端运行。
从应用层面来看,我们看到这种创意形 AI 生成的二维码更能够具有品牌专属特性且方便进行品牌或者网站等任何产品的推广应用。在不久的将来,这将在广告中越来越普遍。