当前位置:首页|资讯|AIGC

这一次,马云跳起了「甜妹舞」

作者:蓝媒汇发布时间:2024-01-24

原标题:这一次,马云跳起了「甜妹舞」

作者|陶然 编辑|魏晓

今天下午,蓝媒君请马爸爸跳了一段舞。

已关注

关注

重播分享

关闭

观看更多

更多

正在加载

    正在加载

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    阿里舞王,果然名不虚传……怎么回事呢?

    新年第一周,阿里云通义千问APP上线了一项让照片一键“舞起来”的功能,名叫“全民舞王”——还真就是字面意义上的跳舞。

    不论是马云或者马斯克,兵马俑还是机器人,一张全身照,就是一段科目三、一段甜妹舞。

    已关注

    关注

    重播分享

    关闭

    观看更多

    更多

    正在加载

      正在加载

      退出全屏

      视频加载失败,请刷新页面再试

      刷新

      视频详情

      办公室里充满了快活的气息。

      一键起舞

      如何打造自己的舞王?

      打开通义千问APP,点击顶部提示栏中的“一张照片来跳舞”,底部输入栏会自动填入“全民舞王”(也可以不点提示栏,直接手敲这四个字),提交指令。

      OK,一道零门槛通向舞王的门,开了。

      接下来,从阿里目前提供的十二个舞蹈模板中任选其一,然后上传一张无遮挡全身照,比如马斯克,或者马斯克的机器人。

      当然,像上午的微博热搜那样用兵马俑,也是可以的。

      这部分操作涉及到AI识图及图转视频等一系列略显黑箱的操作,所以传图存在一定的失败可能,原因包括不仅限于图片没过审,AI认为这照片不是“全身”,或者人物不足够清晰。

      然后,静静等待约15分钟。

      一段由世界首富带来的极乐净土(模板名为“极乐劲舞”)便可生成在通义千问APP中。

      已关注

      关注

      重播分享

      关闭

      观看更多

      更多

      正在加载

        正在加载

        退出全屏

        视频加载失败,请刷新页面再试

        刷新

        视频详情

        省时,省力,关键还免费,舞蹈区大约已经感受到了小小的AI震撼。

        这项免费功能名为“通义舞王”,用户按照上述流程选模板、传照片后,十几分钟即可生成神形兼备的舞蹈视频。尽管部分细节(如衣领、手臂)AI处理的仍不完善,但最终呈现的效果已是瑕不掩瑜。

        图/服装飘动和手部动作仍是AIGC难点

        而该功能背后的AI算法,正是基于此前阿里通义实验室发布的自研视频生成模型Animate Anyone。

        岁末年初,阿里整了个技术门槛相当高的AI花活儿。

        Animate Anyone

        从静态到动态

        一个月前,由阿里巴巴集团智能计算研究院研发的“Animate Anyone”技术框架对外公布,这是一种能够将静态图像转换为高拟真度动态视频的生成式AI应用。

        此技术被概括为三个步骤:编码建模/提取模型特征/解码成视频,官方解释如下:

        (图片的)姿势序列首先使用 Pose Guider 进行编码,并与多帧噪声融合,然后由 Denoising UNet 进行视频降噪。Denoising UNet 的计算模块由 Spatial-Attention、Cross-Attention 和 Temporal-Attention 组成,如右侧虚线框所示。

        参考图像的集成涉及两个方面。首先,通过ReferenceNet提取详细特征并用于Spatial-Attention。其次,通过CLIP图像编码器提取语义特征进行Cross-Attention。Temporal-Attention在时间维度上运作。最后,VAE解码器将结果解码为视频剪辑。

        简而言之,阿里自研了一套算法,大幅度提升了AIGC视频与原图像的一致性,和动作姿态(包括人物姿势和服装图案等)细节在视频中的稳定性,相较于传统算法更为精细、更为还原。

        并且适用各种人物(人形物体就可以):

        越复杂的服装细节,越能体现该算法的优势(最右为阿里算法)

        当然,消耗资源钻研这套算法,并不只是为让马斯克或者马云跳两段舞,阿里给出了眼前触手可及的应用,比如电商——在线试衣/换衣。

        算法将人物模型和服装模型组合后,生成了肉眼完全无法分别的AI图片。可以预见,这类图像技术在诸多线上办公、消费甚至医疗领域,都有极为充分的想象空间。

        唯一有压力的,恐怕还是将AI接入大规模应用场景后,用户跑图带来的服务器成本,此前如Mid Journey等AIGC社区大多采用付费订阅模式。现在更多的案例、更成熟的技术都已落地,就看下一步应用环节能否跑通。

        Lanmeih/今日话题

        你对AIGC,有何期待?

        咱们评论区聊聊~


        Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1