免费 AI “神器”系列第五弹：斯坦福洗碗机器人突然爆火，字节版DALL·E登上开源榜单前三｜钛媒体AGI

作者：钛媒体APP发布时间：2024-02-23

图片来源：unsplash

近期，生成式人工智能（AIGC）领域又涌现出多款创意十足的新应用。

今天，钛媒体AGI梳理了免费 AI “神器”系列第五弹，共五款，其中不少产品又再一次拓宽了我们对AI的想象力。

斯坦福 AI 机器人框架技术——UMI
字节版DALL·E文生图模型——SDXL-Lightning
在线试衣服神器——OOTDiffusion
高质量动画生成模型——AnimateLCM-SVD-xt
“全能”视频生成大模型——VideoPoet

1、斯坦福 AI “螃蟹”洗碗机器人技术——UMI

继斯坦福炒虾机器人爆火全网之后，斯坦福大学再出新的“洗碗机器人”，引发关注。

产品信息：UMI 是由美国斯坦福大学团队开发的一个 AI 机器人数据收集和策略学习框架，通过手持式夹持器和精心设计的接口进行数据收集，可以将人类在复杂环境下的操作技能直接转移给机器人，无需人类编写详细的编程指令。

简单来说，UMI 就是通过人类操作演示然后收集数据，直接转移到机器人身上，使得机器人能够快速学习新任务。

产品功能：UMI 技术涵盖技能转移、数据收集、多平台部署、提高机器人操作能力、快速适应新任务、降低机器人学习成本等新亮点和功能，提供了一个便携、直观、低成本的数据收集和策略学习框架，允许直接让人类演示转化为有效的视觉运动策略。

相比传统机械臂遥控操作，UMI 在动态、精确、双手操作和长期视角等方面，能更快实现 AI 机器人替代人类任务效果。

项目及演示：https://umi-gripper.github.io

GitHub：https://github.com/real-stanford/universal_manipulation_interface

2、字节版DALL·E——SDXL-Lightning开源文生图模型

产品信息：SDXL-Lightning是一款由字节跳动开发的开源免费的文生图模型，能根据文本快速生成相应的高分辨率图像。

产品功能：用户在SDXL-Lightning上输入提示词，然后选择推理步骤（选择范围为1步—8步），等待数秒即可生成一张高清图像。

与以往的文生图模型相比，SDXL-Lightning的生成速度有显著提高，能够在最少步骤内完成文本到1024px分辨率图像的生成，适用于需要快速响应的应用场景。

SDXL-Lightning的生成效果图

SDXL-Lightning的生成速度之所以能够显著提升，主要是因为它通过结合渐进式蒸馏和对抗式蒸馏的方法，解决了扩散模型在生成过程中存在的速度慢和计算成本高的问题，同时保持生成图像的高质量和多样性，避免了传统蒸馏方法中存在的图像模糊问题。

使用SDXL-Lightning模型，可在几秒钟之内生成高达1024像素分辨率的图像。目前，该模型已经在Hugging Face平台上开源，并且下载量超过2200次，登上了Hugging Face流行趋势第三名，超越了gemma-2b，仅次于最新的谷歌gemma-7b，以及stabilityai/stable-cascade。

体验地址：https://huggingface.co/spaces/AP123/SDXL-Lightning

3、在线试衣服神器——OOTDiffusion

产品信息：OOTDiffusion是一个高度可控的虚拟服装试穿开源工具，可在线生成不同型号、款式的服装在模特身上的试穿效果。

产品功能：OOTDiffusion支持半身和全身虚拟试穿，用户在主页面选择与自身相似的模特体型，再选好心仪的服装款式，点击“Run”按钮后等待一分钟左右即可生成试穿效果。

OOTDiffusion主页面在右侧展示了模特的试穿效果。

用户可通过OOTDiffusion调整模型路径、缩放比例和采样次数等参数，精细控制虚拟试穿的细节和效果，以满足不同的试穿需求和偏好。

如未来推广开来，OOTDiffusion想必会成为网购爱好者的心头好。另外，线上服装品牌也可借其生成不同款式衣服的模特宣传图，节省一笔宣传经费。截至发稿，OOTDiffusion在Github上已累积988颗星。

体验地址：https://ootd.ibot.cn/

4、高质量动画生成模型——AnimateLCM-SVD-xt

产品信息：AnimateLCM-SVD-xt是一款能以尽可能少的步骤加速采样生成高保真视频的模型。该模型由来自香港中文大学MMLab、Avolution AI、上海人工智能实验室、商汤研究院的研究人员共同研发。

产品功能：在AnimateLCM-SVD-xt上，用户可输入提示词，并可自由选择推理步骤数、生成视频的宽高尺寸来定制生成视频。AnimateLCM-SVD-xt目前仅需2~8个推理步骤就能生成25帧分辨率576x1024的高质量动画，比传统Stable Video Diffusion（SVD）模型生成速度更快、视频生成质量更高。

VideoPoet生成的视频效果

体验地址：https://huggingface.co/spaces/wangfuyun/AnimateLCM

5、“全能”视频生成大模型——VideoPoet

产品信息：VideoPoet是谷歌推出的一款视频生成大模型，主要有文本转视频、图片转视频、视频风格转换、视频修复和视频生成音频五大功能，而且默认生成竖屏方向的视频，迎合了短视频内容的需求。

产品功能：VideoPoet在单一的大型语言模型中集成了多种视频生成能力，能根据不同的任务需求（如文本到视频、图像到视频等）调整其生成过程。每种任务类型都有特定的任务标记指示，以引导模型进行相应的视频生成。

此外，VideoPoet还能通过连续预测的方式生成长视频，即通过在每一步中参考视频的最后一部分（例如最后1秒），然后预测接下来的内容，从而实现视频的延伸生成。谷歌研发团队曾使用VideoPoet制作了一个浣熊去旅行的短视频。

谷歌研发团队曾使用VideoPoet制作了一个浣熊去旅行的短视频。

VideoPoet曾被外界视为革命性的Zero-shot视频生成工具。值得注意的是，2月22日有消息称，谷歌VideoPoet原项目负责人、卡内基梅隆大学（CMU）计算机学院兼职教授蒋路目前已经加入TikTok。

演示地址：https://sites.research.google/videopoet/

（本文首发钛媒体App，作者｜任颖文，编辑｜林志佳）

免费 AI “神器”系列第五弹：斯坦福洗碗机器人突然爆火，字节版DALL·E登上开源榜单前三｜钛媒体AGI

推荐体验

相关资讯

免费AI“神器”系列第九弹：“字节版Sora”突然爆火；AI 代码软件走红网络｜钛媒体AGI

免费AI“神器”系列第九弹：“字节版Sora”突然爆火；AI 代码软件走红网络

免费 AI “神器”系列第二弹：AI 浏览器突然爆火，全新 AI 图像应用已吸引40万人｜钛媒体AGI

免费AI“神器”系列第十弹：“音乐版ChatGPT”Suno爆红；双足机器人百米赛跑不到25秒｜钛媒体AGI

免费AI“神器”第十三弹：会20种语言的数字人爆火；机器人能提前0.8秒预测人类表情｜钛媒体AGI

近期资讯

黄仁勋内心仍把自己当中国人

飞机上哪个座位最安全：后排中间

男子为省停车费网购假车牌结果行拘20天、罚款6000元

《白雪公主》真人电影新剧照：邪恶皇后照魔镜

求变！三星将全面整顿封装供应链：材料设备采购规则全改

日本喊你去玩了：向中国人新设10年旅游签可停留1个月

一箭11星！中国航天2024最后一发淘宝88VIP冠名

限量60人！小米汽车工厂参观将连开三场：现场看SU7生产

脑洞大开！小伙研发冬季防静电装置：我给自己接了跟地线

网友意外钓到“水老虎”：能吃的不像话同类都不放过

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响