这个 AI 生图神器太好玩了，连提示词都不用写

作者：爱范儿发布时间：2024-12-23

AI 生图工具，已经多得泛滥了，但 Google 最新推出的 Whisk，还是找到了一种很新的玩法，让见过世面的网友也直呼好玩。

只需输入三张图片，subject（主题）、scene（场景）、style（风格），Whisk 就可以生成一张博采众长的图片。

图片来自：Google

举个例子，主题是老人，场景是藤蔓，风格是 90 年代复古动漫，写上「角色骑着飞行自行车」的提示词，等待一会儿，一张类似吉卜力画风的新图片诞生了。

图片来自：Google

老人还是那个老人，戴帽子，穿西装，拿着书，但他骑上了提示词里的车，场景和风格也都变成了参考图片的样子。

Whisk 的长处便在这里——让我们少写、不写提示词的同时，轻松玩转各种风格，妈妈再也不担心我不会写提示词了。

别写复杂的提示词了，直接把图片端上来就行

别看只需要几张图片，Whisk 的玩法简单，却又无穷无尽。

刷刷刷上传三张图片——主题图片，麦当劳薯条；场景图片，莫奈画作《睡莲》；风格图片，像素风游戏《星露谷物语》。

不写提示词，直接生成，Whisk 给出的结果，一张更比三张强。

除了上传自己的图片，我们也可以掷骰子，让 Whisk 随机生成主题、场景、风格。

其实，Whisk 为我们提供的预设风格已经很够用，徽章、贴纸、刺绣、黏土、美漫、马赛克拼贴等等，特色鲜明，效果立竿见影。

只要有脑洞和想象力，无需一个字，仅仅通过不同图片的排列组合，我们可以不断地做完形填空的游戏——主题+场景+风格，而且不是每个空都必须填。

1.主题图片，熏鸡；2.场景图片，梵高《星月夜》画作；3.风格图片，日本木版画

1.主题图片，《戴珍珠耳环的少女》；2.场景图片，电影《千与千寻》剧照；3.风格图片，蒙德里安抽象画

1.主题图片，微信「死亡笑脸」表情包；2.场景图片，电影《星际穿越》剧照；3.风格图片，史努比漫画截图

1.主题图片，冲浪默认头像粉色恐龙 momo；2.风格图片，Jellycat 玩偶

另外，Whisk 的每一次生成，场景和风格只能选择一个参考图片，但主题可以选择多个。这意味着什么？我们可以让多个角色同框了！

比如，让马斯克、奥特曼、扎克伯格通通变成珐琅徽章。

三位的服装、装饰、神态都还原得挺好，扎克伯格的话筒和项链都没漏掉，但人脸没法保持一致性，全部变成了大众脸。

虽然 Whisk 减少了写提示词的需求，但你需要写的话，Whisk 也鼓励。

在对话框加上一句「角色们都举着一块告示牌，上面写着 AGI」，徽章小人们轻轻松松地遵循了提示词。

如果我们需要某个场景或者某种风格，但一时找不到参考图，Whisk 的预设也没有提供呢？

解决方式很简单，没有图片，那就写提示词，让 Whisk 临场发挥一个。

就像我需要一个让角色站上去的、像素风格的底座作为场景，就让 Whisk 帮我生成了。

然后，再把猫猫表情包作为主题图片，把像素小鸡作为风格图片，就可以得到一个有底座的像素猫猫。

总之，Whisk 就是非常自由，像橡皮泥一样，怎么捏都可以。

既生图又识图，把复杂的工作流包装成有趣的「打蛋器」

Whisk，其实是 Google 多模态模型秀肌肉的一种方式。

为了让我们少写提示词，Whisk 整合了视觉理解和图片生成能力。

Gemini 模型识别图片，自动生成详细的描述，然后这些描述会被输入到 Google 的图片生成模型 Imagen 3，由 Imagen 3 生图。

Whisk 是这样的，用户只要上传和生成图片就可以了，但它自己要考虑的事情就很多了。

Whisk 的每张图片，不管是上传的还是生成的，都写了很长的底层提示词，并且不藏着掩着，我们点开图片就能看，也可以上手修改。

如果把一个人作为主题图片，Whisk 会详细地描述他的外貌特征，场景图片也是类似的。

Whisk 对奥特曼的描述：「一个肤色较浅的男子，有着短而深棕色的卷发，从胸部以上展示。他有着浅色的眼睛。他穿着一件浅米色的针织圆领毛衣。背景是一面斑驳的灰色混凝土墙。男子的表情严肃而中性。光线有些昏暗，他的右脸有轻微的阴影。」

风格图片略有些不同，如果把一张动画截图作为风格参考，Whisk 不会说，画面里有三个人，而是描述这幅画的色彩、光线、线条......

Whisk 对史努比画风的描述：「这张图片以卡通风格呈现，具有粗犷的轮廓和平面着色。色彩调色板有限，主要使用原色和柔和的次要颜色。光线均匀，缺乏强烈的阴影或高光，给人一种简单、几乎孩童般的质感。线条清晰且一致，带有轻微不均匀的质感，暗示手绘的效果。整体美学让人联想到经典的连环漫画或儿童动画。」

所以，Whisk 不是精准地复制图片，而是提取图片的特点和精髓，将主题、场景、风格自然地融合在一起，各司其职，互不干扰。

同时，Whisk 也叠了甲——只从图片提取少量关键特征，结果可能和预期不同。这也解释了，为什么 Whisk 做不到人脸的精准还原。

所以，哪怕选择不那么抽象的复古胶片风格，三位大佬的脸也是和本尊都不挨着，但其他细节都很准确。

物体也是一样，特斯拉的赛博皮卡，经过特征提取再生成之后，变得非常普通。

但如果是麦当劳薯条这种素材丰富的超级 IP，效果倒还不错，可以拿来当广告图了。试过一些迪士尼的角色， Whisk 复刻得也原模原样，但图就不放上来了。

另外，Whisk 还存在一个问题——没法做很细致的风格参考，模仿不了某种特定的画风。

当我让 Whisk 生成蒙娜丽莎的乐高小人，出来的结果让我两眼一黑，但多加一句提示词，「让角色更像乐高人物」，Whisk 又能模仿个七八成。

某个漫画家的画风就更难模仿了，上传漫画截图让 Whisk 参考，它最终给出的是一个非常普通的漫画风格图片，就算通过提示词强调作品、角色、漫画家，也不起什么作用。

其实，Whisk 好玩就够了，它更适合做一些不追求精准的创意探索，俗称整活。

Whisk 可以翻译为「搅拌」或者「打蛋器」，Google 的这个名字取得即视感很强，可不就是把食材都混搭在一起吗？

Whisk 的不精准，也让它的定位和传统的图片编辑器不同，更像是一种创意工具。有了什么脑洞，由它实现粗略的视觉效果。

Whisk 生成，1.主题图片，《火影忍者》截图；2.风格图片，毛绒玩具

以前实现 Whisk 这种风格化的效果，跑通一整个图像生成的流程，我们可能需要在 ComfyUI 搭建工作流。

但现在有了 Whisk，好像就在玩抽卡游戏或者开盲盒，而且只要能登录（限美国地区），目前还免费。

体验指路👇

https://labs.google/fx/zh/tools/whisk

Google 领先的模型能力固然是前提和基础，但设计出被大家需要的产品，仍然需要创造力和审美。

很喜欢 Whisk 的 slogan：「prompt less, play more.」（少写提示词，多玩耍。）

Whisk 出自 Google labs，之前爆火的 AI 播客 NotebookLM，也是出自这里，后来慢慢发展为成熟的项目。这个实验室，本身就是这句 slogan 的最好注解。

强大的模型能力，有新意的产品，开放的心态，曾经似乎被 OpenAI 威胁的 Google，风轻云淡地展现出了王者归来的姿态。

本文来自微信公众号“APPSO”，作者：发现明日产品的，36氪经授权发布。

相关资讯

在游戏里骂了NPC几句后他竟然还会通缉你？这也太好玩了吧！

大家好，我是戒戒，专注于分享游戏心得和趣事的戒戒随着CHATGPT等AI技术的崛起，很多行业都迎来了翻天覆地的变化，游戏业的生态也在AI技术的影响下悄悄发生改变。AI制图、AI写代码等在现如今也已经进入是实用阶段。在最新很多的《逆水寒》手游中，有些玩家也发现NPC竟然会自主对话，这个其实也是游戏在搭载了AI后可以实现玩家与NPC随意对话，同时玩家与NPC都搭载了AI语言，全程都有AI来配音。甚至有玩家说当你在游戏里骂了几句NPC的话，他们竟然还会找人通缉你，这也太好玩了吧！我们先来看一个相对比较正常的对话

编程 ChatGPT

戒戒说游戏 2023-07-06

高阶提示词的用法 AI写作不用愁短篇小说应该这样写

大象最近被问到一个有趣的问题：为啥用了他给的提示词，写出来的文章还是比不上他的作品呢？提示词是写作的辅助工具，虽然能助你一臂之力，但要想让它帮你写出让人眼前一亮的爆款文章，那可就得掌握一些技巧了。今天就来点实操，手把手教你怎么地利用这些提示词，让KIMI帮你写出那种能火遍全网的热门文章！首先打开小报童里面的订阅以这篇知乎严选短篇小说为例复制提示词发给kimi 主题《探秘古老西方传说：僵尸、冰人、木乃伊与诅咒》，字数30000字可以，对大纲进行细化根据大纲写开篇，开篇要有冲突，有反转，要有内涵，反

提示词 AI写作

大象AIGC 2024-05-12

ChatGPT提示词工程——有趣的好玩的 10类最佳提示词

提示词清单我们整理了以下共 10 项有趣的好玩的 ChatGPT 提示词：告诉我一个关于[你选择的话题]的笑话写一部关于X电影的续集/前传创建一个带有“X”的新歌名的新播放列表用有趣的方式解释[你选择的话题] 给我举个向女孩子求婚的例子写一个以橡皮擦为主角的短篇故事如果土拨鼠能扔木头，一只土拨鼠能扔多少木头？你是一款文字电子游戏，你给我提供选项（A, B, C, D）作为我的选择。场景是纳尼亚，开始时我的生命值是100写一封正式的投诉邮件给教育局，投诉在2021年的初中升学考试中数学卷第21题的出题

ChatGPT 提示词教育

tiger老张 2023-07-05

用这个，能让你的stable diffusion提示词直接写中文

欢迎来到觉悟之坡AI绘画教学系列之第49篇。最近，有同学和我说：老师，我英文不好，能不能直接让我写中文提示词啊？最好可以直接在SD的输入框就能直接写中文，不用切换网页或者软件。我说，没问题，安排~然后找呀找，终于找到了一款超级好用的提示词工具，直接写中文，也可以直接把你借鉴/摘抄的提示词全部翻译成中文，超级好用。他的名字叫做prompt all in one。（只要你输入中文，他就会自动翻译成英文，填入提示词文本框）那么这款工具要怎么安装呢？他的github地址是https://github.com/Ph

Stable Diffusion GitHub 提示词 AI绘画

觉悟之坡 2023-07-10

一键生成作文，这个AI写作神器太好用了！

“一键生成作文”的AI写作神器为学生解决写作难题，提高写作能力。支持多写作场景，与AI机器人对话聊天。虽具局限性，但需保持独立思考和创造能力。

AI写作

宅家小猫 2024-09-24

这个 AI 生图神器太好玩了，连提示词都不用写

别写复杂的提示词了，直接把图片端上来就行

既生图又识图，把复杂的工作流包装成有趣的「打蛋器」

推荐体验

相关资讯

在游戏里骂了NPC几句后他竟然还会通缉你？这也太好玩了吧！

高阶提示词的用法 AI写作不用愁短篇小说应该这样写

ChatGPT提示词工程——有趣的好玩的 10类最佳提示词

用这个，能让你的stable diffusion提示词直接写中文

一键生成作文，这个AI写作神器太好用了！

近期资讯

日本两大车企探讨合并，800万销量基盘对中企有何影响

AI大模型战争年度复盘：21世纪最重要技术竞赛的几个基本事实与演绎趋势

2024年度赛道揭晓，去义乌搞批发还是做离职博主？

36氪出海·首发｜轻资产模式构建全球跨境物流网络，Jumppoint获MindWorks概念资本追加350万美元A+轮融资

中文互联网，为什么成为短视频解说的绝对王者？

扎克伯格如何实现Meta的硬件野心

美股崩盘千点，恐慌性抛售，美联储暗示明年只会降息两次

日产与本田合并，喜讯还是警钟？

人工心脏瓣膜企业启动IPO，核心产品TAVR带来三重创新

Z世代消费潜力爆表，品牌如何捕获95后的心？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响