字节豆包SeedEdit上线，AI修图成大厂AI应用新焦点？

作者：雷科技发布时间：2024-11-17

AI绘画

首先，小雷是对设计一窍不通的，毕竟我不是干设计这一行的。

但是嘛，这只要浸淫在互联网上的人，多少应该都会对传说中设计行业里那几道百年难得一遇的亘古难题，还有各种奇葩甲方才会提出的变态要求有所耳闻。

有道是，你的图片做得很好，那让画面里的大象转个身应该没有什么困难吧。

有道是，你的黑色有些单调，我希望能够看到一种五彩斑斓的黑色呢。

就不说设计师们看到这些会不会气血上涌了，我一个负责文字工作的人，看到这种批注都有点难顶。

重点是你也不能说些什么，要知道画面另一头就是金主爸爸，而且他们对这些是真的不懂。

到头来，工作就是工作，不管甲方要求有多离谱都得去做，哪怕客户要你把他照片里的拉链给拉上，你能做到的也只有截个图发到社交媒体上给大伙乐一乐，然后为了生活想尽办法去解决问题。

（图源：新浪微博）

不过，凡是问题，终究是会有解决办法的，只是这次的解决办法可能有点特殊。

昨天，字节跳动的豆包大模型团队，在公众号上秀出了最新的通用图像编辑模型SeedEdit。

官方表示，这款模型主打的就是「让一句话轻松P图成为现实」，用户只需输入简单的自然语言，便可对图像进行多样化编辑操作，包括修图、换装、美化、风格转化以及在指定区域添加或删除元素等。

听起来很不可思议？其实我也是这么觉得的。

让大象转个身

想体验这个功能的话，其实还蛮简单的就是了。

根据官方的说法，目前该模型已经在豆包PC端及即梦网页端开启测试，豆包手机端暂时还用不了这个功能。

接下来，只要点击侧边栏的「图片生成」，应该就能看到上传参考图的选项了，这里就是SeedEdit模型的入口。

要做的事情很简单，上传图片，然后输入我们想要改变的内容。

比方说，像画面里面这种大象背对我们喝水的照片，如果我想让它转身的话，那应该怎么做呢？

答案是，输入「让大象面对我」。

（图源：雷科技）

对比一下两张图片。

可以看到，SeedEdit生成的大象正面是非常合乎逻辑的，耳朵的形状、脚部的位置、身体的颜色都做得相当不错，周围的环境也保持了高度的一致，当然部分石头形状存在差异这点，细心点还是能看出来的。

（图源：雷科技）

生成后的图片还可以再次编辑，这点真的很棒。

（图源：雷科技）

不过进一步的操作，似乎就无法实现了。

我在豆包修改过的图片基础上，继续提出图片编辑的要求，但不论是「让大象跑起来」、「让大象用鼻子喷水」或者是「让大象侧过身子」，基本上很难得到令人满意的结果。

叫它喷水，结果这水确实是喷出来了，但却不是从鼻子里喷出来的，而是从象牙的部分喷出来的。

想让大模型理解啥叫作常识，确实不是件容易的事情。

（图源：雷科技）

再换个人像，或者说模型的照片试试。

因为我家里环境有限嘛，所以一般来说，拍手办的背景就比较凑合，没有时间也没有啥精力去造景拍摄。

不过现在嘛，我让它「把背景换成城市」。

（图源：雷科技）

效果有点平？那就改成「夕阳西下的光照质感」。

你还真别说，这感觉马上就到位了，整个过程中，我只对豆包说了简单的两句要求，体验起来真的很丝滑。

对贫困的胶佬来说，布景和打光的繁琐步骤或许真的能省略掉了。

（图源：雷科技）

当然，这些都是在原图上的小打小闹，如果我想直接更换画面主体呢？

比如「指鹿为马」。

（图源：雷科技）

实际生成的效果确实很不错，不仅草地背景保留得挺完整，连马身上的纹理之类的都进行了替换。

如果不看原图，基本很难察觉比例上的问题。

换衣服也没啥问题，连光影和褶皱都改得挺到位的。

（图源：雷科技）

试了一下汽车，目前SeedEdit是不认识小米SU7的。

不过我随便传了一张五菱宏光Mini EV的照片上去，然后输入了一个异常复杂的编辑指令。

（图源：雷科技）

最后生成的车子，虽然不像玛莎拉蒂，但起码也有个跑车形状了。

AI修图，爆发在即

事实上，如今AI在绘画这块儿，已经能让我们眼前一亮了。

但是在图像编辑领域，AI技术其实是相对落后的，无法进行精准编辑，一直是行业的老大难问题。

在今年以前，这类需求一般通过Stable Diffusion的ControlNet插件来实现。

它可以获取额外的输入图像，通过不同的预处理器转换为控制图，进而作为Stable Diffusion扩散的额外条件，只需使用文本提示词，就可以在保持图像主体特征的前提下任意修改图像细节。

（图源：新浪微博，识别特征并进行重新绘制）

本地部署AI应用这事，和大部分小白是基本无缘的。

所以在进入今年后，包括ChatGPT/DALLE3、Midjourney、百度超能画布都推出了局部重绘应用，试图充当在线编辑图片的功能。

不过这类应用，大多数时候还得咱们手动涂抹，选定你要修改的对象，然后输入各种提示词来做修改。

（图源：雷科技）

需要掌握正确的AI话术，才能获得理想的修图质量，门槛还是有点高了。

如果，我是说如果，我们只需要给定输入图像和告诉模型要做什么的文本描述，然后模型就能遵循描述指令来编辑图像，那得多省事儿啊。

字节端出的SeedEdit，确实是朝着这个方向努力的。

不过图修多了，问题也就出来了，目前这款模型在生成图片时还是有一些问题存在的。

首先，缺乏人像前后的一致性。

只要涉及到人物面部的修图，那么最终出来的图像和原图的差异会很夸张，基本上看不出来原来的样子。

（图源：雷科技）

其次，缺乏图片内容的方向性。

对于元素较多的图像，目前SeedEdit很难判断你要修改的是图片里的哪个元素，即便偶然识别对了，出来的图片效果也会异常扭曲。

（图源：雷科技）

最后，文字处理能力依然不行。

就像早期AI绘画那样，目前SeedEdit会编造文字内容，下面这三行小字看似有点逻辑，我看了半天，愣是没认出来写的是个啥。

（图源：雷科技）

在我看来，SeedEdit的出现，算是弥补了国产大模型在语义AI修图应用这块的空白。

可以预见的是，随着AI图像编辑技术的不断发展，未来手机、电脑都可能会集成这项功能，就像AI消除、AI扩图那样走进寻常百姓家。无论是小白还是大咖，每个人都有机会轻松上手使用，让自己对美的理解可以更直观地展现出来。

修图有手就行？或许真的不是梦。

近期资讯

Hinton发2024末日预警：10年内人类灭绝，奥特曼预言18个月ASI降临

2024年终，AI大佬们纷纷发出预测。奥特曼表示，ASI将很快到来，18个月后，我们或许就将见证奇迹。LeCun表示，AGI两年内不会到来。但Hinton则认为，AI很可能在10年内，就会让人类灭绝！

新智元 2024-12-30

抖音电商的三道“选择题”

低价还是GMV？达播还是店播？直播电商还是货架电商？

字母榜 2024-12-30

2024 大模型年度五问：等不来GPT 5怎么过？

大模型分化发展方向

AI鲸选社 2024-12-30

回顾2024：AI和新硬件，开始改变我们的生活方式

盘点离我们最近的那一部分科技

果壳 2024-12-30

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场

谷歌、亚马逊等巨头纷纷摆脱GPU依赖，于是英伟达选择押注机器人！现在，英伟达已开发了机器人全套解决方案，计划在明年年中发布全新一代人形机器人专用小型计算机Jetson Thor。全球机器人市场，或将迎来大爆发。

新智元 2024-12-30

被围剿的巴奴能一路凶猛吗

破局之道在哪里

零态LT 2024-12-30

30+被裁员，未必不是一件好事

如果继续待下去，很可能未来的后路都没了。

张良计 2024-12-30

2024年基金业绩排位赛：“冠军基”几乎无悬念

公募基金年度业绩榜单即将揭晓

时代财经 2024-12-30

“升职加薪我不要”，这届年轻人有点儿“叛逆”

希望屏幕前的每个人都有升职加薪的能力，也有拒绝升职加薪的勇气，对自己有清楚的认知，对未来有清晰的规划，不被现实裹挟。

猎聘 2024-12-30

国有车企，学着“跪着做人”

放下骄傲。

凤凰网汽车 2024-12-30

字节豆包SeedEdit上线，AI修图成大厂AI应用新焦点？

推荐体验

相关资讯

大厂纷纷上线AI代码工具，字节跳动发布豆包MarsCode

字节豆包通用图像编辑模型SeedEdit开启测试

豆包居然可以这样修图？

字节发布豆包视频生成大模型

字节跳动旗下AI助手“豆包”上线音乐生成功能

近期资讯

Hinton发2024末日预警：10年内人类灭绝，奥特曼预言18个月ASI降临

抖音电商的三道“选择题”

2024 大模型年度五问：等不来GPT 5怎么过？

回顾2024：AI和新硬件，开始改变我们的生活方式

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场

被围剿的巴奴能一路凶猛吗

30+被裁员，未必不是一件好事

2024年基金业绩排位赛：“冠军基”几乎无悬念

“升职加薪我不要”，这届年轻人有点儿“叛逆”

国有车企，学着“跪着做人”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响