AI画图工具Midjourney又双叒升级：这次轮到摄影师恐惧了？

作者：酷玩实验室发布时间：2024-01-22

AI画图工具Midjourney又双叒升级：这次轮到摄影师恐惧了？

你也许对下图这些电影或者游戏角色十分熟悉，但是如果我告诉你，这些都是用AI生成的，那么阁下又该如何应对呢？

去年12月21日，世界上最受欢迎的AI图片生成工具——Midjourney开始对其最新版本V6模型进行Alpha测试。

Midjourney创始人David Holz 在Midjourney的Discord论坛服务器上写道：“这个模型可以生成比我们之前发布的任何模型都更加真实的图像。”他还表示，V6实际上是“在我们的人工智能超级集群上从头开始训练的第三个模型”，花了九个月的时间开发。

测试开启之后，所有人都被V6的强大震撼了，甚至是强大得有点过头了，因为通过MidjourneyV6模型生成的图片，似乎与一些受版权保护的艺术作品，有些过于相似了。

有多相似呢？

有一位曾与漫威和DC等电影工作室多次合作的概念艺术家、插画师，Reid Southen，在使用关键词测试Midjourney时发现，生成的图像与多部电影中的场景几乎一模一样。

图片左侧为电影及游戏截图，右侧为V6模型生成

这精度！这光影！跟电影和游戏原场景不能说是一模一样，也可以说是完美复刻了。

而且MidjourneyV6连知名的卡通人物也可以很容易地复制，正如这些《辛普森一家》片段所体现的那样。

图片均为V6模型生成

这真的是AI生成的吗？这真的不是抄袭吗？

面对用户的版权质疑，Midjourney的回应也是十分迅速，问题的关键就是要解决关键的问题。

他们封禁了那位插画师Reid Southen，将其账户从公司的Discord平台中剔除，删除了他的使用历史，取消他的服务订阅；在Southen创建了一个新帐户并报告了更多结果后，Midjourney再次封禁了他（甚至没有退还他的订阅费）。

Midjourney的举动也是激怒了Southen，他一直在推特上喋喋不休地发文控诉Midjourney的“剽窃”行径。

那么MidjourneyV6真的到了以假乱真的地步了吗？以后的AI绘图是否会完全代替人工绘图，甚至精确到连后期微调都不需要了呢？废话不多说，让我们来测试一波！

测试部分：

我先实验了一下V6用同一个角色连续生成图片的功能，看看能不能模仿日漫的画风，简单地写了个小故事，毕竟人物角色的连续性对于我们讲故事来说非常重要——

繁忙的高中走廊里挤满了各式各样的学生，他们拿着书本，聊天，走过储物柜。

一个十几岁的男孩，中等身高，走过走廊，表情温和，头发略显凌乱，穿着稍大号的高中校服。

他的脸上显现出好奇和轻微的焦虑，眼睛扫视着走廊。

前不久他偶然发现，自己能通过触碰物品看到它们所有者的过去。

他来到教室，小心翼翼地伸手触摸同学的笔记本，看到了一个个令人惊讶的秘密。

他看到了一位以前被大家都认为很害羞的同学，在舞台上自信地表演，揭示了隐藏的歌唱天赋。

他又拿起一根笔，在另一个闪回中，全班第一的班长正在秘密地制作复杂的模型飞机，这是他向同学们隐瞒的一项爱好。

拿到卷子时，他看到了一位看着眼神很凶恶的同学在家里温柔地照顾弟弟妹妹，这与他们在学校的形象背道而驰……

我的评价是，人物的连续性非常到位，画风的连续性略有瑕疵，对于提示词理解也比之前的版本上了一个台阶。

看来接下来的趋势是，只要你有构思精彩故事的能力，即便完全不会画画，也能生成精彩的漫画故事了。

有哪位想成为下一个尾田荣一郎或者青山刚昌的吗？我看好你哦！

接下来我们用MidjourneyV6和V5.2版本进行生图对比，看下这版的Midjourney相比之前的进步或者区别在哪里。【*注：前一张为V5.2，后一张为V6】

首先是一般人物的图片生成：

提示词：Japanese girls, fashion photography, studio shot, --ar 5:7（日本女孩，时尚摄影，棚拍，比例5:7）

提升是显而易见的，V5.2的整体画质还是有些模糊，并没有摆脱传统AI生成图片的油画感，而V6在画面质感以及细节刻画上有了更精致的表现，图像的光影处理也更加真实自然，若不是我亲手操作我真以为是专业摄影师的作品了。

然后是动漫人物的图片生成：

提示词：A Japanese cartoon of a beautiful girl in a black stocking. A small black sphere inside of a giant transparent sphere in a white room（一张日本卡通画，画中一个美丽女孩穿着黑色长袜。画面中一个白色房间内有一个巨大的半透明球体内有一个小小的黑色球体。）

可以看出V6的默认风格更加写实一些，这张图片两个版本的AI理解都有点问题，V5把黑球画成了黑猫，V6忽略了黑球，看来Midjourney在理解这种层层嵌套的复杂提示词的时候还是有点问题。

接下来是产品图的图案生成——

提示词：oil and lotion on tray with towel and plant near a window, in the style of photorealistic renderings.frequent use of yellow, back button focus, fujifilm velvia, realistic rendering, kimoicore --ar 3:4（油彩和乳液在盘子上，旁边有毛巾和植物，窗户附近，风格类似于照片写实渲染。经常使用黄色，背景按钮对焦，富士Velvia，写实渲染，KimoCore-AR 3:4。）

可以看出来V6生成的图片，除了细节更丰富，光影更自然，更接近真正的照片之外，它还理解到了富士相机的风格，并且把这个“富士滤镜”加入到了生成的照片中，看来可能今后连相机都不用买了，只要在生成的图片中加入相机型号，就能生成相应的风格照片。

食物的图案生成：

提示词：A close-up shot of a succulent grilled steak, captured with a shallow depth of field using a Canon EOS 5D Mark IV and a 50mm f/1.8 lens at ISO 200, 1/200 shutter speed, showcasing the caramelized sear, tender pink interior, and glistening juices, evoking a mouthwatering visual feast（一张特写的烤牛排的照片，使用佳能EOS 5D Mark IV和50mm f/1.8镜头在ISO 200、1/200的快门速度下拍摄，利用浅景深捕捉，展示了焦糖化的外皮、嫩粉色的内部和闪耀的汁液，引发了一场令人垂涎欲滴的视觉盛宴。）

食物的生成图片很相似，不过V6版本能营造出那种汁水感，看起来更诱人一些，而V5版本的牛排有种烤过头的感觉。与上面的产品图类似，V6也捕捉到了关于照片创作的关键信息——特写，相较于V5.2的全景，V6的图片才可以称之为特写。

特定风格的图案生成，我挑了三个风格的展现，第一个是美漫风格。

提示词：Alex Ross Comic Cover art with the Marvel Book Title "She-Hulk" at the top. gorgeous superheroine She-Hulk with her green skin and wearing her white and purple superhero outfit and also her muscles, (Ed Benes Studio) Artgerm style, close-up portrait, character reclining, comic book art（Alex Ross漫画封面艺术，上面是漫威的书籍标题“She-Hulk”，美艳的女超级英雄She-Hulk，她穿着白色和紫色的超级英雄服装，还有她的肌肉，(Ed Benes工作室)Artgerm风格，特写肖像，角色躺卧，漫画艺术。）

这个不多说，从语义的理解和生成的质量上，V6完全吊打V5.2，V5.2还没有完全理解She-Hulk是女性版绿巨人，生成了男性超级英雄的角色。

第二个是慕夏的版画风格。

提示词：Beautiful. Mucha style（美女，慕夏风格）

V6的细节明显更多一些，但是从生成的景别，人物姿态来看，不得不说V6有些死板了。

第三个是找了美国黄金时代的插画家Leyendecker风格。

对比可以看出：虽然V6细节更多，但更偏向写实，不太像画作，并且风格也和Leyendecker大相径庭，V5.2虽然是画作，但风格和Leyendecker也没有太大关系，看来，对于一些罕见情况（Corner Case），Midjourney还是没有覆盖到，并且V6比V5.2真实也是事实，即便要生成的是风格绘画也强行真实。

图片中带有文字的图案生成方面，目前只适用于简短的英语文字生成。

提示词：A neon logo sign with the word " Welcome" written on it, outside a bar in new york city at night（纽约市一家酒吧外夜晚悬挂的带有“Welcome”字样的霓虹灯招牌标识。）

不用说，从单词的拼写上面，V6就已经赢了。

此外我还进行了其它的测试，例如生成装修设计图。

提示词：High-end kitchen scene, simple atmosphere, warm colors（高端厨房场景，简约大气，温暖色调）

躺在火炉旁的猫：

提示词：a cat is sleeping next to a fireplace, in the style of unreal engine 5, light amber and crimson, uhd image, norwegian nature, joel robison, dignified poses, soft, dreamy scenes --ar 128:71（一只猫在壁炉旁睡觉，风格为虚幻引擎5，淡琥珀色和暗红色，超高清图像，挪威自然，乔尔·罗比森，庄重的姿势，柔和的，梦幻般的场景——AR 128:71）

还有中国明星：

提示词：Liu Shishi is wearing a new Chinese-style green haute couture, with a tense and powerful posture. The background is a bamboo forest, with water splashing, martial arts pose, full body shot, wide-angle lens, 3/4 face（刘诗诗身穿一袭中国风的绿色高级定制礼服，身姿挺拔而有力，背景是一片竹林，水花四溅，摆出武打姿势，全身照，广角镜头，3/4脸。）

从上面三个例子都可以看出，与V5.2相比，V6在细节和提示词的理解上，提升巨大，特别是在猫咪和中国明星这两张图片上，V6的作品明显更像真实场景，而V5.2更像是画作。

总结来说，虽然现在MidjourneyV6版本还是测试版本，还有很多缺陷，例如饱和度和细节过高，但它呈现出来的图片真实性，人物的连贯性，以及对描述词理解的准确性，已经足以帮我们完成很大部分创作工作，让没有绘画能力的小白也能出广告画，出漫画故事。

更重要的是，它相比上一版本提升巨大，随着时间的推移，它只会越来越强。

我们该如何用好V6？

当然，对于我们普通人来说，如何利用手头上的AI工具完成任务是我们最关注的重点。

在最新的公告中，Midjourney官方提到：

1、V6版本对提示词更加敏感了。用户不再需要使用无用的词汇，如“令人印象深刻的”、“逼真的”、“4k”、“8k”等；

2、明确表达你想要的。但当你明确表达时，模型会在理解你意图方面做得更好。

比如经过我的尝试，像“获奖的、逼真的”这些词语并不能提升图像质量，反而可能对画面内容的生成产生干扰，而输入具体的想要用到相机，具体的画家风格，具体的镜头景别，具体的景深，则会对输出的画面提升巨大。

所以就如同一些别的AI工具一样，AI时代我们每个人都相当于变成了一个小团队的老板，清晰地知道自己要什么，变得比擅长自己执行重要，而且是越来越重要。

最后给大家一个网址，这是Midjourney提示词生成器，能够自动翻译编写成提示词：MidJourney Prompt生成器（https://ai.sppinfo.cn/）