跳至正文

用AI做了一张图,过程比想象的复杂

今天本来想偷个懒。写博客写到一半,脑子里突然冒出一个画面,想着配张图应该挺有意思。以前这种时候我会打开Pinterest翻半天,或者自己用Procreate画个大概,但今天脑子一热——让AI来画吧,反正现在工具这么多。

结果这一搞,搞了我三个小时。

我选的是Midjourney的最新版,v6.1,因为前两天刚看到它更新了风格参考功能。我寻思着,咱也不是没玩过AI绘图,prompt写几句不就完了?天真。

第一轮,我输入了大概二十个词的描述,什么”赛博朋克风格的猫咪,坐在霓虹灯下,眼神忧郁,周围有雨滴”。出来的结果,怎么说呢,像是一只得了近视的猫在淋浴。画面倒是有霓虹灯,但猫咪的眼神不是忧郁,是”我刚刚吞了一只苍蝇”的那种迷茫。雨滴画得像像素颗粒,整个构图歪到左边去了。

我不服。第二轮我加了参数,–ar 16:9,–style raw,还特意写了”cinematic lighting”。结果出来一张图,猫倒是挺帅的,但背景的霓虹灯招牌上赫然写着几个莫名其妙的汉字,组合起来大概是”饭馆猫电”。我怀疑Midjourney的中文语料库是在哪个废弃的烧烤摊上抓取的。

第三轮,我决定用reference image。找了一张我很喜欢的摄影师拍的街景照片传上去,用–sref参数。这次效果好了不少,色调和光影确实接近了,但猫咪长出了三只耳朵。不是那种艺术风格化的三只耳朵,就是实打实的、毛茸茸的、第三只从头顶斜着长出来的耳朵。我盯着那张图看了十秒钟,笑了。行吧,AI也有自己的审美。

到这里我已经有点烦躁了。按理说我可以直接用这张图,反正博客配图嘛,没人会放大看猫咪有几只耳朵。但我的完美主义人格这时候跳出来了,它说不行,你得让它看起来像是你认真做的。

于是我打开了Photoshop。对,你没看错,用AI生图之后,我反而打开了Photoshop。手动把第三只耳朵修掉,调了一下对比度,加了一点噪点让画面更统一。然后我又把图扔回Midjourney,用–vary region功能重新生成修改过的区域。这一步倒是挺顺利的,耳朵没了,但猫咪的表情从忧郁变成了”刚睡醒发现自己被偷拍”。

无所谓了,我决定接受。

回头想想,这个过程的复杂程度远超我的预期。不是说AI不行,而是”我想要的东西”和”AI能直接给的东西”之间,永远隔着一层翻译。我需要把我的视觉想象翻译成文字,文字翻译成参数,参数翻译成seed值,seed值翻译成一次次reroll。这个过程本身就像是在跟一个很聪明但完全不懂你的外星人沟通。

而且我发现一个问题,就是越好的模型,反而越难控制。Midjourney v6.1的细节丰富程度确实比v5高了一大截,但正是因为细节太多,它自己”发挥”的空间也大了。以前v4时代,你写”一只猫”,它给你一只猫,表情呆滞但至少形态正常。现在你写”一只忧郁的猫”,它给你猫的同时还附赠了背景里一百个随机生成的小物件,其中可能包括一把椅子、三个酒瓶、一个不知道是什么的发光体。你删也不是,留也不是。

DALL-E 3我也试过。它的文字理解能力确实强,但生成的图像总有一种”太干净”的感觉,像是宜家样板间。Stable Diffusion我装过本地版,但我的显卡是3060,跑一次SDXL要四十秒,调一次参数又要四十秒,来回折腾下来,我宁愿去楼下跑三公里。

最后我得出一个结论:AI绘图目前最适合的场景,其实是”快速生成灵感板”或者”做个大概的视觉参考”。真正要拿来做成品,尤其是那种你心里已经有明确画面的成品,还是得手动修。它是个很好的草图工具,但不是设计师的替代品。至少现在不是。

当然,也许过半年又不一样。这东西迭代太快了,快到我有点跟不上。上个月还在讨论ControlNet,这个月已经有人在用Sora做短视频了。我写这篇博客的时候,Midjourney又出了个新功能叫”角色一致性”,说是可以让同一个角色在不同场景里保持长相统一。我还没来得及试,但光看介绍就觉得,又有一批画师要焦虑了。

不过今天这事儿让我明白了一件事:别以为有了AI就能当甩手掌柜。工具越强,你越得知道自己要什么。不然你就是在跟一个三头六臂的怪物玩猜谜游戏,它每次都能给你答案,但答案永远不是你心里那个。

明天我可能还是继续用Procreate画图。至少画错了,责任在我自己,不用怪AI长了三只耳朵。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注