用AI做了一张图，过程比想象的复杂

今天本来想偷个懒。写博客写到一半，脑子里突然冒出一个画面，想着配张图应该挺有意思。以前这种时候我会打开Pinterest翻半天，或者自己用Procreate画个大概，但今天脑子一热——让AI来画吧，反正现在工具这么多。

结果这一搞，搞了我三个小时。

我选的是Midjourney的最新版，v6.1，因为前两天刚看到它更新了风格参考功能。我寻思着，咱也不是没玩过AI绘图，prompt写几句不就完了？天真。

第一轮，我输入了大概二十个词的描述，什么”赛博朋克风格的猫咪，坐在霓虹灯下，眼神忧郁，周围有雨滴”。出来的结果，怎么说呢，像是一只得了近视的猫在淋浴。画面倒是有霓虹灯，但猫咪的眼神不是忧郁，是”我刚刚吞了一只苍蝇”的那种迷茫。雨滴画得像像素颗粒，整个构图歪到左边去了。

我不服。第二轮我加了参数，–ar 16:9，–style raw，还特意写了”cinematic lighting”。结果出来一张图，猫倒是挺帅的，但背景的霓虹灯招牌上赫然写着几个莫名其妙的汉字，组合起来大概是”饭馆猫电”。我怀疑Midjourney的中文语料库是在哪个废弃的烧烤摊上抓取的。

第三轮，我决定用reference image。找了一张我很喜欢的摄影师拍的街景照片传上去，用–sref参数。这次效果好了不少，色调和光影确实接近了，但猫咪长出了三只耳朵。不是那种艺术风格化的三只耳朵，就是实打实的、毛茸茸的、第三只从头顶斜着长出来的耳朵。我盯着那张图看了十秒钟，笑了。行吧，AI也有自己的审美。

到这里我已经有点烦躁了。按理说我可以直接用这张图，反正博客配图嘛，没人会放大看猫咪有几只耳朵。但我的完美主义人格这时候跳出来了，它说不行，你得让它看起来像是你认真做的。

于是我打开了Photoshop。对，你没看错，用AI生图之后，我反而打开了Photoshop。手动把第三只耳朵修掉，调了一下对比度，加了一点噪点让画面更统一。然后我又把图扔回Midjourney，用–vary region功能重新生成修改过的区域。这一步倒是挺顺利的，耳朵没了，但猫咪的表情从忧郁变成了”刚睡醒发现自己被偷拍”。

无所谓了，我决定接受。

回头想想，这个过程的复杂程度远超我的预期。不是说AI不行，而是”我想要的东西”和”AI能直接给的东西”之间，永远隔着一层翻译。我需要把我的视觉想象翻译成文字，文字翻译成参数，参数翻译成seed值，seed值翻译成一次次reroll。这个过程本身就像是在跟一个很聪明但完全不懂你的外星人沟通。

而且我发现一个问题，就是越好的模型，反而越难控制。Midjourney v6.1的细节丰富程度确实比v5高了一大截，但正是因为细节太多，它自己”发挥”的空间也大了。以前v4时代，你写”一只猫”，它给你一只猫，表情呆滞但至少形态正常。现在你写”一只忧郁的猫”，它给你猫的同时还附赠了背景里一百个随机生成的小物件，其中可能包括一把椅子、三个酒瓶、一个不知道是什么的发光体。你删也不是，留也不是。

DALL-E 3我也试过。它的文字理解能力确实强，但生成的图像总有一种”太干净”的感觉，像是宜家样板间。Stable Diffusion我装过本地版，但我的显卡是3060，跑一次SDXL要四十秒，调一次参数又要四十秒，来回折腾下来，我宁愿去楼下跑三公里。

最后我得出一个结论：AI绘图目前最适合的场景，其实是”快速生成灵感板”或者”做个大概的视觉参考”。真正要拿来做成品，尤其是那种你心里已经有明确画面的成品，还是得手动修。它是个很好的草图工具，但不是设计师的替代品。至少现在不是。

当然，也许过半年又不一样。这东西迭代太快了，快到我有点跟不上。上个月还在讨论ControlNet，这个月已经有人在用Sora做短视频了。我写这篇博客的时候，Midjourney又出了个新功能叫”角色一致性”，说是可以让同一个角色在不同场景里保持长相统一。我还没来得及试，但光看介绍就觉得，又有一批画师要焦虑了。

不过今天这事儿让我明白了一件事：别以为有了AI就能当甩手掌柜。工具越强，你越得知道自己要什么。不然你就是在跟一个三头六臂的怪物玩猜谜游戏，它每次都能给你答案，但答案永远不是你心里那个。

明天我可能还是继续用Procreate画图。至少画错了，责任在我自己，不用怪AI长了三只耳朵。

用AI做了一张图，过程比想象的复杂

发表回复 取消回复

发表回复取消回复