用AI做了一张图，过程比想象的复杂

今天想做个封面图，就那种科技感强一点的，配我这篇AI日记用。我想着，AI画图现在不是很火吗，正好试试手。结果呢，折腾了一整个下午，差点把自己整自闭。

先说工具吧，我选了Midjourney，最新的V6版本，号称画质逼真、光影无敌。我寻思着，这不是手到擒来的事么。打开Discord，输入“/imagine prompt:”，然后开始打字。

我想要的画面是这样的：一个透明的AI大脑，漂浮在数据流组成的宇宙中，周围环绕着发光的代码和神经网络连接线，背景是深邃的星空蓝。

第一次生成的图出来，我差点笑出声。那大脑看起来像个剥了皮的柚子，数据流像一团乱麻，星空背景糊成一坨，比例还不对，整个画面歪歪扭扭的。我当时就心想，这V6版本是不是还没训练好？还是我prompt写得太随意了？

于是我开始查资料，看别人怎么写的。这一查不要紧，发现prompt工程是一门玄学。有人说要加“octane render”，有人说要加“cinematic lighting”，还有人说加“8k, ultra detailed”能提升画质。我全加上了，然后重新生成。

第二次的结果比第一次好一点，起码大脑的形状正常了，但那个数据流还是像彩色的蜈蚣，一条一条的，毫无美感。而且背景里莫名其妙多了很多气泡，让我想起儿童沐浴露广告。我彻底服了，这AI根本不明白我想要什么。

我开始怀疑自己是不是中文思维太重，导致prompt描述太抽象。于是我让一个写科幻小说的朋友帮我把画面描述翻译成英文，他写得特别有画面感，什么“holographic synapses firing in stochastic patterns”，什么“constellations of binary code drifting through a datasphere”。我复制粘贴，满怀期待地按下回车。

结果出来了，画面变得极其复杂。细节是多了，但全挤在一起，那个大脑被密密麻麻的代码覆盖，根本看不清轮廓，背景的星空跟涂色本没涂满一样，一块蓝一块黑。更离谱的是，左下角多了一个莫名其妙的猫头，瞪着大眼睛看我，像是在说：“你丫到底会不会用？”

我放弃了Midjourney，转战DALL-E 3。OpenAI的，应该更智能一些。我心想，既然文字描述太抽象，那我换个思路，给个参考图呢？我用Photoshop随便拼了个草图，把大脑画成几根线条，数据流用箭头代替，背景涂成深蓝色。然后上传给DALL-E 3，写prompt：“基于这张草图，生成高质量的科技感封面，风格类似《黑客帝国》。”

DALL-E 3的回复倒是快，但它生成的图完全无视了我的草图。它自己理解了一个版本：大脑变成了一个发光的灯泡，数据流变成了绿色代码雨，背景是黑色。这画面不能说不好看，但跟我想要的差十万八千里。而且那个灯泡的造型，怎么看怎么像宜家卖的台灯。

我开始怀疑自己是不是对AI要求太高了。算了，退一步，我直接去Civitai上找别人训练好的模型吧。找了一个叫“Cyberpunk Brain”的LoRA模型，下载下来，装进Stable Diffusion的WebUI里，加载权重，设置采样步数30步，CFG Scale 7，采样器用DPM++ 2M Karras。加载模型的时候报了个错，说CUDA out of memory，我才想起来我的3060显卡只有12G显存，跑高清图容易炸。没办法，把分辨率降到768×768，关掉高清修复，硬着头皮跑。

等了大概两分钟，生成出来了。这次终于有点像样了。大脑的结构清晰，有那种半透明科技质感，数据流的线条流畅，颜色从蓝色渐变到紫色，背景有星空粒子，整体构图也稳。但问题又来了，画面太单调了，缺乏视觉焦点。整个大脑居中，背景空旷，看起来像产品说明书里的插图。

我决定再加点元素。prompt里加了“a glowing portal behind the brain, neon light reflections, volumetric fog, dramatic atmosphere”。然后重新跑。这次显存直接炸了，程序崩溃，弹出一个红色错误窗口，说我显存不足，建议降低分辨率或使用VRAM优化。我气得想砸电脑。

冷静下来后，我试了用低配置跑批量的方式。先跑一张低分辨率的预览图，确定构图没问题，再开启图生图，放大两倍，加细节。这个过程特别折磨人，因为每次调整参数都要等两分钟，然后看结果，不满意再调。我反复调了大概十几次，换了三种不同的LoRA模型，调了五次CFG Scale，四次采样器，最后终于生成了一张我自己还算满意的图。

画面是这样的：一个半透明的全息大脑悬浮在黑暗空间中央，表面有流动的光纤线条，大脑内部有微弱的蓝色光晕，周围环绕着旋转的代码环和粒子数据流，背景是深邃的星云和远处的星系，有朦胧的雾气效果，整体色调是冷蓝和紫色，视觉重心偏向右下角，大脑的左侧有发光的文字碎片。

看着这张图，我长舒了一口气。但说实话，过程真的太折腾了。从下午两点搞到晚上七点，中间吃了两包薯片，上了三次厕所，骂了无数句脏话。我觉得自己不是在创作，而是在跟AI打架。它不理解我，我不理解它，我们俩互相折磨，最后勉强达成共识。

而且我算了一下，为了这张图，我用了Midjourney、DALL-E 3、Stable Diffusion三个工具，试了六种prompt写法，换了四个LoRA模型，调了十几次参数，崩溃了两次程序，显卡风扇全程狂转。就为了一个封面图。

我突然理解了为什么有些人说AI绘画门槛低。门槛确实低，谁都能用，随便写几个词就能出图。但门槛低不代表出好图容易。你想要一张真正能用的、符合你心意的图，付出的时间成本和精力成本，有时候比直接找个人画还高。当然，如果你要求不高，能看就行，那确实快。

这张图我最后用了，但现在看到它，心里五味杂陈。不是因为它不好看，是因为我太清楚它背后那五个小时的挣扎了。AI画图，没想象中那么简单。

用AI做了一张图，过程比想象的复杂

发表回复 取消回复

发表回复取消回复