跳至正文

用AI做了一张图,过程比想象的复杂

今天想做个封面图,就那种科技感强一点的,配我这篇AI日记用。我想着,AI画图现在不是很火吗,正好试试手。结果呢,折腾了一整个下午,差点把自己整自闭。

先说工具吧,我选了Midjourney,最新的V6版本,号称画质逼真、光影无敌。我寻思着,这不是手到擒来的事么。打开Discord,输入“/imagine prompt:”,然后开始打字。

我想要的画面是这样的:一个透明的AI大脑,漂浮在数据流组成的宇宙中,周围环绕着发光的代码和神经网络连接线,背景是深邃的星空蓝。

第一次生成的图出来,我差点笑出声。那大脑看起来像个剥了皮的柚子,数据流像一团乱麻,星空背景糊成一坨,比例还不对,整个画面歪歪扭扭的。我当时就心想,这V6版本是不是还没训练好?还是我prompt写得太随意了?

于是我开始查资料,看别人怎么写的。这一查不要紧,发现prompt工程是一门玄学。有人说要加“octane render”,有人说要加“cinematic lighting”,还有人说加“8k, ultra detailed”能提升画质。我全加上了,然后重新生成。

第二次的结果比第一次好一点,起码大脑的形状正常了,但那个数据流还是像彩色的蜈蚣,一条一条的,毫无美感。而且背景里莫名其妙多了很多气泡,让我想起儿童沐浴露广告。我彻底服了,这AI根本不明白我想要什么。

我开始怀疑自己是不是中文思维太重,导致prompt描述太抽象。于是我让一个写科幻小说的朋友帮我把画面描述翻译成英文,他写得特别有画面感,什么“holographic synapses firing in stochastic patterns”,什么“constellations of binary code drifting through a datasphere”。我复制粘贴,满怀期待地按下回车。

结果出来了,画面变得极其复杂。细节是多了,但全挤在一起,那个大脑被密密麻麻的代码覆盖,根本看不清轮廓,背景的星空跟涂色本没涂满一样,一块蓝一块黑。更离谱的是,左下角多了一个莫名其妙的猫头,瞪着大眼睛看我,像是在说:“你丫到底会不会用?”

我放弃了Midjourney,转战DALL-E 3。OpenAI的,应该更智能一些。我心想,既然文字描述太抽象,那我换个思路,给个参考图呢?我用Photoshop随便拼了个草图,把大脑画成几根线条,数据流用箭头代替,背景涂成深蓝色。然后上传给DALL-E 3,写prompt:“基于这张草图,生成高质量的科技感封面,风格类似《黑客帝国》。”

DALL-E 3的回复倒是快,但它生成的图完全无视了我的草图。它自己理解了一个版本:大脑变成了一个发光的灯泡,数据流变成了绿色代码雨,背景是黑色。这画面不能说不好看,但跟我想要的差十万八千里。而且那个灯泡的造型,怎么看怎么像宜家卖的台灯。

我开始怀疑自己是不是对AI要求太高了。算了,退一步,我直接去Civitai上找别人训练好的模型吧。找了一个叫“Cyberpunk Brain”的LoRA模型,下载下来,装进Stable Diffusion的WebUI里,加载权重,设置采样步数30步,CFG Scale 7,采样器用DPM++ 2M Karras。加载模型的时候报了个错,说CUDA out of memory,我才想起来我的3060显卡只有12G显存,跑高清图容易炸。没办法,把分辨率降到768×768,关掉高清修复,硬着头皮跑。

等了大概两分钟,生成出来了。这次终于有点像样了。大脑的结构清晰,有那种半透明科技质感,数据流的线条流畅,颜色从蓝色渐变到紫色,背景有星空粒子,整体构图也稳。但问题又来了,画面太单调了,缺乏视觉焦点。整个大脑居中,背景空旷,看起来像产品说明书里的插图。

我决定再加点元素。prompt里加了“a glowing portal behind the brain, neon light reflections, volumetric fog, dramatic atmosphere”。然后重新跑。这次显存直接炸了,程序崩溃,弹出一个红色错误窗口,说我显存不足,建议降低分辨率或使用VRAM优化。我气得想砸电脑。

冷静下来后,我试了用低配置跑批量的方式。先跑一张低分辨率的预览图,确定构图没问题,再开启图生图,放大两倍,加细节。这个过程特别折磨人,因为每次调整参数都要等两分钟,然后看结果,不满意再调。我反复调了大概十几次,换了三种不同的LoRA模型,调了五次CFG Scale,四次采样器,最后终于生成了一张我自己还算满意的图。

画面是这样的:一个半透明的全息大脑悬浮在黑暗空间中央,表面有流动的光纤线条,大脑内部有微弱的蓝色光晕,周围环绕着旋转的代码环和粒子数据流,背景是深邃的星云和远处的星系,有朦胧的雾气效果,整体色调是冷蓝和紫色,视觉重心偏向右下角,大脑的左侧有发光的文字碎片。

看着这张图,我长舒了一口气。但说实话,过程真的太折腾了。从下午两点搞到晚上七点,中间吃了两包薯片,上了三次厕所,骂了无数句脏话。我觉得自己不是在创作,而是在跟AI打架。它不理解我,我不理解它,我们俩互相折磨,最后勉强达成共识。

而且我算了一下,为了这张图,我用了Midjourney、DALL-E 3、Stable Diffusion三个工具,试了六种prompt写法,换了四个LoRA模型,调了十几次参数,崩溃了两次程序,显卡风扇全程狂转。就为了一个封面图。

我突然理解了为什么有些人说AI绘画门槛低。门槛确实低,谁都能用,随便写几个词就能出图。但门槛低不代表出好图容易。你想要一张真正能用的、符合你心意的图,付出的时间成本和精力成本,有时候比直接找个人画还高。当然,如果你要求不高,能看就行,那确实快。

这张图我最后用了,但现在看到它,心里五味杂陈。不是因为它不好看,是因为我太清楚它背后那五个小时的挣扎了。AI画图,没想象中那么简单。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注