跳至正文

今天被AI写作工具的中文能力气到笑出声

事情是这样的。最近接了个活儿要给一个中文媒体写几篇产品测评类的文章,我寻思着这不是撞到枪口上了嘛,反正现在AI写作工具多如牛毛,我一个个试过去,挑个最顺手的帮我搞定初稿,我自己润色润色就完事了。

结果呢,我花了一整个下午,先后折腾了四个工具,分别是Claude 3.5 Sonnet、GPT-4o、Kimi和通义千问。怎么说呢,结果让我有点想骂人。

先说说Claude。我之前一直觉得Claude写英文文案很稳,逻辑清晰,废话少。但是中文,尤其是那种带点口语化、带点戏谑、带点个人情绪的中文,它写出来就特别别扭。我给了它一个提示词,让它写一篇关于“智能家居到底有没有用”的吐槽文,要求语气是“一个被智能音箱气到崩溃的普通用户”。Claude给出来的东西,怎么说呢,像是某个中年程序员喝了二两白酒之后强行装年轻人说话,每个感叹号都透着一股“我努力了但我不懂”的悲壮感。比如它写了这么一句:“这个智能音箱简直弱爆了!它居然听不懂我说‘关灯’!”我寻思这语气怎么那么像十年前QQ空间里那种“今天好烦啊”的风格。而且它特别喜欢在句尾加“哦”、“呢”、“啦”,仿佛在哄小孩。我试了两次,微调了温度参数从0.7降到0.4,结果更灾难,变得像客服话术。

然后是GPT-4o。这货在英文世界里是王者我知道,但中文这块,它总给我一种“这台词是翻译过来的”既视感。比如我让它写一段关于上班族午饭纠结的描述,它写了“午间的钟声已然敲响,腹中饥饿催促着抉择……”我直接笑出声。大哥,谁上班中午吃饭会说“午间的钟声已然敲响”啊?我们说的是“到点了,吃啥”。不过GPT-4o有个优点是它特别能编,你给个框架它能给你填出两千字不重样的内容,但你要它写得像是人写的,得花大量时间改提示词。我试了把temperature调到0.9,加上“用北京口语、带脏话但别太脏”的约束,出来的东西……像是一个东北人在假装北京人说话,而且脏话位置极其刻意。算了。

接着我试了Kimi。说实话Kimi的初版我还挺喜欢,因为它免费、上下文长、对长文本处理也不错。但现在它的中文写作能力,我觉得卡在一个很尴尬的位置:它不会犯特别离谱的语法错误,但你一看就知道这是AI写的,因为它太“干净”了。没有语病、没有跳脱、没有情绪起伏,每个句子都像是经过质检的。我让它写一段关于挤地铁的吐槽,它写“地铁车厢内拥挤异常,人与人之间的距离被压缩到极致”,这话错了吗?没错。但你读着会感觉是在看某个城市宣传片的旁白稿,而不是一个社畜的真实心声。我试了在提示词里加“语气要暴躁一点”,结果它在句首加了个“哎”,后面还是正经八百的。Kimi的中文能力我觉得更像是一个语文课代表,什么都能写,但写不出灵魂。

最后是通义千问。这个家伙我本来没抱太大期望,毕竟之前试用的时候觉得它中文还行但不够灵活。但今天试完前面三个之后,通义反而成了最让我意外的。我给了它完全一样的任务——写那篇智能家居吐槽文,它出来的第一句是:“我花了三千块买了个智能马桶盖,结果它连我蹲上去都检测不到。”我当场愣住。这个开头有具体场景、有金额、有细节、有真实感。而且它后续的风格保持了那种“普通人被科技产品折腾”的无奈感,没有硬凹年轻人语气,没有乱加语气词,就是大白话,但很自然。我后来特意对比了一下它和Claude的同一段输出,Claude写“这个智能灯泡真是让人无语”,通义写“我对着手机喊了五遍‘关灯’,灯没关,倒是把小爱同学叫醒了”。这种细节上的差距,就是真懂中文生活和只是在数据库里检索过中文语料的区别。

当然通义也不是没问题。它在长文逻辑上偶尔会跑偏,比如写着写着突然来一句“其实智能家居的未来还是很光明的”,这种突兀的正能量插入真的让人想关掉浏览器。而且它的克制力不太稳定,我试了三次同样的提示词,有一次它居然在结尾加了个“你觉得呢?”这种社交尴尬式的反问。

说实话,这一圈试下来,我觉得目前中文AI写作工具最大的问题不是“会不会写”,而是“会不会像人一样写”。Claude和GPT-4o像是外国人在学中文,语法都对但总差点味儿;Kimi像是提前背了范文;通义最接近真人,但偶尔也会露出马脚。你要我选一个帮我写初稿,我可能会选通义,因为改起来最省力,基本就是删掉它偶尔冒出来的鸡汤句就行。但要说完全放心让它独立写作,我觉得至少还得再等半年到一年。

另外有个小插曲,我在测试的过程中不小心把其中一个工具的API key泄露到了控制台日志里,然后被一个同事看到了,他截图发到群里问我是不是脑子进水了。我只好解释说这是测试用的免费额度,其实不是,我确实忘了删。这种尴尬时刻,AI帮不了我。

好了,今天先记到这里。明天打算试试国产的另一个叫“文心一言”的,听说最近更新了4.0版本,不知道会不会又让我血压升高。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注