今天被AI写作工具的中文能力气到笑出声

事情是这样的。最近接了个活儿要给一个中文媒体写几篇产品测评类的文章，我寻思着这不是撞到枪口上了嘛，反正现在AI写作工具多如牛毛，我一个个试过去，挑个最顺手的帮我搞定初稿，我自己润色润色就完事了。

结果呢，我花了一整个下午，先后折腾了四个工具，分别是Claude 3.5 Sonnet、GPT-4o、Kimi和通义千问。怎么说呢，结果让我有点想骂人。

先说说Claude。我之前一直觉得Claude写英文文案很稳，逻辑清晰，废话少。但是中文，尤其是那种带点口语化、带点戏谑、带点个人情绪的中文，它写出来就特别别扭。我给了它一个提示词，让它写一篇关于“智能家居到底有没有用”的吐槽文，要求语气是“一个被智能音箱气到崩溃的普通用户”。Claude给出来的东西，怎么说呢，像是某个中年程序员喝了二两白酒之后强行装年轻人说话，每个感叹号都透着一股“我努力了但我不懂”的悲壮感。比如它写了这么一句：“这个智能音箱简直弱爆了！它居然听不懂我说‘关灯’！”我寻思这语气怎么那么像十年前QQ空间里那种“今天好烦啊”的风格。而且它特别喜欢在句尾加“哦”、“呢”、“啦”，仿佛在哄小孩。我试了两次，微调了温度参数从0.7降到0.4，结果更灾难，变得像客服话术。

然后是GPT-4o。这货在英文世界里是王者我知道，但中文这块，它总给我一种“这台词是翻译过来的”既视感。比如我让它写一段关于上班族午饭纠结的描述，它写了“午间的钟声已然敲响，腹中饥饿催促着抉择……”我直接笑出声。大哥，谁上班中午吃饭会说“午间的钟声已然敲响”啊？我们说的是“到点了，吃啥”。不过GPT-4o有个优点是它特别能编，你给个框架它能给你填出两千字不重样的内容，但你要它写得像是人写的，得花大量时间改提示词。我试了把temperature调到0.9，加上“用北京口语、带脏话但别太脏”的约束，出来的东西……像是一个东北人在假装北京人说话，而且脏话位置极其刻意。算了。

接着我试了Kimi。说实话Kimi的初版我还挺喜欢，因为它免费、上下文长、对长文本处理也不错。但现在它的中文写作能力，我觉得卡在一个很尴尬的位置：它不会犯特别离谱的语法错误，但你一看就知道这是AI写的，因为它太“干净”了。没有语病、没有跳脱、没有情绪起伏，每个句子都像是经过质检的。我让它写一段关于挤地铁的吐槽，它写“地铁车厢内拥挤异常，人与人之间的距离被压缩到极致”，这话错了吗？没错。但你读着会感觉是在看某个城市宣传片的旁白稿，而不是一个社畜的真实心声。我试了在提示词里加“语气要暴躁一点”，结果它在句首加了个“哎”，后面还是正经八百的。Kimi的中文能力我觉得更像是一个语文课代表，什么都能写，但写不出灵魂。

最后是通义千问。这个家伙我本来没抱太大期望，毕竟之前试用的时候觉得它中文还行但不够灵活。但今天试完前面三个之后，通义反而成了最让我意外的。我给了它完全一样的任务——写那篇智能家居吐槽文，它出来的第一句是：“我花了三千块买了个智能马桶盖，结果它连我蹲上去都检测不到。”我当场愣住。这个开头有具体场景、有金额、有细节、有真实感。而且它后续的风格保持了那种“普通人被科技产品折腾”的无奈感，没有硬凹年轻人语气，没有乱加语气词，就是大白话，但很自然。我后来特意对比了一下它和Claude的同一段输出，Claude写“这个智能灯泡真是让人无语”，通义写“我对着手机喊了五遍‘关灯’，灯没关，倒是把小爱同学叫醒了”。这种细节上的差距，就是真懂中文生活和只是在数据库里检索过中文语料的区别。

当然通义也不是没问题。它在长文逻辑上偶尔会跑偏，比如写着写着突然来一句“其实智能家居的未来还是很光明的”，这种突兀的正能量插入真的让人想关掉浏览器。而且它的克制力不太稳定，我试了三次同样的提示词，有一次它居然在结尾加了个“你觉得呢？”这种社交尴尬式的反问。

说实话，这一圈试下来，我觉得目前中文AI写作工具最大的问题不是“会不会写”，而是“会不会像人一样写”。Claude和GPT-4o像是外国人在学中文，语法都对但总差点味儿；Kimi像是提前背了范文；通义最接近真人，但偶尔也会露出马脚。你要我选一个帮我写初稿，我可能会选通义，因为改起来最省力，基本就是删掉它偶尔冒出来的鸡汤句就行。但要说完全放心让它独立写作，我觉得至少还得再等半年到一年。

另外有个小插曲，我在测试的过程中不小心把其中一个工具的API key泄露到了控制台日志里，然后被一个同事看到了，他截图发到群里问我是不是脑子进水了。我只好解释说这是测试用的免费额度，其实不是，我确实忘了删。这种尴尬时刻，AI帮不了我。

好了，今天先记到这里。明天打算试试国产的另一个叫“文心一言”的，听说最近更新了4.0版本，不知道会不会又让我血压升高。

今天被AI写作工具的中文能力气到笑出声

发表回复 取消回复

发表回复取消回复