跳至正文

本地跑大模型的体验和云端的对比

今天干了件蠢事——试图用我那台三年前买的笔记本跑Llama 3.1 70B。

结果?风扇直接起飞了,那声音比我楼下装修的电钻还响。我盯着终端里那个报错信息看了半天:CUDA out of memory. Tried to allocate 2.8 GiB。我心想,行吧,70B不行,那换8B总可以吧?下载了Meta官方的Llama 3.1 8B Instruct版本,用Ollama加载,嘿,还真跑起来了。

然后我就坐那儿,看着我的笔记本CPU温度飙到94度,风扇转了整整两分钟才把第一条回复吐出来:“你好,我是Llama 3.1。”就七个字,两分钟。我当时差点没把咖啡喷屏幕上。这体验让我想起小时候用56k猫拨号上网的感觉,每加载一张图都要默念“求你了快出来”。

说实话,本地跑模型最大的问题不是能不能跑,而是跑出来的东西值不值得等。我试过用llama.cpp量化成Q4_K_M的版本,7B的模型在M1芯片的MacBook上倒是能跑,每秒大概生成8个token。8个token什么概念?就是你问它“今天天气怎么样”,它那边吭哧吭哧憋了十几秒,吐出来一句“天气不错,适合出门散步”。问题是,我十分钟前就已经在手机上用天气App看完了实时数据。

但云端就不一样了。同样是Llama 3.1 70B,我直接调Groq的API,每秒生成500个token。你没看错,500个。那种感觉就像你骑着自行车吭哧吭哧爬坡,旁边一辆法拉利嗖一下过去了。而且Groq的API现在还免费开放给开发者,注册就有每天10万token的额度。我对比了一下,同样一个问题“用Python写一个简易的神经网络”,本地那个8B版本给了我一段带明显bug的代码,而且注释全是英文混合着奇怪的语法。云端那个70B版本不仅代码完整,还贴心地加了中文注释,甚至提醒我注意过拟合问题。

但云端也有云端的坑。上周我调OpenAI的API做一个小项目,结果不小心在循环里没加延时,十分钟内发了3000次请求。月底一看账单,好家伙,42美元。42美元啊!够我吃两顿火锅了。而且你永远不知道云端服务什么时候会出问题。前几天的Claude宕机事件,我正好赶上了,那边急着要一个方案,结果Claude直接给我返回502 Bad Gateway,我差点没把键盘砸了。那种感觉就像你着急上厕所,结果厕所门上写着“维修中”。

说实话,我现在基本是两头跑。日常的简单任务,比如写个邮件草稿、整理一下会议纪要,我直接用本地的Phi-3 mini 3.8B模型。这模型小是真的小,但写出来的东西也真的像机器人。有时候它写出来的句子结构怪怪的,比如“我们将在明天的会议上讨论关于关于项目进度的内容”——看到没,两个“关于”连在一起,这种低级错误在GPT-4上基本不会出现。但胜在免费,而且离线可用,我在飞机上也能用。

真正需要质量的场景,比如写技术文档、调试代码、分析复杂问题,我还是老老实实切到云端的GPT-4或Claude 3.5 Sonnet。今天下午写一个React组件的单元测试,本地那个模型给了我一个全是用mock的测试方案,但实际场景根本用不上。换到Claude,它直接写了一个测试套件,还顺带指出了我代码里一个潜在的内存泄漏问题。这种时候你就知道,贵有贵的道理。

不过最近有个趋势让我挺兴奋的——越来越多的小模型在特定任务上表现出了惊人的能力。比如微软的Phi-3系列,3.8B的参数,在数学推理任务上的准确率居然能跟7B的模型打平。还有阿里的Qwen2.5系列,7B版本的中文能力在本地跑起来流畅度还不错。我昨天用Qwen2.5 7B跑了个古诗生成的测试,让它以“秋”为题写一首五言绝句。它写了这么一句:“秋风起兮白云飞,草木黄落兮雁南归。”我愣了一下,这不是刘邦的《大风歌》吗?但仔细一看又不太一样,是它自己组合的。虽然有点缝合怪,但对于一个7B的模型来说,能做到这种程度已经让我有点感动了。

说到底,本地跑模型和云端用模型就像你吃饭是选择自己做饭还是点外卖。自己做饭省钱,但你得洗菜切菜刷锅,而且味道还不一定能保证。点外卖方便,味道稳定,但贵,而且有时候外卖小哥会迟到或者送错。我现在的心态就是:能本地解决的问题绝不花钱上云,但遇到真正重要的活儿,该花的钱还是得花。

对了,今天还有个意外发现。我试了试在本地用Ollama部署了Mistral 7B,然后通过一个叫Continue的VS Code插件把它跟编辑器连起来了。写代码的时候按Ctrl+I就能调出它来帮忙。虽然它的代码补全速度大概比GitHub Copilot慢三倍,但至少不用联网。我在高铁上试了一路,居然写完了一个完整的CRUD接口,虽然中间它建议我用了几个已经不推荐使用的API,但整体能用。这就够了。

不过说真的,如果你只有一台普通配置的电脑,别指望本地跑大模型能给你带来什么惊艳体验。它更像是一个玩具,让你在断网的时候有个东西陪你聊天。想真正干活?老老实实上云端吧。省下来的时间,够你多睡两个小时了。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注