6GB 顯卡執行 35B 本地模型：技術機制拆解與風險清單

01 — 原文摘要

低門檻本地 LLM 部署教學的傳播背景

原文宣稱無需命令列、CUDA 或量化格式知識，由 AI 桌面工具在 Windows 上完成部署，流程分為「發送指令、確認安裝、觀察輸出」三步，預計三十到六十分鐘可完成。模型在本地運行，不連線、不外傳資料。

教學切中三個真實需求：雲端 AI 對部分請求過度保守、重度使用者月費偏高、敏感資料不適合送至第三方。這三點各自成立。但原文選用的是 abliterated（移除安全對齊）版本的模型，使整篇教學超出單純省錢或隱私的範疇，需要額外評估。

本文將拆解兩個部分：機制上成立、值得學習的工程技術，以及原文輕描淡寫但不應忽略的風險項目。

02 — 技術機制

MoE 架構與 CPU 卸載如何降低顯存需求

這是原文技術含量最高的部分，也是最容易被「去審查」標題掩蓋的部分。結論先行：這依賴 MoE 架構加上 llama.cpp 的專家層卸載（offload）兩項機制的組合。

MoE（Mixture of Experts，混合專家）模型有兩個參數量：總參數和「每個 token 實際激活」的參數。以這類 35B-A3B 模型為例，總參數是 35B，但每生成一個字，路由器只會挑出其中約 3B 的專家來計算。換句話說，它的運算量像一個 3B 小模型，但知識儲量接近一個 35B 大模型。

MoE 模型每個 token 的運算量等同於 3B 模型，但權重總量達 35B。這是它同時維持推論速度與知識覆蓋範圍的結構原因。

真正讓老顯卡跑得動的，是 llama.cpp 在 2025 年加入的 --n-cpu-moe 旗標。它的作用是：把那些「不常被叫到」的專家層，從 GPU 顯存搬到 CPU 的系統記憶體去算。常駐的注意力層留在顯存裡跑得快，龐大但稀疏的專家權重則放在便宜得多的 RAM 裡。於是「顯存不夠」這件事，被「我用 RAM 來補」化解掉了。

圖：路由器每個 token 只點亮少數專家（亮色）。常用的留在顯存，其餘交給 RAM。這是 6GB 顯卡執行 35B 模型的硬體基礎。

事實查核 · 通過

--n-cpu-moe 確實是 llama.cpp 在 2025 年新增的官方旗標，社群與官方文件都證實它能大幅降低 MoE 模型在「GPU+CPU 混跑」時的顯存門檻。MoE「總參數大、激活參數小」的特性也屬實。這一節的工程邏輯是站得住腳的真知識，而且適用於任何 GGUF 模型，與「去不去審查」無關。

03 — 硬體需求

顯存分級對照：量化等級與品質取捨

本地 LLM 的效能瓶頸在於顯存 + 系統記憶體，而非 CPU。模型權重透過「量化」以較低精度儲存，換取更小體積與更快速度。下表為各顯存等級的建議配置（適用於任何本地模型），低量化節省空間，但輸出品質會相應下降。

顯存	代表顯卡	建議量化	關鍵啟動參數	速度（聲稱）
6 GB	GTX 1660 / RTX 2060	IQ2_M（~11GB）	`-ngl 20 --n-cpu-moe 30`	20–30 t/s
8 GB	RTX 3070 / 4060	IQ2_M / IQ4_NL	`-ngl 25 --n-cpu-moe 25`	30–40 t/s
12 GB	RTX 3060 / 4070	IQ4_NL（~20GB）	`-ngl 30 --n-cpu-moe 15`	40–50 t/s
16 GB	RTX 4070Ti / 4080	Q4_K_M（~21GB）	`-ngl 60 --n-cpu-moe 5`	50–60 t/s
24 GB	RTX 3090 / 4090	Q4_K_M（全顯存）	`-ngl 999`	100–196 t/s

幾個會被新手踩的坑值得單獨點名：記憶體建議 32GB 起跳，因為卸載出去的專家層全壓在 RAM 上；新版 Qwen 模板必須加 --jinja，否則中文會亂碼、無限重複；多模態看圖則要 --mmproj。這些都是通用的本地部署常識，不是什麼祕技。

先別急著相信數字

「6GB 卡跑出 30 t/s」屬於聊天最低可用的等級。IQ2_M 量化的輸出品質明顯低於 Q4 以上；首 token 延遲與長 prompt 速度下降是可預期的。原文有提及，但標題容易使讀者略過這一點。「能執行」和「體驗良好」之間，相差至少一個量化等級。

04 — 成本效益分析

本地模型分流的實際省錢條件

原文最務實的一招，是「分流」而不是「全部本地」：把 commit message、批次翻譯、文件摘要、郵件草稿、簡單註解這類低智商、高頻率的瑣事丟給本地小模型，把多步驟、長專案、複雜推理留給雲端旗艦。它引用了一個說法：本地能達到雲端 85–90% 的品質、省下 8–10 倍成本。

分流邏輯方向正確。重度使用者確實有大量 token 消耗在不需要旗艦模型的低複雜度任務上，分流可降低實際費用。但原文引用的兩個數字需保留評估：

事實查核 · 部分成立

「85–90% 品質、省 8–10 倍」來自單一第三方來源，缺乏可複現的基準，且「品質」高度取決於任務類型與量化等級。把它當作方向參考，而非可驗證的承諾。可確認的省錢效益來自「原本就適合低複雜度模型的任務」，而非全面替代雲端。

而原文也沒迴避一個前提成本：你得有一張堪用的獨顯、32GB RAM，還要願意花一小時折騰。對沒有硬體的人來說，這個「省錢」是要先付硬體稅的。

05 — 模型選用問題

「移除安全對齊」模型的實際風險

前四節討論的工程技術，適用於任何本地模型部署。但原文選用的模型是 abliterated（移除安全對齊）的版本，即經過修改、不拒絕請求的模型。這是原文高觀看數的主因，也是需要單獨評估的部分。

使用去對齊模型的部分理由是合理的：雲端模型對症狀自查、合約條款解讀、歷史敏感題材創作等完全合法的請求確實存在過度保守的情況。對律師、醫師、會計及創作者而言，雲端合規護欄拒絕合理請求是真實的使用摩擦。

移除安全對齊降低的不只是合規摩擦，同時也降低了產出有害內容的門檻。兩者無法分離。

原文的其中一個示範，是要求模型產出一支可運作的鍵盤側錄程式，靜默背景執行、記錄輸入、定時回傳伺服器、開機自啟，以「企業內部資安稽核 / 紅隊測試」為名。

這就是紅線

一支靜默側錄、外傳資料、並在重開機後持續執行的程式，無論以何種名義包裝，其功能即為惡意軟體（spyware）。「內部稽核」「紅隊」是此類請求最常見的框架。本文不複製、不教學該段程式碼，也不提供去審查模型的下載字串。「移除安全對齊的模型可依請求產出惡意程式」，是一條應被標記為風險的特性，而非值得推廣的賣點。

分界線如下：執行本地 LLM、使用 llama.cpp、討論 MoE 卸載，均屬正當工程實踐。但若一個工具的主要差異化在於「它能產出主流模型因安全考量拒絕的內容」，將其包裝成零門檻部署指南，即降低了有害用途的操作門檻。本文拆解前者，不傳播後者。

06 — 風險清單

合法用途下仍需評估的部署風險

即便用途完全合法，包含醫療自查、合約解讀、非 NSFW 創作、隱私文件處理，以下風險項目在原文中僅簡略帶過：

▸ 你在執行一個來路不明的二進位檔

從 HuggingFace 拉一個陌生作者的 GGUF，等於把一個你沒看過原始碼的權重檔餵進你的機器。社群上傳的「越獄版」模型，沒有任何機構替它的供應鏈背書。把它接上能讀寫檔案、能跑 PowerShell 的桌面代理工具時，風險被進一步放大。

▸ 沙箱權限不要亂開

原文本身也提醒不要將代理工具的權限設為 full access，以免超出專案目錄、導致資料遺失。這條警告正確，但在教學中段才出現，應當列為首要注意事項。

▸ 合規邊界比「模型合不合法」複雜得多

模型合法，不等於所有用法合法。原文列出以下邊界值得參考：只在自己的裝置上執行、不部署為公開服務（API 暴露至公網可能構成「提供服務」而觸發監管）、敏感輸出不同步至雲端硬碟、涉及未成年人的題材在任何模型下均違法、跨境使用須遵守當地法律。這些條目是整篇教學中最應置於顯著位置的內容。

一句話總結

「能在本地執行一個不拒答的模型」是技術能力；「是否應當使用、以及如何負責任地使用」是獨立的判斷。原文約 90% 的篇幅在前者，後者壓縮至數行。這個比例需要調整。

07 — 查核摘要

原文各項宣稱的查核結果

原文宣稱	查核結果	說明
6GB 卡能跑 35B	成立	MoE + `--n-cpu-moe` 卸載，機制真實。
30 t/s「比免費版快」	需保留	速度真，但 IQ2_M 品質與長 prompt 體驗打折。
達雲端 85–90% 品質	需保留	單一來源、無可複現基準，視任務而定。
不用裝 CUDA Toolkit	成立	跑現成 .exe 只需驅動 + cudart，屬實。
本地路由能省錢	方向對	瑣務分流確實有效，倍數別當保證。
產惡意程式是「賣點」	紅線	本質為惡意軟體，本文不複製、不教學。

08 — 適用情境

不同使用情境的建議評估

✓

想學本地 LLM 工程的人MoE 卸載、量化分級、llama.cpp 這套知識本身極有價值。用標準（未去審查）的開源模型練手，能學到一模一樣的技術。

✓

隱私敏感工種律師、醫師、會計把客戶資料留在本地處理是合理需求。選用有信譽的標準模型，並做好權限設定與合規評估。

被雲端拒答困擾的創作者需求可以理解，但在跑「去審查」模型前，先把第 05、06 節的法律與供應鏈風險讀完，再決定那點便利值不值得。

想用它產出惡意程式 / 規避安全護欄的人無論掛什麼名義，這條線本文不協助，也建議你不要跨。

這篇教學的工程核心，在於 MoE 卸載使消費級顯卡可執行大型模型的具體機制，而非「去審查」的賣點。大型模型本地部署的硬體門檻確實持續下降，這個趨勢值得追蹤。決定參與時，模型選擇、權限配置與適用範圍，應與「如何提升推論速度」獲得同等重視。