OmniRoute 是 MIT 授權的開源本機 AI gateway,把 231 個供應商(50+ 提供免費額度)收斂成單一 OpenAI 相容端點。Claude Code、Codex、Cursor、Cline、Copilot 等 16+ 工具只要指向 localhost:20128/v1 即可使用免費與低成本模型;額度用盡時自動 fallback 到下一個供應商,RTK + Caveman 堆疊壓縮再省下 15–95% token。本手冊涵蓋安裝、核心能力、官方設定要點與一段完整實戰示範。
OmniRoute 由 Diego Souza 開源,核心是一個跑在你機器上的 本機 proxy:它對外暴露單一 OpenAI 相容端點 http://localhost:20128/v1,對內把請求轉發到 231 個 AI 供應商。任何 OpenAI / Claude / Gemini 格式的工具只要改一個 Base URL 就能接上,不需要改其他設定。請求不經過 OmniRoute 的雲端——你的 prompt 只會送到你自己選的供應商。
它解決的是一個具體問題:每個 AI 供應商各有 SDK、各有 rate limit、各有帳單。手動拼接十幾個免費額度幾乎不可行。OmniRoute 把這些供應商聚合到一個端點,並做三件事——格式翻譯(OpenAI ↔ Claude ↔ Gemini ↔ Responses API)、自動 fallback(額度或供應商失敗時毫秒級切換),以及 token 壓縮(請求送出前透明壓縮)。
架構上分成四層能力:路由(15 種策略 + 9 因子自動評分)、韌性(熔斷器、連線冷卻、模型鎖定三層獨立保護)、壓縮(9 引擎管線),以及協定(內建 MCP server 與 A2A,讓 agent 能直接驅動 gateway)。下面逐層拆解。
環境需求:Node.js ≥ 22。透過 npm 全域安裝後執行 omniroute,gateway 與儀表板會起在 port 20128。
在儀表板 → Providers 連接 Kiro AI(免費 Claude)或 OpenCode Free(免認證)即可。然後把你的 coding 工具指向 OmniRoute,model 設為 auto 走零設定智慧路由:
官方提供 multi-arch(AMD64 + ARM64)映像。也支援從源碼、pnpm、Arch(AUR)、Nix、Podman、Android Termux 與桌面版(Electron)安裝——詳見 README 的「Where OmniRoute Runs」表。
http://localhost:20128/vscode/YOUR_KEY/chat/completions(OpenAI)與 /vscode/YOUR_KEY/api/chat(Ollama)。官方說明:這些只給無法附帶 Authorization: Bearer 的工具用,header 驗證仍是首選。
下表把 OmniRoute 的能力依四層分組。日常只需記住三件事:model 填 auto 走智慧路由、韌性三層預設啟用、壓縮預設管線是 RTK → Caveman。其餘能力(MCP、A2A、Remote mode)是進階場景才需要。
| 你的目標 | 策略 / combo |
|---|---|
| 榨乾訂閱額度再付費 | priority · fill-first |
| 多帳號分散負載 | round-robin · weighted · p2c · least-used |
| 永遠選最便宜可用的模型 | cost-optimized · auto/cheap |
| 長 context 在模型間接力 | context-relay · context-optimized |
| 隨機 / 隱私路由 | random · strict-random |
| 不想決定,讓它自己選 | auto(9 因子評分)· lkgp |
以下八條全部來自官方 README 與 docs/,不含社群傳聞或未驗證的數字。每張卡標注出處段落。
model 直接填 auto,OmniRoute 會從你已連接的供應商即時組出虛擬 combo 並評分。需要時再用 auto/coding、auto/cheap 等變體微調權重。
儀表板 → Providers 連 Kiro AI(免費 Claude)或 OpenCode Free(免認證)即可開始。README 列出 11 個「永久免費」供應商。
專用的 setup-* 指令會把各工具設定成走 OmniRoute(Claude Code、Codex、Cline、Cursor、Aider、Gemini CLI…);omniroute launch 是零設定啟動器。
omniroute connect <host> 以密碼換取 scoped token,之後每個指令都打遠端。tokens create --scope read 可為其他機器簽發更窄的 token。
9 引擎可逐 combo 指派,並有 Lite / Standard / Aggressive / Ultra / Stacked 等一鍵預設。Code、URL、JSON、結構化資料一律 byte-perfect 保留。
來源 · 官方 docs/compression/COMPRESSION_ENGINES.mdMemory 預設 off;開啟後支援 int8 向量量化(Qdrant + sqlite-vec)。單一請求可加 x-omniroute-no-memory header 跳過記憶。
回應帶 X-OmniRoute-* cost/usage header(含媒體端點),快取命中時帶 X-OmniRoute-Cost-Saved,也可為每把 key 設 USD 花費上限。
用 claude mcp add-server omniroute --type http --url http://localhost:20128/api/mcp/stream,Claude Code 即取得 87 個 MCP 工具,可自主管理路由與供應商。
以下示範一條最短路徑:安裝 OmniRoute、連一個免費供應商、把 Claude Code 指向本機端點、用 auto 跑一輪,並觀察免費額度用盡時自動切到下一個供應商。指令均取自官方 README。
全程沒有改 client 程式,只改了一個 Base URL。壓縮在請求送出前透明發生,client 不需要知道;fallback 由 combo 自動處理,額度用盡不會讓對話中斷。成本 header 讓你能逐請求看到實際花費與省下的金額。
要強調的是:示範中的 token 數、節省比例與供應商命中是說明性數值,實際結果取決於你連接哪些供應商、開了哪些壓縮引擎,以及各供應商當下的額度狀態。
x-omniroute-no-memory header。
CHANGELOG.md 為準。
裝好、跑通 auto 之後,下面五步把 OmniRoute 從「個人省錢工具」推進到「團隊 / agent 基礎設施」。
1. 自訂 combo 與壓縮 profile。用 omniroute combo 建你自己的 fallback 鏈(訂閱 → API → 便宜 → 免費),並逐 combo 指派壓縮管線。tool-heavy 的 session 用 Stacked(RTK → Caveman),高精度任務用 Lite。
2. 把 gateway 交給 agent。透過 MCP(omniroute --mcp 或 HTTP /api/mcp/stream)讓 Claude Code 取得 87 個工具自主管理路由;或用 A2A(/.well-known/agent.json)讓外部 agent 互通。
3. 部署到永遠在線的地方。用 Docker(multi-arch)或 Android Termux 讓 OmniRoute 24/7 運行,再用 Remote mode(omniroute connect)從任何機器以 scoped token 驅動。
4. 接更多供應商與 cloud agent。從 docs/reference/PROVIDER_REFERENCE.md 的機器可讀目錄擴充供應商;cloud agent 支援 Codex、Devin、Jules、Cursor Cloud Agent。
5. 收斂成本可觀測性。用 X-OmniRoute-* header 與 omniroute cost / usage 指令把每把 key 的花費拉出來,設 USD 上限,讓免費與付費的界線可監控。
① docs/reference/FREE_TIERS.md——免費額度的計算方法、去重邏輯與各供應商條款。
② docs/routing/AUTO-COMBO.md——9 因子自動評分引擎與 combo 語法。
③ docs/compression/COMPRESSION_ENGINES.md——9 引擎管線、保留規則與省 token 計算。