Internal AI Gateway / OpenAI-Compatible Edge

把全公司的 LLM 調用收斂成一個可治理的入口。

建議先用 new-api 做第一版內部中台:它符合你要的多供應商接入、管理 UI、成本統計、模型格式轉換與失敗重試方向。公司級版本要額外加上安全邊界、價格策略、健康檢查、審計與 Codex/Claude Code 類工具的隔離式 adapter。

1公司內部統一 API Base URL,支援 OpenAI-compatible client。
6必要控制層:身份、路由、成本、觀測、密鑰、合規。
0不建議把不可信中轉站放進生產路由。

價格排序與 Failover 原型

Policy: choose cheapest healthy route, then fallback
READY
順位 Provider / Model 狀態 Input / 1M Output / 1M Latency Quality 估算成本
Recommended Position

首選 new-api,但不要只把它當反向代理。

new-api 適合快速做出公司內部 AI API 中台;真正能長期穩定運作的版本,核心是「治理層」而不是「轉發層」。

Start here

用 new-api 做第一版控制台

它具備現代 UI、多語系、權限管理、成本統計、OpenAI/Claude/Gemini 轉換與失敗重試方向,最貼近你描述的產品形態。

Wrap it

外層加公司自有 policy edge

價格排序、資料敏感度、團隊預算、模型能力矩陣、特殊 adapter 都放在公司可控的 policy edge,避免直接改核心太深。

Do not do this

不要生產化個人 CLI Auth

Codex CLI 或 Claude Code 類授權應優先作為「客戶端接入 gateway」,不應抽取個人桌面 auth token 當公司後端供應商。

Enterprise rule

把 LLM proxy 當關鍵基礎設施

它會集中 API keys、prompt、程式碼上下文與成本權限,安全等級應比照身份系統或付款系統。

Target Architecture

建議的公司級架構。

保持 OpenAI-compatible 的開發體驗,但把決策權集中在 control plane。所有 provider、Cloud 中轉、self-host model、CLI adapter 都只是 channel。

Client Layer
Apps & Agents

產品後端、內部工具、RAG pipeline、coding agents、客服或自動化流程。

Virtual API Keys

每個團隊、服務、環境獨立 key,綁定模型權限、費用上限與審計身份。

OpenAI-Compatible API

/v1/chat/completions/v1/responses、embeddings、rerank、image/audio 視需求開放。

Policy Headers

允許客戶端傳入 sensitivity、team、task type、region、latency class,但最終由 server 決策。

Gateway Core
Request Normalizer

轉成內部中立格式,保留工具、JSON mode、vision、thinking、streaming 等能力資訊。

Policy Router

按價格、健康度、模型能力、區域、資料等級、團隊預算與品質門檻選擇 channel。

Failover Engine

timeout、429、5xx、provider error 分類處理;有 circuit breaker 與 cooldown。

Cost Meter

先用估算成本做路由,回應後用 usage tokens 寫入真實成本、cache 成本與匯率版本。

Provider Layer
Official APIs

OpenAI、Anthropic、Gemini、DeepSeek、Azure OpenAI、Bedrock、Vertex AI 等。

Trusted Cloud Gateways

只允許通過安全審查、合約、DPA、審計與 egress allowlist 的中轉或聚合服務。

Self-hosted Models

Ollama、vLLM、SGLang、llama.cpp server 等 OpenAI-compatible endpoint。

CLI Adapters

Codex/Claude Code 類工具只做隔離實驗 worker,不當主要生產 channel。

What You Need To Know

功能清單不是 proxy 清單,而是治理清單。

以下是 MVP 就要預留的資料模型與功能邊界,否則很快會變成一個難以稽核的轉發器。

Routing

價格排序只是第一層

路由 score 建議同時納入成本、健康度、模型能力、延遲、品質、team budget、資料敏感度與區域限制。

  • 估算成本:input/output tokens 乘以當前價格版本。
  • 實際成本:回應 usage 寫入帳務表。
  • 能力矩陣:tool calling、JSON、vision、context、streaming 必須相容才可 fallback。
Failure

Failover 要分類

429、timeout、5xx 可以自動切換;401/403、資料政策違規、上下文過長通常不應盲目重試。

  • 非 streaming 請求可以透明 retry。
  • streaming 已輸出部分內容後,不建議無聲切 provider。
  • 工具調用需 idempotency key,避免重複執行。
Cost

價格表要版本化

價格不是欄位而已,它會影響路由決策與財務歸因。每次調整需記錄版本、生效時間、幣別與來源。

  • 模型別 input/output/cache/image/audio 分開。
  • 可手動輸入,也可未來接 provider pricing sync。
  • 報表按 team、project、key、model、provider 聚合。
Security

密鑰不放在普通環境變數

Gateway 同時握有多家上游 API key,建議用 Vault、AWS Secrets Manager、GCP Secret Manager、1Password Secrets Automation 或等效方案。

  • least privilege、定期 rotate、分環境 key。
  • egress allowlist 只允許上游 endpoint。
  • prompt log 預設遮罩或不落地。
Observability

觀測要能回答三個問題

誰用了多少錢、哪個 provider 壞了、哪個模型品質或延遲異常。沒有這三個答案,failover 會變成黑箱。

  • Prometheus/Grafana:latency、error、circuit state。
  • OpenTelemetry:trace request 到上游。
  • Loki/ClickHouse/Postgres:審計與用量查詢。
Compliance

先定義資料等級

把請求分成 public/internal/confidential/restricted。restricted 類別只允許官方企業合約 provider 或 self-hosted endpoint。

  • 禁止未審核第三方中轉接收程式碼或客戶資料。
  • 公開服務需遵守所在地生成式 AI、稅務、付款、身份與內容安全要求。
  • 所有 provider 條款與轉售權限要留檔。
GitHub Market Scan

相近開源專案排行與定位。

以 GitHub stars 粗略代表社群採用度,仍需用 license、release 節奏、安全記錄、功能匹配與維護品質做最後判斷。

49.4kstars

BerriAI/litellm AI gateway specific

目前最熱門的 AI gateway/proxy 選項之一。支援 100+ providers、OpenAI 格式、virtual keys、spend tracking、guardrails、load balancing、logging 與 dashboard。

最廣 providerPython + TS UI企業採用度高
43.5kstars

Kong/kong general API + AI gateway

不是純 LLM router,但它是成熟 API gateway,README 已定位為 API/AI/MCP gateway,適合公司本來就要統一 API 管理、插件、流量治理與企業網關。

成熟網關Apache-2.0插件生態
37.2kstars

QuantumNous/new-api recommended start

你的首選很合理。新 UI、多語系、One API 資料相容、dashboard、token/model 權限、成本統計、OIDC、OpenAI/Claude/Gemini 格式轉換與自動失敗重試方向都很貼近需求。

AGPL-3.0Go管理 UI 強
34.7kstars

songquanpeng/one-api legacy base

中文社群長期使用的 LLM API 管理與分發系統,支援多 provider、負載均衡、Docker 單檔部署。new-api 明確主打與 One API 資料相容,可視為舊基底與遷移參照。

MITGo中文生態
12kstars

Portkey-AI/gateway guardrails

重點在可靠路由、fallback、retries、load balancing、timeouts、guardrails、secure key management、RBAC、usage analytics 與 provider optimization。

TypeScriptMITguardrails 強
5.5kstars

maximhq/bifrost performance

Go 寫的高效能 AI gateway,主打 OpenAI-compatible API、automatic fallback、load balancing、semantic caching、cluster/governance/observability。適合高吞吐或 Go-first 團隊評估。

Apache-2.0Go低延遲
Security Position

Cloud 中轉站要先安全審查,再談價格。

LLM proxy 是 application-layer man-in-the-middle。它可以看見、保存、改寫每個 prompt 與 response,也集中所有上游 key。

便宜不是 routing policy 的唯一目標。

對 coding agent、RAG、客服資料、客戶文件、財務或人資資料,最低價路由可能把最敏感的上下文送進最不該信任的中轉站。公司路由策略應先過資料等級與供應商風險,再算價格。

Rule of thumb: official enterprise API first, vetted aggregator second, unknown relay never for confidential workloads.

供應商 allowlist每個 upstream base URL 都要有 owner、合約、DPA、資料保留、區域、是否可訓練、是否可轉售的紀錄。
版本釘選與 SBOMproxy dependency、Docker image、CI/CD action 都要 pin version/hash,建立 SBOM 與 security advisory 監控。
密鑰分級與輪替provider key 按環境與風險分開,定期 rotate;gateway process 不應持有無關的 cloud admin 權限。
網路出口限制Gateway 只可連到明確批准的 upstream endpoint、observability endpoint 與 secret manager。
回應完整性與 agent 防護對 tool-calling agent,不要無條件信任 proxy 回來的工具指令;要有工具 allowlist、人工審核與高風險操作阻擋。
Codex / Claude Code / CLI Auth

CLI 類工具建議作為 client,而不是 provider。

你可以讓 Codex CLI、Claude Code 或其他 coding agent 統一打公司 gateway;不建議讓公司 gateway 偷用或抽取個人 CLI 的登入狀態。

Recommended

把 gateway 設成 client base URL

讓內部 coding tools 使用公司發的 virtual key 與 base URL。這樣每次使用都有 team、project、budget、audit trail。

Experimental

隔離式 CLI worker

如果一定要接 CLI auth,應做成明確授權的 user-scoped worker:獨立帳號、獨立機器、無共享密鑰、無生產資料、可完整關閉。

Avoid

共用個人桌面 token

不要把個人 Codex/Claude Code login cookie 或 token 轉成公司 API 供應商。這通常不可審計、不可控,也可能違反上游條款。

Execution Roadmap

五階段上線路線。

先證明路由與成本治理,再擴大到全公司。每階段都要能回滾,不要一次把所有 AI 流量搬過來。

01

POC

部署 new-api,接 2-3 個官方 provider,建立 internal base URL、virtual key、手動價格表與基本 failover 測試。

02

Policy Edge

加入自有 routing policy:價格排序、能力矩陣、資料等級、team budget、provider allowlist。

03

Observability

導入 metrics、trace、審計、成本報表、error dashboard、provider health page 與 alerting。

04

Security Hardening

OIDC/SSO、secrets manager、egress allowlist、SBOM、版本釘選、密鑰輪替與 incident runbook。

05

Company Rollout

先接內部工具與 coding agents,再接產品後端;設定每團隊上限、模型白名單與月度審查。

Data Model

最小資料模型。

就算先用 new-api,也建議把這些概念在設計上保留,避免未來擴充時整個路由邏輯綁死在單一專案的表結構。

Provider

上游供應商

id, name, type, base_url, auth_type, risk_tier, data_policy, enabled

Channel

模型通道

provider_id, model_alias, upstream_model, input_price, output_price, latency_p95, priority, health

Capability

能力矩陣

supports_tools, supports_json, supports_vision, supports_streaming, context_window, reasoning_mode

Route Policy

路由策略

virtual_model, strategy, constraints, fallback_chain, max_cost, allowed_risk_tiers

Usage

用量與帳務

request_id, team_id, api_key_id, tokens_in, tokens_out, cost, provider, error_code

Audit

審計事件

actor, action, target, before, after, ip, timestamp。價格與 policy 調整都要可追溯。

Sources

資料來源。

Repo stars 與功能描述來自 2026-06-06 查詢到的 GitHub README / GitHub repo metadata。實際採用前仍需重新確認 license、release、安全公告與供應商條款。

  1. BerriAI/litellm - README: Open Source AI Gateway for 100+ LLMs, 49.4k stars, latest release shown Jun 4, 2026.
  2. QuantumNous/new-api - README: Next-Generation LLM Gateway, AGPL-3.0, 37.2k stars, v1.0.0-rc.10 shown May 26, 2026.
  3. songquanpeng/one-api - README: OpenAI API format access to many models, MIT, 34.7k stars.
  4. Portkey-AI/gateway - README: AI Gateway, routing, retries, fallback, load balancing, guardrails, 12k stars.
  5. maximhq/bifrost - README: high-performance AI gateway, automatic fallback, load balancing, 5.5k stars.
  6. Kong/kong - README: API and AI Gateway, Apache-2.0, 43.5k stars.
  7. Cloud Security Alliance research note - LLM proxy routers as privileged MITM and supply-chain risk.