Internal AI Gateway / OpenAI-Compatible Edge

把全公司的 LLM 調用收斂成一個可治理的入口。

建議先用 new-api 做第一版內部中台：它符合你要的多供應商接入、管理 UI、成本統計、模型格式轉換與失敗重試方向。公司級版本要額外加上安全邊界、價格策略、健康檢查、審計與 Codex/Claude Code 類工具的隔離式 adapter。

看採用建議看 GitHub 排行

1公司內部統一 API Base URL，支援 OpenAI-compatible client。

6必要控制層：身份、路由、成本、觀測、密鑰、合規。

0不建議把不可信中轉站放進生產路由。

價格排序與 Failover 原型

Policy: choose cheapest healthy route, then fallback

READY

排序策略 Prompt tokens Output tokens

順位	Provider / Model	狀態	Input / 1M	Output / 1M	Latency	Quality	估算成本

Recommended Position

首選 new-api，但不要只把它當反向代理。

new-api 適合快速做出公司內部 AI API 中台；真正能長期穩定運作的版本，核心是「治理層」而不是「轉發層」。

Start here

用 new-api 做第一版控制台

它具備現代 UI、多語系、權限管理、成本統計、OpenAI/Claude/Gemini 轉換與失敗重試方向，最貼近你描述的產品形態。

Wrap it

外層加公司自有 policy edge

價格排序、資料敏感度、團隊預算、模型能力矩陣、特殊 adapter 都放在公司可控的 policy edge，避免直接改核心太深。

Do not do this

不要生產化個人 CLI Auth

Codex CLI 或 Claude Code 類授權應優先作為「客戶端接入 gateway」，不應抽取個人桌面 auth token 當公司後端供應商。

Enterprise rule

把 LLM proxy 當關鍵基礎設施

它會集中 API keys、prompt、程式碼上下文與成本權限，安全等級應比照身份系統或付款系統。

Target Architecture

建議的公司級架構。

保持 OpenAI-compatible 的開發體驗，但把決策權集中在 control plane。所有 provider、Cloud 中轉、self-host model、CLI adapter 都只是 channel。

Client Layer

Apps & Agents

產品後端、內部工具、RAG pipeline、coding agents、客服或自動化流程。

Virtual API Keys

每個團隊、服務、環境獨立 key，綁定模型權限、費用上限與審計身份。

OpenAI-Compatible API

/v1/chat/completions、/v1/responses、embeddings、rerank、image/audio 視需求開放。

Policy Headers

允許客戶端傳入 sensitivity、team、task type、region、latency class，但最終由 server 決策。

Gateway Core

Request Normalizer

轉成內部中立格式，保留工具、JSON mode、vision、thinking、streaming 等能力資訊。

Policy Router

按價格、健康度、模型能力、區域、資料等級、團隊預算與品質門檻選擇 channel。

Failover Engine

timeout、429、5xx、provider error 分類處理；有 circuit breaker 與 cooldown。

Cost Meter

先用估算成本做路由，回應後用 usage tokens 寫入真實成本、cache 成本與匯率版本。

Provider Layer

Official APIs

OpenAI、Anthropic、Gemini、DeepSeek、Azure OpenAI、Bedrock、Vertex AI 等。

Trusted Cloud Gateways

只允許通過安全審查、合約、DPA、審計與 egress allowlist 的中轉或聚合服務。

Self-hosted Models

Ollama、vLLM、SGLang、llama.cpp server 等 OpenAI-compatible endpoint。

CLI Adapters

Codex/Claude Code 類工具只做隔離實驗 worker，不當主要生產 channel。

What You Need To Know

功能清單不是 proxy 清單，而是治理清單。

以下是 MVP 就要預留的資料模型與功能邊界，否則很快會變成一個難以稽核的轉發器。

Routing

價格排序只是第一層

路由 score 建議同時納入成本、健康度、模型能力、延遲、品質、team budget、資料敏感度與區域限制。

估算成本：input/output tokens 乘以當前價格版本。
實際成本：回應 usage 寫入帳務表。
能力矩陣：tool calling、JSON、vision、context、streaming 必須相容才可 fallback。

Failure

Failover 要分類

429、timeout、5xx 可以自動切換；401/403、資料政策違規、上下文過長通常不應盲目重試。

非 streaming 請求可以透明 retry。
streaming 已輸出部分內容後，不建議無聲切 provider。
工具調用需 idempotency key，避免重複執行。

Cost

價格表要版本化

價格不是欄位而已，它會影響路由決策與財務歸因。每次調整需記錄版本、生效時間、幣別與來源。

模型別 input/output/cache/image/audio 分開。
可手動輸入，也可未來接 provider pricing sync。
報表按 team、project、key、model、provider 聚合。

Security

密鑰不放在普通環境變數

Gateway 同時握有多家上游 API key，建議用 Vault、AWS Secrets Manager、GCP Secret Manager、1Password Secrets Automation 或等效方案。

least privilege、定期 rotate、分環境 key。
egress allowlist 只允許上游 endpoint。
prompt log 預設遮罩或不落地。

Observability

觀測要能回答三個問題

誰用了多少錢、哪個 provider 壞了、哪個模型品質或延遲異常。沒有這三個答案，failover 會變成黑箱。

Prometheus/Grafana：latency、error、circuit state。
OpenTelemetry：trace request 到上游。
Loki/ClickHouse/Postgres：審計與用量查詢。

Compliance

先定義資料等級

把請求分成 public/internal/confidential/restricted。restricted 類別只允許官方企業合約 provider 或 self-hosted endpoint。

禁止未審核第三方中轉接收程式碼或客戶資料。
公開服務需遵守所在地生成式 AI、稅務、付款、身份與內容安全要求。
所有 provider 條款與轉售權限要留檔。

GitHub Market Scan

相近開源專案排行與定位。

以 GitHub stars 粗略代表社群採用度，仍需用 license、release 節奏、安全記錄、功能匹配與維護品質做最後判斷。

49.4kstars

BerriAI/litellm AI gateway specific

目前最熱門的 AI gateway/proxy 選項之一。支援 100+ providers、OpenAI 格式、virtual keys、spend tracking、guardrails、load balancing、logging 與 dashboard。

最廣 providerPython + TS UI企業採用度高

43.5kstars

Kong/kong general API + AI gateway

不是純 LLM router，但它是成熟 API gateway，README 已定位為 API/AI/MCP gateway，適合公司本來就要統一 API 管理、插件、流量治理與企業網關。

成熟網關Apache-2.0插件生態

37.2kstars

QuantumNous/new-api recommended start

你的首選很合理。新 UI、多語系、One API 資料相容、dashboard、token/model 權限、成本統計、OIDC、OpenAI/Claude/Gemini 格式轉換與自動失敗重試方向都很貼近需求。

AGPL-3.0Go管理 UI 強

34.7kstars

songquanpeng/one-api legacy base

中文社群長期使用的 LLM API 管理與分發系統，支援多 provider、負載均衡、Docker 單檔部署。new-api 明確主打與 One API 資料相容，可視為舊基底與遷移參照。

MITGo中文生態

12kstars

Portkey-AI/gateway guardrails

重點在可靠路由、fallback、retries、load balancing、timeouts、guardrails、secure key management、RBAC、usage analytics 與 provider optimization。

TypeScriptMITguardrails 強

5.5kstars

maximhq/bifrost performance

Go 寫的高效能 AI gateway，主打 OpenAI-compatible API、automatic fallback、load balancing、semantic caching、cluster/governance/observability。適合高吞吐或 Go-first 團隊評估。

Apache-2.0Go低延遲

Security Position

Cloud 中轉站要先安全審查，再談價格。

LLM proxy 是 application-layer man-in-the-middle。它可以看見、保存、改寫每個 prompt 與 response，也集中所有上游 key。

便宜不是 routing policy 的唯一目標。

對 coding agent、RAG、客服資料、客戶文件、財務或人資資料，最低價路由可能把最敏感的上下文送進最不該信任的中轉站。公司路由策略應先過資料等級與供應商風險，再算價格。

Rule of thumb: official enterprise API first, vetted aggregator second, unknown relay never for confidential workloads.

供應商 allowlist每個 upstream base URL 都要有 owner、合約、DPA、資料保留、區域、是否可訓練、是否可轉售的紀錄。

版本釘選與 SBOMproxy dependency、Docker image、CI/CD action 都要 pin version/hash，建立 SBOM 與 security advisory 監控。

密鑰分級與輪替provider key 按環境與風險分開，定期 rotate；gateway process 不應持有無關的 cloud admin 權限。

網路出口限制Gateway 只可連到明確批准的 upstream endpoint、observability endpoint 與 secret manager。

回應完整性與 agent 防護對 tool-calling agent，不要無條件信任 proxy 回來的工具指令；要有工具 allowlist、人工審核與高風險操作阻擋。

Codex / Claude Code / CLI Auth

CLI 類工具建議作為 client，而不是 provider。

你可以讓 Codex CLI、Claude Code 或其他 coding agent 統一打公司 gateway；不建議讓公司 gateway 偷用或抽取個人 CLI 的登入狀態。

Recommended

把 gateway 設成 client base URL

讓內部 coding tools 使用公司發的 virtual key 與 base URL。這樣每次使用都有 team、project、budget、audit trail。

Experimental

隔離式 CLI worker

如果一定要接 CLI auth，應做成明確授權的 user-scoped worker：獨立帳號、獨立機器、無共享密鑰、無生產資料、可完整關閉。

Avoid

共用個人桌面 token

不要把個人 Codex/Claude Code login cookie 或 token 轉成公司 API 供應商。這通常不可審計、不可控，也可能違反上游條款。

Execution Roadmap

五階段上線路線。

先證明路由與成本治理，再擴大到全公司。每階段都要能回滾，不要一次把所有 AI 流量搬過來。

POC

部署 new-api，接 2-3 個官方 provider，建立 internal base URL、virtual key、手動價格表與基本 failover 測試。

Policy Edge

加入自有 routing policy：價格排序、能力矩陣、資料等級、team budget、provider allowlist。

Observability

導入 metrics、trace、審計、成本報表、error dashboard、provider health page 與 alerting。

Security Hardening

OIDC/SSO、secrets manager、egress allowlist、SBOM、版本釘選、密鑰輪替與 incident runbook。

Company Rollout

先接內部工具與 coding agents，再接產品後端；設定每團隊上限、模型白名單與月度審查。

Data Model

最小資料模型。

就算先用 new-api，也建議把這些概念在設計上保留，避免未來擴充時整個路由邏輯綁死在單一專案的表結構。

Provider

上游供應商

id, name, type, base_url, auth_type, risk_tier, data_policy, enabled

Channel

模型通道

provider_id, model_alias, upstream_model, input_price, output_price, latency_p95, priority, health

Capability

能力矩陣

supports_tools, supports_json, supports_vision, supports_streaming, context_window, reasoning_mode

Route Policy

路由策略

virtual_model, strategy, constraints, fallback_chain, max_cost, allowed_risk_tiers

Usage

用量與帳務

request_id, team_id, api_key_id, tokens_in, tokens_out, cost, provider, error_code

Audit

審計事件

actor, action, target, before, after, ip, timestamp。價格與 policy 調整都要可追溯。

Sources

資料來源。

Repo stars 與功能描述來自 2026-06-06 查詢到的 GitHub README / GitHub repo metadata。實際採用前仍需重新確認 license、release、安全公告與供應商條款。

BerriAI/litellm - README: Open Source AI Gateway for 100+ LLMs, 49.4k stars, latest release shown Jun 4, 2026.
QuantumNous/new-api - README: Next-Generation LLM Gateway, AGPL-3.0, 37.2k stars, v1.0.0-rc.10 shown May 26, 2026.
songquanpeng/one-api - README: OpenAI API format access to many models, MIT, 34.7k stars.
Portkey-AI/gateway - README: AI Gateway, routing, retries, fallback, load balancing, guardrails, 12k stars.
maximhq/bifrost - README: high-performance AI gateway, automatic fallback, load balancing, 5.5k stars.
Kong/kong - README: API and AI Gateway, Apache-2.0, 43.5k stars.
Cloud Security Alliance research note - LLM proxy routers as privileged MITM and supply-chain risk.