Claude Opus 4.8 是 Anthropic 目前對外開放的旗艦模型,在 Opus 4.7 基礎上提升程式設計、代理(agentic)能力、推理與知識工作的表現,定價維持不變。Anthropic 將本次定位為漸進式升級,並將「誠實度」列為主要改進方向。
除了模型本體,4.8 同步推出三項更新:動態工作流程(Dynamic Workflows)、Effort 控制,以及更便宜的 Fast Mode。最值得一提的進步是「誠實度」:官方評測顯示,Opus 4.8 把自己寫出的程式碼瑕疵默默放過、不主動標註的機率,比前一代降低了約四倍;它更傾向主動指出自己工作中的不確定處,而不是硬說「我搞定了」。
它在 Claude Code 裡會問對問題、抓到自己的錯、計畫不合理時會反推,並在大改之前先建立對複雜多服務系統的信心。 — 早期測試者,資深工程師(內容經改寫)
適用情境:處理大型或複雜專案的工程團隊、需要高準確率的長時間自主任務、跨大型 codebase 的遷移與稽核工作。輕量問答使用預設高 Effort 即可。
Fast Mode
不是新模型,而是 Opus 的高速設定:輸出速度約 2.5 倍、品質相同。用 /fast 切換,啟用時會顯示 ↯ 圖示。最適合快速迭代與即時除錯。
Effort 控制
在 claude.ai 與 Cowork 的模型選單旁,新增了「努力程度」開關。調高 → 想得更深、答得更好;調低 → 回得更快、額度消耗更慢。所有方案都能用。
動態工作流程
研究預覽功能。讓 Claude 在 Claude Code 中規劃並調度數十到數百個並行子代理,彼此驗證、互相反駁,最後交付一個收斂、可信任的答案。
開發者補充:對話中途更新指令
Messages API 現在允許在 messages 陣列中、使用者回合之後直接插入 role:"system" 訊息。在長時間運行的 agent 迴圈中途,可藉此更新權限、token 預算或環境脈絡,而不會打斷 prompt cache,也不必把更新偽裝成使用者回合。自建 harness 的團隊可直接利用此機制。
技術規格上,Opus 4.8 與 4.7 一樣維持 1M token 脈絡視窗、128K 最大輸出、adaptive thinking(自行判斷何時需要推理),知識截止日同為 2026 年 1 月。
下表為 Anthropic 公布的精選基準(與前代及競品比較)。基準分數會因測試 harness 與是否使用工具而不同;重點是整體趨勢:4.8 在代理式與長任務類別上全面提升。
| 基準項目 | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| 代理式程式設計SWE-Bench Pro | 69.2% | 64.3% | 58.6% | 54.2% |
| 代理式終端機Terminal-Bench 2.1 | 74.6% | 66.1% | 78.2% | 70.3% |
| 多步推理 · 不用工具Humanity's Last Exam | 49.8% | 46.9% | 41.4% | 44.4% |
| 多步推理 · 使用工具Humanity's Last Exam | 57.9% | 54.7% | 52.2% | 51.4% |
| 代理式電腦使用OSWorld-Verified | 83.4% | 82.8% | 78.7% | 76.2% |
| 知識工作(指數)GPQA-AA | 1890 | 1753 | 1769 | 1314 |
| 代理式金融分析Finance Agent v2 | 53.9% | 51.5% | 51.8% | 43.0% |
註:Terminal-Bench 2.1 所有模型皆以 Terminus-2 公開 harness 計分;GPT-5.5 若改用 Codex CLI harness 為 83.4%。OSWorld-Verified 的評測方式有調整,官方亦同步更新了 4.7 的分數。基準僅供參考,請以實際任務表現為準。
在我們的 Super-Agent 基準上,Opus 4.8 是唯一能把每個案例端到端全部完成的模型,並在成本相當的前提下勝過前代與 GPT-5.5。 — 某代理產品共同創辦人(內容經改寫)
動態工作流程針對「單一代理、單次推理」無法完成的大型任務設計,例如跨整個服務的抓蟲、動到數百個檔案的遷移、需要從多個角度驗證的計畫。它讓 Claude 自動撰寫協調腳本(orchestration script),在單一 session 中調度數十到數百個並行子代理,並在結果交付前完成自我驗證。
它實際上怎麼運作
規劃
Claude 依你的提示動態擬定計畫。
拆解
把任務切成大量子任務。
並行
散出數十到數百個子代理同時跑。
驗證
其他代理嘗試反駁,反覆迭代到答案收斂。
交付
檢查後折回,給你一個協調一致的結果。
關鍵設計在於:協調是在對話之外進行的。代理從獨立角度切入問題,其他代理試著推翻它們的發現,迭代至結論收斂。進度會隨執行持續儲存,被中斷的工作可從斷點繼續,不須從頭來過。最多可調度約 1,000 個子代理。
怎麼啟動:兩種方式
最佳體驗是先開啟 auto mode,接著二擇一:
# 方式一:直接在提示中包含「workflow」這個字(或請它建立工作流程) > 幫我建立一個工作流程,稽核 src/routes/ 底下每一個 API endpoint 是否缺少權限檢查 # 方式二:在 effort 選單開啟 ultracode,讓 Claude 自行判斷何時動用工作流程 > /effort ultracode ↳ 將 effort 設為 xhigh,並自動決定是否升級為工作流程 # 內建的研究型工作流程 > /deep-research Node.js v20 到 v22 之間的權限模型有什麼變化?
第一次觸發工作流程時,Claude Code 會先顯示即將執行的內容並請你確認。子代理以 acceptEdits 模式運行、沿用你的工具白名單:檔案編輯會自動核准,但白名單外的 shell 指令、網路抓取與 MCP 工具仍會在執行中跳出詢問。要注意的是,工作流程不接受任意的執行中途使用者輸入。
Token 用量明顯高於一般對話。調度數百個子代理數小時,token 消耗為預期行為,非異常。官方建議:先從範圍明確的小任務開始,確認用量後再擴大規模。
進階:高風險工作的「兩階段模式」
當答錯的代價很高時,社群推薦的做法是把工作拆成兩段:第一個工作流程只產出「已確認的發現」(唯讀、不動程式碼);待你審過後,第二個工作流程才套用核准過的變更。這正好對應官方「工作流程不接受任意中途輸入」的設計,把人類審查放在兩段之間最安全的位置。
關閉與管控
可在使用者或組織層級停用。停用後,內建工作流程指令會消失、workflow 關鍵字不再觸發、ultracode 也會從 effort 選單移除。
# 互動式 > /config # 在選單中關閉 Dynamic workflows # 使用者設定檔 { "disableWorkflows": true } # 亦可透過環境變數或組織端的 managed settings 統一關閉
Opus 4.8 預設為「高(high)」,這是官方判斷品質與體驗的最佳平衡點。在程式任務上,高 Effort 花的 token 與 4.7 預設相近,但表現更好。需要更深時往上調:
低(low)
回得快、額度消耗最慢。適合高流量、低風險任務:摘要、分類、簡單問答。
高 high · 預設
多數代理式任務的正確起點,品質與成本最佳平衡。
額外 extra / xhigh
花更多 token 換更好結果。建議用於困難任務與長時間非同步工作流程。
最大 max
最高努力程度,給最具挑戰性、最不能出錯的任務。
Claude Code 快速指令
| 指令 | 作用 |
|---|---|
/fast | 啟用 Fast Mode(高速設定,會顯示 ↯ 圖示) |
/plan | 先預覽計畫,不直接動手 |
/effort ultracode | 設為 xhigh,並讓 Claude 自行決定何時動用動態工作流程 |
/deep-research | 內建的研究型工作流程 |
/resume | 繼續被中斷的執行(進度會自動保存) |
/status | 顯示目前自動執行狀態 |
/cancel | 取消目前執行 |
/usage · /model · /config | 查用量、切模型、調整設定(成本管控常用) |
Jarred Sumner 使用動態工作流程將 Bun 從 Zig 移植到 Rust。此類移植工程傳統上以季為單位規劃,以下為本次執行的數據與流程。
為 Zig codebase 中每個 struct 欄位,找出正確的 Rust lifetime。
把每個 .zig 寫成行為一致的 .rs;數百個代理並行,每個檔案配兩位審查者。
反覆驅動 build 與測試套件,直到兩者都乾淨通過。
處理多餘的資料複製,並為每一項各開一個 PR 供最終審查。
(此成果尚未進入正式生產環境,但整個過程皆由動態工作流程處理。)這說明了它的甜蜜點:大規模、可平行、需要長時間運行、且每一步都要被獨立驗證的工程工作。
模型在哪裡用
Claude Code(CLI/Desktop/VS Code 擴充)、claude.ai、Cowork、API,以及 Amazon Bedrock、Google Vertex AI、Microsoft Foundry。GitHub Copilot 也已上架(Pro+/Business/Enterprise)。
動態工作流程的範圍
研究預覽:開放給 Max、Team、Enterprise。Max 與 Team 預設開啟;Enterprise 預設關閉,需管理員啟用。亦可在 API、Bedrock、Vertex AI、Foundry 上運行。
定價(每百萬 token)
| 模式 | 輸入 | 輸出 | 備註 |
|---|---|---|---|
| 標準 | $5 | $25 | 與 Opus 4.7 相同 |
| Fast Mode | $10 | $50 | 約 2.5× 速度;比前代的 $30/$150 便宜 3 倍 |
API 上預設支援 1M token 脈絡(Bedrock、Vertex AI 同;Microsoft Foundry 為 200K)。最低可快取提示長度降到 1,024 tokens,對 prompt caching 更友善。
模型上線不過一兩天,正式 Reddit 長討論串還在累積中;以下整理自早期實戰社群與工程師指南的共識,特別針對「省 token」與「用對工具」這兩件最常被踩雷的事。
- 先用小範圍任務試水溫。 動態工作流程吃 token 很兇,第一次別直接丟整個 repo。挑一個範圍明確的小任務,抓到用量手感再放大。
- 把 ultracode 留給「整段 session 都值得」的時候。 不要全程開著;只在大多數任務都需要工作流程協調時才開,平常用預設高 Effort 即可。
- 高風險工作走兩階段。 第一個工作流程只產出「已確認發現」(唯讀),人工審過後,第二個工作流程才套用變更。把人類審查卡在中間。
- 把可重複的工作流程存成團隊指令。 放進
.claude/workflows/,整個團隊都能呼叫同一套稽核/遷移流程。 - Fast Mode 看「延遲」,工作流程看「協調」。 當延遲比成本重要(快速迭代、即時除錯)就用
/fast;當一段對話協調不了那麼多代理時,才升級成工作流程。 - 用對 Effort 等級。 摘要/分類/簡單問答 → 低;多數代理任務 → 高(預設);困難或長時間非同步 → extra/xhigh;最不能錯 → max。
- 利用 4.8 的誠實度特性。 4.8 更會主動標出自己的不確定處與輸入/輸出問題,特別適合審查型、稽核型任務(找死碼、安全檢查、優化稽核)。
- 成本管控三件套。
/usage看用量、/model把不需要重砲的子任務路由給較小模型、必要時用/config直接關閉工作流程。 - 執行前先審計畫。 第一次觸發會顯示「即將執行什麼」,務必看過再放行;也別忘了 auto mode 才能讓工作流程順暢運作。
社群最常拿來跑的三類用例
稽核與探查
整個服務/repo 的抓蟲、效能優化稽核、安全稽核。對每個發現做獨立驗證,過濾假陽性。找死碼與清理機會的成效尤為明顯。
大型遷移
框架替換、API 棄用處理、跨數千個檔案的語言移植,端到端一次到位。
需要被檢查兩次的關鍵工作
讓 Claude 對同一問題做多次獨立嘗試,再派對抗性代理在你看到之前先試著推翻結果。
一個好的工作流程提示,不只是丟一句「幫我檢查安全性」。把角色、範圍、任務、限制、輸出格式講清楚,能大幅提升收斂品質、也避免代理亂跑燒 token。下面是一個可直接套用的範本,以及它會引發的工作流程「執行預覽」長相。
# 角色 你是一位資深應用安全工程師。 # 任務 建立一個動態工作流程,稽核 src/routes/ 下所有 API endpoint。 # 範圍與重點(請對每一項獨立驗證,過濾假陽性) 1. 缺少身分驗證 / 授權檢查的 endpoint 2. 未做輸入驗證或有注入風險之處 3. 直接回傳敏感欄位(PII、token、密鑰)的回應 # 限制 - 這是唯讀稽核:只回報發現,不要修改任何程式碼 - 每個發現需附:檔案路徑、行號、風險等級、可重現的理由 - 無法確認的項目請明確標為「待人工確認」,不要臆測 # 輸出格式 依風險等級(高 / 中 / 低)分組的 Markdown 表格, 最後附一段「建議的修復優先順序」。
⌬ 偵測到大型稽核任務 → 建議升級為動態工作流程 計畫 • 掃描 src/routes/ → 找到 37 個 endpoint 檔案 • 拆成 37 個並行子代理,各自分析一個檔案 • 每個發現再交由 1 個獨立驗證代理覆核(過濾假陽性) • 對抗代理嘗試推翻高風險發現,迭代至收斂 預估 • 子代理:~74 執行模式:acceptEdits(唯讀,不寫檔) • Token 用量:明顯高於一般對話 · 進度自動保存、可中斷續跑 是否執行此工作流程? [ y / 預覽細節 / 取消 ]
## 高風險(2) | 檔案 | 行 | 問題 | 理由 | |------|----|------|------| | routes/admin.ts | 42 | 缺少授權檢查 | endpoint 未驗證 role,任何登入者可存取 | | routes/user.ts | 88 | 回傳敏感欄位 | 回應直接含 passwordHash 欄位 | ## 待人工確認(1) | routes/webhook.ts | 15 | 簽章驗證疑似可繞過 | 需確認上游是否已驗章 | ### 建議修復優先順序 1. admin.ts 授權檢查(影響面最大) 2. user.ts 移除敏感欄位 3. 釐清 webhook 簽章流程
設計重點:明確標註「唯讀、不要改碼」對應高風險工作的兩階段模式;要求「無法確認就標待人工確認」直接利用 4.8「誠實、不臆測」的特性。這是將模型能力寫入 prompt 結構的具體做法。
⚠ 別把工作流程當預設
它是為「一次塞不下」的大任務設計的。日常小修小改用一般對話+預設 Effort 就好,否則只是白燒 token。
⚠ Enterprise 預設關閉
Enterprise 方案的動態工作流程預設關閉。若找不到此功能,需請管理員在 Claude Code 設定中手動啟用。
⚠ 子代理不是全自動放行
檔案編輯自動核准,但白名單外的 shell/網路/MCP 動作仍會中途詢問;別預期它能在完全無人值守下做所有事。
⚠ Fast Mode 不是新模型
它是 Opus 的高速設定,品質相同、只是更快更貴一點;別誤以為它「更聰明」。