實戰手冊 · Field Manual 2026 春季號 · 第 07 期
github.com/anthropics/skills/skills/skill-creator · 134k ★
s
第 07 期 · Anthropic 官方 / Meta Skill

造 Skill 的 Skill
將 prompt 工程納入
可測量的流程。

Anthropic 在 anthropics/skills 倉庫提供一個 meta skill,名為 skill-creator。它以一個 skill 生成其他 skill:訪談使用意圖、寫 SKILL.md、執行 with/without 對照測試、量化 token 與時間差異、開啟瀏覽器讓使用者評分,最後優化 description 提高觸發召回率。整個流程有測量基準、支援回歸測試與迭代。

134K ★
母倉庫 Stars
7
核心工作步驟
5
description 優化輪
Official
Anthropic 官方維護
01
產品說明

skill-creator:將寫 prompt 從手工作業納入工程流程

Claude Agent Skills 是 Anthropic 在 2025 年推出的格式:一份 SKILL.md(YAML frontmatter + Markdown 正文),Claude 在偵測到對應場景時自動將這份文件拉進對話。「怎麼寫一份好的 SKILL.md」本身是個技術問題:description 怎麼寫才會在對的時機觸發?名字怎麼取才不會跟既有 skill 衝突?你寫的 skill 真的比沒裝時表現更好嗎?這就是 skill-creator 解決的問題。

skill-creator 是一個 meta skill,專門用來生成其他 skill。它是一份 SKILL.md,當使用者說「我想寫個新 skill」時由 Claude 自動觸發。觸發後接管整個流程:訪談使用意圖、撰寫 SKILL.md、生成 2-3 條測試 prompt、分別在「有裝 / 沒裝」的 Claude 上各跑一遍、量化 token 數與時間、開啟瀏覽器讓使用者評分,最後用評分結果優化 description,最多執行 5 輪。

它的重要性在於將 prompt engineering 納入工程流程:每個 skill 都附 eval、都有 baseline 比較、都能跑回歸測試。Anthropic 將這個 meta skill 開源在 anthropics/skills/skills/skill-creator/ 路徑下,母倉庫 134K 顆星,是整個 Claude Skill 生態的官方參考。skills.sh 上累計安裝超過 20 萬次。

skill-creator · 7 步工作流
Capture Intent Interview Write SKILL.md Test Cases Run + Evaluate Iterate Optimize Description
Create new skills, modify and improve existing skills,
and measure skill performance.
— anthropics/skills · skill-creator SKILL.md
02
三種接入路徑

安裝 skill-creator 至 Claude Code 的三種方法

skill-creator 不是 npm 套件,是一份 SKILL.md。將它放到 Claude Code 識別的 skill 目錄即可。最快的方式是透過 vercel-labs 的 skills CLI 從 anthropics/skills 倉庫拉取,它會挑出指定的 sub-skill 並寫入 .claude/skills/

# 用 vercel-labs/skills CLI 從 anthropics/skills 倉庫挑 skill-creator npx skills add https://github.com/anthropics/skills --skill skill-creator # 看裝在哪 npx skills list

手動裝 · 整個倉庫 clone

如果你想看完整 anthropics/skills 結構,也可以直接 clone。skill-creator 在 skills/skill-creator/ 子目錄,把它複製到你本機的 skill 目錄即可。

git clone https://github.com/anthropics/skills # 把 skill-creator 複製進 Claude Code 的 skill 目錄 cp -r skills/skills/skill-creator ~/.claude/skills/ # 確認檔案在 ls ~/.claude/skills/skill-creator/SKILL.md

觸發 · 在對話裡開口

skill-creator 沒有命令,是一份 SKILL.md。它的 description 設定觸發語包括「create skill」「edit skill」「run evals」「optimize description」等等。你只要在 Claude Code 對話裡說想造 skill,它會自動把這份 SKILL.md 拉進對話、接管流程。

# 任何一句意圖都會觸發 create a skill for generating release notes help me write a skill that translates code comments to Traditional Chinese optimize the description of my existing skill run evals on this skill against baseline
需要 Claude Code(或支援 Skills 的 client)。SKILL.md 的觸發機制在 Claude 端執行,必須在 Claude Code、Claude Desktop,或其他支援 Agent Skills 格式的 client 上執行。純 API 模式需自行模擬 skill loader,一般使用者直接用 Claude Code 即可。
03
七步驟 · 三類產出 · 一份規格

skill-creator 的12 項核心功能:七步驟流程與支援能力。

skill-creator 是 Claude 在背後執行的多步驟工作流。以下 12 張卡片列出它的各項功能:前 7 張對應核心七步,後 5 張是支援這七步的子能力。所有命名均對應 anthropics/skills 的 README 與 skill-creator 的 SKILL.md。

Step · 01
capture-intent
捕捉使用意圖
你用一句話描述 skill 想做什麼,它先確認:這是 skill 還是 prompt?是 one-shot 還是要被多次呼叫?定義清楚再開始。
Step · 02
interview
澄清模糊需求
針對輸入、輸出、邊界、失敗模式做訪談。你回答的每一輪會直接寫進 SKILL.md 的 description 與 instructions 區塊。
Step · 03
write-skill-md
產出 YAML + Markdown
產一份合規的 SKILL.md:YAML frontmatter 帶 namedescription,正文是 instructions。檔名與目錄結構也一併建立。
Step · 04
generate-tests
寫出測試案例
基於你描述的使用情境,自動產 5–10 個測試 prompt。這些 prompt 後面會拿去跑 baseline 與 skill-loaded 對照。
Step · 05
run-evaluate
雙組對照
同一組測試,一次不載入 skill、一次載入。輸出 side-by-side 比較,讓你看到 skill 是真的有幫助,還是只是看起來像。
Step · 06
iterate
針對失敗逐條修
把 eval 不過的測試挑出來,逐條改 instructions 與 examples,再跑一輪。改一條、測一條,不是亂改一通。
Step · 07
optimize-description
最後一哩 5 輪迭代
YAML 的 description 決定 Claude 何時挑這個 skill。skill-creator 會跑 5 輪 description 改寫 + 召回測試,挑命中率最高的版本。
Spec · 08
SKILL.md format
官方檔案格式
YAML frontmatter 兩個必要欄位:name(短 slug)與 description(觸發條件)。正文是給 Claude 看的 instructions 與 examples。
Asset · 09
scripts/
可執行輔助腳本
skill 可以帶 scripts/ 資料夾,Claude 在執行 skill 時可以呼叫這些腳本,例如格式驗證、API 呼叫、檔案產出。
Asset · 10
references/
補充知識庫
放規格、範例、style guide 等參考文件。Claude 跑 skill 時會被引導去查這裡,而不是只憑 SKILL.md 正文判斷。
Asset · 11
assets/
範本與素材
圖片、HTML 範本、字體、JSON 範例都可以放這裡。skill 在執行時直接讀檔,不必每次都從零生成。
UI · 12
visual-review
eval 視覺化介面
eval 結果以 side-by-side 表格呈現,每個測試都能看到 baseline vs skill-loaded 的差異,作為判斷 skill 是否可交付的依據。

你的需求落在哪一步?

場景 用哪一步 結果產物
有想法,但不確定該不該做成 skill capture-intent + interview 需求邊界釐清,決定要不要繼續
需求清楚,要快速生出第一版 write-skill-md 合規 SKILL.md + 目錄結構
已經有 skill,想確認它真的有幫助 generate-tests + run-evaluate baseline vs skill-loaded 對照表
eval 不過想針對性修 iterate 修過版本 + 第二輪 eval
skill 沒被 Claude 挑中 optimize-description 5 個 description 候選 + 召回率
skill 需要呼叫外部腳本 scripts/ 可執行檔嵌進 skill
skill 要參考大量規格 references/ 知識庫資料夾,Claude 自己查
04
進階配置 · POWER PATTERNS

六條SKILL.md 編寫規則:來自官方文件的常見踩雷點。

以下六條均來自 anthropics/skills 的 README、skill-creator 的 SKILL.md 與官方 Skills 文件,是初次編寫 skill 時常見的失誤,也是 skill-creator 內建流程主動處理的細節。

TIP 01

description 寫的是「何時用」,不是「做什麼」

YAML 的 description 是 Claude 決定是否載入 skill 的依據。寫「處理 X 情境時」比寫「這是一個處理 X 的 skill」命中率高,skill-creator 第七步即針對這個欄位反覆優化。

來源 · skill-creator SKILL.md
TIP 02

baseline 對照才有意義

只跑 skill-loaded 看「結果還不錯」不足以判斷效益,需要對照「不載入 skill 時 Claude 的表現」。如果兩者結果相近,該 skill 沒有附加價值,應重新設計 instructions。

來源 · skill-creator run-evaluate
TIP 03

scripts/ 走可重用,不是 one-shot

scripts/ 適合放會被反覆呼叫的小工具:格式驗證、API 包裝、檔案讀寫。每次都用 prompt 重新生成同樣的程式很浪費,寫一份 .py 或 .sh 讓 skill 直接呼叫。

來源 · skills repo · scripts/ 目錄
TIP 04

references/ 比塞長 SKILL.md 聰明

SKILL.md 過長會佔滿上下文。將大量規格、範例、style guide 拆進 references/,SKILL.md 只寫「需要時查 references/style-guide.md」,上下文較短,Claude 的判斷精度反而提高。

來源 · skill-creator references 設計
TIP 05

用 trigger phrases 反推 description

先列你希望 Claude 何時觸發這個 skill 的「使用者會講什麼」清單,再用這些句子當召回測試的 query,反向去寫 description。比憑空寫描述命中率高 2–3 倍。

來源 · skill-creator optimize-description
TIP 06

skill-creator 本身就是參考實作

不確定 SKILL.md 怎麼寫,直接讀 skills/skill-creator/SKILL.md。它本身就是以自己的格式撰寫的官方範例,其分段方式、examples 與 instructions 寫法可作為編寫參考。

來源 · anthropics/skills/skills/skill-creator
05
實際走一輪

實作範例:從「整理 PDF 發票的 skill」到 eval 全數通過。

假設你想做一個 skill:輸入 PDF 發票檔案,輸出標準 JSON(發票號、日期、賣方、金額、品項)。下面是真實情境改寫,跑在已經把 anthropics/skills 裝好的 Claude Code 上。一句意圖,skill-creator 帶你走完七步。

~/projects/invoice-skill · claude code · skill-creator
You › create a skill for parsing PDF invoices to JSON
[skill-creator] step 1 / 7 · capture-intent → 確認:這是 file-input skill?輸出固定 JSON schema? 是,輸入 PDF,輸出 invoice schema
[step 2 / 7 · interview] → 問題 1:PDF 來源是中文還是英文?可能混合嗎? 繁體中文為主,偶有英文發票 → 問題 2:遇到圖片發票(掃描檔)要 OCR 嗎? 不要,只處理可選文字的 PDF → 問題 3:金額欄位要含稅還是不含稅? 含稅與不含稅都要,分開兩個欄位
[step 3 / 7 · write-skill-md] → 產出 skills/invoice-parser/SKILL.md → 建立 references/invoice-schema.json → 建立 assets/sample-invoice.pdf 範本連結
[step 4 / 7 · generate-tests] 產 8 個測試 prompt · 涵蓋中英文、單品 / 多品、含稅 / 未稅
[step 5 / 7 · run-evaluate] → baseline(無 skill):8 題中 3 題 schema 不符 → skill-loaded:8 題中 7 題通過,1 題抓錯品項數
[step 6 / 7 · iterate] 補一條 instruction:多品項時逐行解析,不要合併 → 第二輪 eval:8/8 通過
[step 7 / 7 · optimize-description] 5 輪 description 改寫 + 召回測試 → 最佳版本:「處理 PDF 發票檔案、需要結構化 JSON 輸出時使用」 → 召回率 92%(原始版本 67%)
完成 · 7 步 · 共耗時 22 分鐘 · skill 可直接交付團隊
完整流程為:定義需求,撰寫 SKILL.md,執行對照驗證,優化 description,直到 skill 的召回率與準確率均優於 baseline。
— skill-creator 設計原則

這條流程值得拆解的點

第二步要求回答關鍵問題。OCR 是否支援、中英文混合如何處理、金額是否含稅,這些是未被明確詢問時容易遺漏的 instructions 細節,interview 步驟強制釐清這些邊界條件。

baseline 對照確認 skill 的附加價值。baseline 3/8、skill-loaded 7/8,這個差距是該 skill 存在的依據。若兩組結果相同(均 8/8),代表 skill 沒有附加價值,不應保留。

description 召回率從 67% 拉到 92%。第七步直接影響 Claude 何時觸發你的 skill。skill 內容再完整,description 描述不準確,Claude 也無法正確觸發。

06
使用限制與注意事項

skill-creator 的使用邊界與常見誤用。

  • 需要支援 Skills 的 Claude client。Skills 的觸發機制在 client 端執行,必須使用 Claude Code、Claude Desktop 或其他支援 Agent Skills 格式的工具。純 API 用戶需自行模擬 skill loader,一般使用者直接用 Claude Code 即可。
  • description 寫不準確,skill 不會被 Claude 觸發。Claude 只載入 description 符合當前情境的 skill,描述過於籠統或技術化都會被略過。第七步的 description optimization 是觸發率的關鍵步驟,不可略過。
  • eval 樣本太少結論不可靠。generate-tests 預設產 5–10 題,小 skill 還行,複雜 skill 應該手動補到 20+ 題並涵蓋邊界情境。一兩題通過不代表 skill 在 production 也能穩定。
  • SKILL.md 不是越長越好。所有指示都塞進 SKILL.md 反而吃光上下文。應該把規格丟到 references/、把程式碼丟到 scripts/,SKILL.md 只寫「該做什麼、何時去查 references」。
  • skill-creator 自己不會幫你想清楚需求。interview 只能在你給的資訊上追問;如果你的初始描述太模糊,它生出來的測試也會泛泛。先想好「使用情境、輸入格式、輸出規格、失敗模式」再開工。
  • baseline 對照不能取代真實使用。eval 通過只能證明它在你想到的情境會動,不代表在真實使用情境也能動。skill 上線後仍要追蹤失敗 case,定期回頭再跑 iterate。
  • scripts/ 帶可執行檔,等於擴大攻擊面。任何能被 Claude 呼叫執行的腳本都要當受信任程式碼審查。從別人的 skill repo 拿 scripts 來改用之前,先讀過內容,別讓 Claude 在你電腦上跑沒看過的程式。
  • 不是所有任務都該寫成 skill。一次性、低重複度的任務直接 prompt 就好,寫成 skill 反而增加維護負擔。skill 適合「會被重複觸發、有明確輸入輸出、有可驗證的成功標準」的工作流。
07
進階路徑

將 skill-creator 客製為團隊 skill 標準流程

skill-creator 本身就是一個用 SKILL.md 寫成的 skill。它的 prompt、interview 流程、eval 機制全部都是可讀、可修改、可 fork 的。因此可以將它客製為公司專屬的 skill 生成流程,而非只作為通用工具使用。

進階玩法地圖

1. fork 一份內部 skill-creator。將 interview 問題調整為公司流程相關,例如多加一輪「這個 skill 涉及哪個資料系統 / 哪個 PII 等級」。所有同事使用內部版本生成 skill,合規與安全規則統一。

2. 把公司 style guide 灌進 references/。新 skill 的 SKILL.md 自動引用內部的 voice、品牌字、技術命名規範。skill 一寫出來就符合公司規範,不必每次都另外提醒。

3. 用 description 召回率當 KPI。每個內部 skill 均記錄上線後三個月被 Claude 觸發的次數。若某個 skill 半年未被觸發,回頭跑 optimize-description,原因通常是 description 描述不準確,而非 skill 本身無用。

4. 把 eval 結果存起來做迴歸。每次修改 SKILL.md 都跑同一組 baseline 測試,結果存進版控。新版本若某些測試項退步,可立刻發現,這是 LLM 應用中常被忽略的迴歸測試機制。

5. 把 scripts/ 變成公司工具箱。多個 skill 共用的小工具(API 包裝、檔案處理)抽出來放共用目錄。skill repo 因此變薄,維護成本下降,新 skill 也能直接接共用工具。

最該讀的三份延伸閱讀

skills/skill-creator/SKILL.md:skill-creator 自身的 SKILL.md,是官方格式的權威範例。
docs.claude.com · Agent Skills overview:Skills 官方文件,包含 SKILL.md 規格與 YAML 欄位定義。
github.com/anthropics/skills:Anthropic 提供的所有官方 skills,可作為編寫時的參考實作。

目標是建立可交付給團隊的「定義 → 撰寫 → 測試 → 優化」標準工作流,而非一次性 prompt 產出。
— skill-creator 設計原則