skill-creator

作者 anthropics

skill-creator 是一個用於撰寫技能的 meta-skill，可協助起草新技能、修改既有 `SKILL.md`、執行 eval、比較不同版本，並透過 repository 腳本與審查工具優化觸發描述。

Stars105.1k

評論0

加入時間2026年3月28日

分類Skill 編寫

安裝指令

npx skills add anthropics/skills --skill skill-creator

編輯評分

這個技能評分為 84/100，代表它很適合想要用實際工作流程來建立、迭代與評估其他技能的使用者。repository 展示了相當扎實的操作內容——包含多步驟指引、evaluator agents 與可直接執行的 scripts——因此相較於一般提示詞，agent 在這裡通常能獲得更高的實用槓桿。不過，採用時仍可能需要自行判讀部分設定方式，因為 `SKILL.md` 並沒有提供簡單的安裝流程或快速上手指令。

95/100

亮點

觸發適配性強：說明清楚涵蓋建立新技能、編修既有技能、執行 eval、比較版本差異，以及為了提升觸發效果而優化描述。
操作槓桿高：repo 內含具體的評估迴圈與審查工具，包括 `run_eval.py`、`run_loop.py`、`aggregate_benchmark.py`、`package_skill.py`，以及 `eval-viewer/generate_review.py`。
漸進式資訊揭露做得不錯：專門的 analyzer、comparator 與 grader agent 文件清楚說明角色、輸入內容與逐步評估流程。

注意事項

採用流程不算完全開箱即用：`SKILL.md` 缺少安裝指令或精簡的快速開始路徑，使用者可能需要自行推敲如何把這些 scripts 串接進自己的環境。
對簡單需求而言，整體流程可能偏重：包含多個 scripts、agents 與評估步驟，對部分使用者來說可能超出實際所需。

Anthropic Claude 工作流测试 Documentation

總覽

skill-creator skill 概覽

skill-creator 的用途

skill-creator 是一個用於 Skill Authoring 的 meta-skill：它協助你建立新 skill、修訂既有 skill，並評估這些改動是否真的讓行為變得更好。它不像一般「幫我寫一個 skill」的提示詞，只產出一次性的草稿；skill-creator 是圍繞反覆迭代的流程設計：先起草、再測試、檢視輸出、比較不同版本，最後持續修正。

哪些人適合使用 skill-creator

凡是需要把重複出現的 agent 行為整理成可重用 skill 的人，都很適合使用 skill-creator：

從模糊概念出發的 skill authors
想改善效果不佳 SKILL.md 的維護者
準備在更大範圍推出前先補上 evals 的團隊
想優化描述，讓正確 skill 更穩定被觸發的人

如果你只需要一次性的 prompt，skill-creator 很可能比你實際需要的流程更重。

真正要解決的工作

多數使用者不是單純需要有人幫忙寫 markdown，而是需要減少猜測與試錯：

這個 skill 應該包含哪些內容
要如何從使用者那裡蒐集足夠脈絡
如何用貼近真實情境的 prompts 進行測試
如何從質化與量化兩個面向檢視輸出
如何反覆迭代，而不被單次看起來不錯的結果誤導

這種以工作流程為核心的設計，就是 skill-creator skill 最主要的差異點。

安裝前值得先注意的亮點

從 repository 內容來看，skill-creator 在評估與迭代上的強度，明顯高於「快速生成骨架」。它包含：

放在 agents/ 的 evaluator 導向輔助 agents
放在 scripts/ 的 benchmark 與報告腳本
位於 eval-viewer/ 與 assets/ 的 HTML 檢視流程
放在 references/schemas.md 的 schema／參考資料

如果你在意的是如何量測品質，而不只是先產出第一版草稿，那 skill-creator 會特別有價值。

哪些因素可能阻礙導入

主要的取捨點是複雜度。skill-creator 預設你會分階段思考，並提供測試 prompts、預期結果與比較對象。如果你的環境無法執行配套的 Python scripts，或你本來就不打算評估輸出，那你最後只會用到這個 skill 的一部分。

如何使用 skill-creator skill

在你的 skills 環境中安裝 skill-creator

如果你使用的是 Anthropic skills CLI 這套模式，可直接從上游 repo 安裝：

npx skills add https://github.com/anthropics/skills --skill skill-creator

在 SKILL.md 裡，repository 沒有標示獨立的套件安裝方式，所以大多數使用者應該會從 monorepo 加入，接著再檢查本機安裝下來的檔案內容。

先讀這些檔案

如果你想快速掌握重點，建議依照這個順序閱讀：

skills/skill-creator/SKILL.md
skills/skill-creator/agents/grader.md
skills/skill-creator/agents/comparator.md
skills/skill-creator/agents/analyzer.md
skills/skill-creator/scripts/run_eval.py
skills/skill-creator/scripts/run_loop.py
skills/skill-creator/eval-viewer/generate_review.py
skills/skill-creator/references/schemas.md

這條閱讀路徑會直接揭示它真正的運作模式：先生成或修訂 skill、執行 evals、比較輸出，再分析為什麼某一版勝出。

從你目前真正所在的階段開始

skill-creator skill 不只適合拿來做全新的 skill。它最有效的用法，是你要明確告訴模型目前處在哪個階段：

idea capture：「我知道問題，但還不清楚工作流程」
first draft：「把這些筆記整理成可用的 SKILL.md」
repair：「這個 skill 已經存在，但在這些 prompts 上失敗」
optimization：「改善觸發描述與 examples」
evaluation：「設計測試 prompts 與 expectations」
comparison：「比較 v1 和 v2，說明哪一個更好」

如果你跳過這一步，模型很容易把力氣花在錯的階段上。

提供這個 skill 真正需要的輸入

一個品質夠好的 skill-creator usage prompt，通常會包含：

目標使用者真正要完成的工作
未來 skill 會收到哪些輸入
預期輸出或交付物是什麼
skill 可以讀取或執行哪些 tools／files
像是 latency、格式或 safety 之類的限制
你目前已觀察到的失敗案例
3 到 10 個貼近真實情境的測試 prompts

品質提升幅度最大的，通常不是更長的說明文字，而是更好的 examples 與 failure cases。

把模糊需求改寫成高品質 prompt

弱的 prompt：

Help me create a research skill.

更強的 prompt：

Use skill-creator for Skill Authoring. I need a skill that turns a vague market question into a structured research brief with sources, assumptions, and open questions. Inputs are a user question and optional company context. Outputs should be a markdown brief. The skill may browse repository files but should not invent citations. Current failure modes: overlong answers, weak source framing, and missing assumptions. Please draft the skill, propose 6 eval prompts, and suggest measurable expectations for each.

這樣會更好，因為它把任務、I/O、限制條件與失敗模式都說清楚了。

使用內建的評估流程

從 repository 的設計可以看出，skill-creator 的重點是反覆評估，而不只是起草。實務上可依照這個流程：

起草或修訂 skill
建立一小組 eval set
執行測試
檢查 transcripts 與 outputs
依 expectations 進行評分
在適合的情況下做盲測比較不同版本
再次修訂 skill

scripts/ 底下的檔案，其實已經很明確提示了預期工作流：

run_eval.py：執行 evals
aggregate_benchmark.py 與 generate_report.py：彙整結果
run_loop.py：重複進行改進循環
quick_validate.py：做更快的檢查
improve_description.py：調整 trigger description

用 HTML viewer 檢查輸出

skill-creator install 的一個實用差異點，在於它內建了 review UI。eval-viewer/generate_review.py 可以從一組 runs 的 workspace 產生獨立 HTML review 頁面，還能保存回饋。當你需要人工檢視多組輸出時，這一點尤其重要，特別是那些既要看 transcript 品質、又要看最終產物的 skill。

如果你正在評估要不要導入這個 skill，這套 review tooling 是很有說服力的理由之一。

用 comparator 與 grader agents 降低迭代偏差

有兩個支援 agents 特別值得用：

agents/comparator.md：以 A/B 方式比較輸出，且不先知道是哪個 skill 產生的
agents/grader.md：依 transcript 與 output 檢查 expectations，也會指出薄弱的判斷依據

這代表 skill-creator 問的不只是「這個輸出看起來好不好」，而是「我們的 eval 設計本身有沒有意義」。對認真維護 skill 的情境來說，這點非常實用，也相對少見。

不只調整內容本體，也要調整 description

很多 skill authors 會把注意力過度放在 instructions 內容，卻忽略了最上方用來觸發 skill 的 description。scripts/improve_description.py 的存在，本身就說明了 trigger 品質是這套流程的一部分。如果一個本來不錯的 skill 沒有被穩定叫用，優先改善：

description 中對問題的界定方式
它應該在哪些情境下啟用
哪些邊界情況不應交給它處理

對既有 skill library 來說，這是 skill-creator skill 很高槓桿的用法。

先了解實務上的限制

skill-creator 能幫你把撰寫與評估流程架構化，但它無法取代下列條件：

對目標任務本身的領域知識
真實可用的 eval cases
面對主觀輸出時的人類判斷
能執行內建 Python utilities 的 runtime 環境

如果你無法提供貼近真實情境的 prompts，或無法實際檢查輸出，整個流程的效力就會大幅下降。

skill-creator skill 常見問題

skill-creator 適合新手嗎？

適合，但有一個前提：新手可以用 skill-creator guide 這種流程避免對著空白頁發呆，但整個 repo 的完整用法，仍預設你能接受反覆測試與迭代。如果你剛上手，建議先從起草與一小組 eval set 開始，再碰 benchmarking scripts。

skill-creator 比一般 prompt 好在哪裡？

一般 prompt 也許能給你一份看起來合理的初稿；但當你需要一套可重複執行、可持續改善、還有評估支援的建立流程時，skill-creator 會更有優勢。它真正的價值，在於周邊的方法論與輔助檔案，而不只是第一版文字本身。

什麼情況下不該用 skill-creator？

以下情況可以直接跳過：

你只需要一次性的 prompt
沒有打算測試輸出
任務規模太小，不值得做成 skill
你的環境無法使用 repository 的 scripts 或 review flow

在這些情況下，直接寫 prompt 反而更快。

skill-creator 只能幫新 skill 嗎？

不是。skill-creator skill 也很適合拿來修訂既有 skill、比較兩個版本的 benchmark 表現，以及改善 description 以提高觸發準確率。

一定要把所有 scripts 都用上才有價值嗎？

不用。你仍然可以把 skill-creator usage 用在起草與人工修訂上。不過，真正讓這個 repository 比一般 prompting 多出資訊增益的，還是那些 evaluation scripts 與 viewer。

這只適用於 Anthropic 的 skills 生態系嗎？

它顯然是依照該生態系的 skill 結構與術語設計的，所以在那個環境裡最貼合。不過，這套工作流思路——起草、評估、比較、修訂——也很容易遷移到其他內部 skill 或 agent framework。

如何改善 skill-creator skill 的使用效果

先把任務邊界縮窄

要最快提升 skill-creator 的輸出品質，最有效的方法之一，就是先定義未來那個 skill 應該拒絕什麼、忽略什麼。沒有邊界時，草稿很容易變得過於寬泛、什麼都想接。請在 prompt 裡加入「適用情境」與「不適用情境」的 examples。

盡早提供真實的 eval prompts

很多人太晚才開始建立測試案例。對 skill-creator for Skill Authoring 來說，提早寫 eval prompts，能逼你更早釐清真正任務是什麼。好的 evals 應該反映真實使用者輸入，而不是把 skill 美化得過頭的精修範例。

把 expectations 寫得更具體

模糊的 expectations 很容易帶來虛假的信心。不要只寫：

「Output is clear」

更好的寫法是：

「Output includes a prioritized recommendation」
「Every cited claim links to a provided source」
「Result contains assumptions and open questions sections」

這也符合 agents/grader.md 的設計理念：它明確提醒你，避免使用那種很容易被草率滿足的 assertions。

變動細微時，改用盲測比較版本

如果你正在兩份相近草稿之間做選擇，與其直接盯著 markdown 主觀判斷，不如採用 blind-comparison 模式。因為小幅度的措辭調整，往往會對實際執行造成難以從 skill file 直接預測的影響。

不要只看最終輸出，也要看 transcripts

一個看起來很完整的最終答案，可能掩蓋了糟糕的 tool 使用、漏讀檔案，或推理薄弱等問題。當你把 transcripts 和 outputs 一起檢查，並追問某個版本究竟為何成功時，skill-creator 的價值才會真正放大；這也正是 analyzer agent 的用途所在。

一次只改善一個面向

如果你希望得到可信的學習結果，就不要一次重寫 description、instructions、examples 和 tool guidance。一次只改一個面向，然後在固定的 eval set 上重跑，再回頭檢查差異。這樣做會讓 skill-creator guide 流程產生更有判讀價值的結果。

把 repository 檔案當成操作說明

如果你覺得結果過於籠統，不要只重讀 SKILL.md。更應該去看那些定義評估行為的支援檔案：

agents/comparator.md：理解 A/B review 裡「更好」是怎麼定義的
agents/grader.md：掌握 pass/fail 的嚴格程度
agents/analyzer.md：用來做事後改進分析
references/schemas.md：確認預期結構

很多時候，這些檔案比最上層 description 更能說清楚這個 skill 應該怎麼用。

第一次跑出好結果後，擴大 eval set

一個常見失誤，是看到幾次結果不錯就停下來。skill-creator skill 很明確就是為了反覆擴充而設計：當草稿先在小型測試集上運作正常後，就應該把 prompts 擴大到 edge cases、模糊請求，以及高失敗率範例。只有這樣，你才能看出這個 skill 到底是真的穩健，還只是剛好運氣好。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

create-colleague

作者 titanwings

create-colleague 可將同事文件、聊天紀錄、電子郵件、截圖、Feishu 與 DingTalk 資料整理成可編輯的 AI 技能，並分別產出工作與人物設定內容，也提供後續持續優化的更新流程。

Skill 編寫

收藏 1GitHub 747

lean-ux-canvas

作者 deanpeters

lean-ux-canvas 協助團隊界定商業問題、梳理假設，並使用 Lean UX Canvas v2 定義下一步要學什麼。當你在解決方案設計前，需要一份實用的 lean-ux-canvas 指南，用於工作坊準備、利害關係人對齊，以及早期產品探索時，這個技能特別適合。

Skill 編寫

收藏 0GitHub 4.1k

documentation-lookup

作者 affaan-m

documentation-lookup 可協助代理從最新文件回答 library、framework 與 API 問題，而不是依賴記憶。當你需要處理安裝、設定、參考查詢或程式碼範例，且最新語法很重要時，它特別合適。若請求仰賴即時文件與版本正確的指引，請在 Skill Docs 中使用 documentation-lookup 技能。

Skill 文件

收藏 0GitHub 156.1k

mcp-builder

作者 anthropics

mcp-builder 是一份實用指南，協助規劃、建置與評估供外部 API 與服務使用的 MCP server。它可幫助開發者決定工具範圍、命名、傳輸方式，以及 Python 或 Node 的實作模式與評估流程，讓 agent 能更穩定地使用 server。

MCP 服务开发

收藏 0GitHub 105k

user-story

作者 deanpeters

user-story 技能可協助你把產品需求轉成一則可直接交付開發的故事，並使用 Mike Cohn 寫法與 Gherkin 驗收條件。適合用在更清楚的交接、更好的估算，以及為技術寫作與產品團隊建立更精準的 user-story 指南。

技术写作

收藏 0GitHub 4.1k

user-story-splitting

作者 deanpeters

user-story-splitting 技能可協助你用結構化模式，將大型 Epic 與使用者故事拆分成更小、可獨立交付的故事。當待辦項目過於龐大、不適合單一衝刺時，可用於估算、排程順序、降低風險，以及 Skill Authoring 工作流程。

Skill 編寫

收藏 0GitHub 0

sanity-best-practices

作者 sanity-io

sanity-best-practices 技能可在你開始建置前，幫你選對 Sanity 的做法。適用於 schemas、GROQ、TypeGen、Visual Editing、Portable Text、在地化、migration、Functions、Blueprints，以及 Next.js、Nuxt、Astro、Remix、SvelteKit、Angular、Hydrogen 和 App SDK 等前端整合。

前端开发

收藏 0GitHub 0

provider-docs

作者 hashicorp

provider-docs 技能可協助你為 Terraform provider 建立、更新與驗證 Terraform Registry 文件。適用於 provider-docs 指南工作、Technical Writing 的 provider-docs，以及在文件變更時同步 schema descriptions、`tfplugindocs` templates 與 Registry 輸出。

技术写作

收藏 0GitHub 0

press-release

作者 deanpeters

press-release 技能可協助你在開發前撰寫 Amazon 風格的 Working Backwards press release。它能幫你釐清顧客價值、驗證產品或功能構想，並用精簡、以客戶為中心的敘事對齊利害關係人。適合用於 Technical Writing 的 press-release，以及早期產品規劃。

技术写作

收藏 0GitHub 4.1k

writing-skills

作者 obra

writing-skills 是一份用於 Skill Authoring 的實作指南，協助你以測試驅動流程建立、編修與驗證 agent skills。內容涵蓋關鍵檔案、先備條件，以及在壓力情境、基準測試與精簡 SKILL.md 迭代中的實務做法。

Skill 編寫

收藏 0GitHub 121.9k

prd-generator

作者 ognjengt

prd-generator 會把粗略的產品想法整理成可供 AI 使用的 Product Requirements Document（PRD）。它會先提出釐清問題，再依照固定模板引導，幫助創辦人、產品負責人與 Skill Authoring 工作流程產出更清楚的規格，供後續 AI 程式開發工具使用。當你需要結構化需求、衡量指標、限制條件，以及可直接進入實作的背景資訊時，就適合使用 prd-generator。

Skill 編寫

收藏 0GitHub 0

command-creator

作者 softaworks

command-creator 可協助你把重複使用的 Claude Code 工作流程整理成可重用的 slash commands。你可以了解適合的 command 設計模式、撰寫 agent 可直接執行的指示、判斷該放在 `.claude/commands/` 還是 `~/.claude/commands/`，並運用內附參考資料查看範例與最佳實務。

Skill 編寫

收藏 0GitHub 1.3k

altitude-horizon-framework

作者 deanpeters

altitude-horizon-framework 是一個用於 PM 升任 Director 轉換期的決策技能。可用它來診斷 altitude 與 horizon 的落差、釐清範圍與時機，並在策略模糊時套用 Cascading Context Map。內容也提供實用的安裝、使用與範例指引，方便進行 skill authoring。

Skill 編寫

收藏 0GitHub 4.1k

prompt-optimizer

作者 affaan-m

prompt-optimizer 是一個 prompt-optimizer 技能，可分析粗略的提示詞，找出缺少的上下文，並將其改寫成更清楚、可直接貼上的提示詞。它最適合用於 prompt-optimizer 指南工作、提示詞審查，以及 Prompt Writing 的 prompt-optimizer，特別是在你需要為 Claude Code 或 ECC workflows 提供更好的結構時。不會執行底層任務。

提示词写作

收藏 0GitHub 156.2k

continuous-learning-v2

作者 affaan-m

continuous-learning-v2 可將 Claude Code 工作階段轉為以專案為範圍的學習，結合 hooks、observer agents、信心分數，以及把重複模式升級為 skills、commands 或 agents。

Skill 編寫

收藏 0GitHub 156.1k

documentation-and-adrs

作者 addyosmani

documentation-and-adrs 可協助代理人撰寫以決策為核心的技術文件與 ADR。適合用來記錄脈絡、限制條件、取捨、被否決的方案，以及架構、API、基礎架構、驗證與功能變更所帶來的影響。當你需要的是能留給未來工程師與代理人參考的長期決策依據，而不只是潤飾過的摘要時，這個技能特別合適。

技术写作

收藏 0GitHub 18.7k