Overview
skill-creator 是什麼
skill-creator 是一個用來建立與改進其他 agent skills 的 meta-skill。在 anthropics/skills 儲存庫中,它被描述為一套工作流程,可用於從零開始建立 skill、修訂既有 skill、搭配 eval prompts 進行測試、審查結果,並持續迭代直到效能提升。
因此,對於使用 Anthropic 與 Claude 工作流程、希望以更有結構的方式撰寫 skills、驗證行為,並隨時間持續改善觸發描述的團隊來說,skill-creator 特別有參考價值。
誰適合使用 skill-creator
如果你有以下需求,就適合使用 skill-creator:
- 正在撰寫新的 skill,並需要可重複執行的撰寫流程
- 正在更新表現不佳或觸發不穩定的既有 skill
- 想在改寫前後執行 evals,比較變更效果
- 想從質化角度審查輸出,而不只看單純的通過/失敗數字
- 想對不同 skill 版本做 benchmark,並分析為何某個版本表現較好
它最適合 skill 作者、agent 工作流程設計者,以及在 skills library 中負責測試與驗證的人員。
它能幫助解決哪些問題
從儲存庫內容可以看出,skill-creator 不只是拿來草擬指令而已。它支援的是更完整的改進循環:
- 草擬或重寫 skill
- 建立並審查 eval prompts
- 依據 transcripts 與 outputs 檢查是否符合評分預期
- 以盲測方式比較不同輸出
- 分析勝出的版本為何表現更好
- 優化 skill description,以提升觸發準確度
正因為具備這樣的組合,skill-creator 首先適合用於 skill 撰寫,同時也高度涵蓋 skill 測試與 skill 驗證場景。
儲存庫中包含哪些內容
從檔案結構來看,這不是單一文字 prompt,而是一套實用工作流程:
SKILL.md定義了建立與迭代 skill 的高層流程agents/analyzer.md、agents/comparator.md與agents/grader.md描述了專門的評估角色scripts/run_eval.py、scripts/run_loop.py、scripts/quick_validate.py與scripts/aggregate_benchmark.py支援測試與 benchmark 工作流程scripts/improve_description.py顯示 description optimization 是一項核心任務eval-viewer/generate_review.py、eval-viewer/viewer.html與assets/eval_review.html支援人工審查 eval 執行結果references/schemas.md顯示還有支援 skill 打包或驗證作業的結構與參考資料
什麼情況下適合使用 skill-creator
如果你想要一套有文件可依循、可重複執行、能以循環方式持續改進 skill 的流程,skill-creator 會非常適合。尤其當你的團隊重視以證據為基礎的迭代,而不是只做一次性的 prompt 修改時,它的價值會更明顯。
如果你需要以下能力,就可以考慮使用它:
- 實際可落地的 skill 撰寫流程
- 不只是臨時測試的評估支援
- 用盲測比較不同版本,以降低偏見
- 審查 transcripts 與 outputs 的工具
- 在使用者或評估者回饋後進行有結構的迭代
什麼情況下 skill-creator 可能不是最佳選擇
如果你只是想做一個非常小型的輔助 skill,而且沒有規劃任何評估循環,這個 skill 可能就超出你的需求了。它也不是以通用軟體開發工具箱或 UI framework 為核心。它的重心始終是 agent skills 的撰寫與衡量。
如果你的目標只是安裝一個現成的終端使用者 skill 並立即使用,那麼 skill-creator 會更偏向流程導向,而不是任務導向。
How to Use
安裝 skill-creator
可使用以下指令,從 Anthropic skills repository 安裝 skill-creator:
npx skills add https://github.com/anthropics/skills --skill skill-creator
安裝完成後,先打開已安裝的檔案,並從 SKILL.md 開始。這個檔案定義了整體流程:辨識使用者目前所處階段、草擬或修訂 skill、進行測試、審查結果,然後持續迭代。
先查看關鍵檔案
如果你正在評估是否安裝與導入,以下是最值得優先檢視的檔案:
SKILL.mdagents/analyzer.mdagents/comparator.mdagents/grader.mdscripts/run_eval.pyscripts/run_loop.pyscripts/quick_validate.pyscripts/improve_description.pyscripts/aggregate_benchmark.pyeval-viewer/generate_review.pyeval-viewer/viewer.htmlassets/eval_review.htmlreferences/schemas.md
這組檔案可以清楚看出,skill-creator 同時包含撰寫指引與驗證支援。
理解建議的工作流程
根據 SKILL.md,建議的使用模式是循環迭代:
- 先決定目標 skill 應該完成什麼,以及它該如何運作。
- 草擬 skill。
- 建立一小組測試 prompts。
- 在這些 prompts 上執行 skill。
- 從質化與量化兩個面向審查 outputs。
- 根據審查發現重寫 skill。
- 擴大測試集,並以更大規模重複進行。
如果你希望從初步想法一路走到經過驗證的 skill,而不是等到最後才補做評估,這樣的流程會特別有幫助。
使用評估 agents 進行更深入的審查
儲存庫中包含三個專門的 agent 定義,幫助你更清楚理解評估應該如何進行:
agents/comparator.md:以 A 與 B 的方式比較 outputs,但不揭露是哪個 skill 產生的,有助於降低偏見agents/analyzer.md:說明勝出版本為何勝出,並整理出可執行的改進方向agents/grader.md:檢查預期是否真的通過,並提醒避免使用過弱的斷言,以免產生虛假的信心
綜合來看,這些檔案顯示 skill-creator 不只是用來產生 skill 草稿,也重視有紀律的審查流程。
在瀏覽器中查看 eval 結果
一個很實用的功能是 eval-viewer/generate_review.py,它可以為 eval 結果產生並提供一個自包含的審查頁面。原始碼中的使用方式如下:
python generate_review.py <workspace-path> [--port PORT] [--skill-name NAME]
它也可以載入先前的回饋:
python generate_review.py <workspace-path> --previous-feedback /path/to/old/feedback.json
根據原始內容說明,它會讀取 workspace runs、將 output data 嵌入 HTML 審查頁面、在本機提供服務,並自動將回饋儲存到 feedback.json。如果你的工作流程依賴人工審查 outputs,這會是值得考慮採用 skill-creator 的一個強力理由。
將 scripts 資料夾視為操作工具箱
scripts/ 目錄顯示了 skill-creator 主要支援的實務操作:
run_eval.py:執行 evaluationsrun_loop.py:進行迭代改進循環quick_validate.py:執行較快速的 validation 檢查aggregate_benchmark.py:彙整 benchmark 並進行偏重變異分析的檢視generate_report.py:產生報告improve_description.py:微調 descriptionpackage_skill.py:處理打包作業
建議把這些檔案視為可供檢視與調整的實作細節,再依照你的環境做適配,而不要預設它們是一套放諸四海皆準的固定配置。
實際導入建議
在全面導入 skill-creator 之前,建議先確認以下幾點:
- 你的團隊是否已有適合 transcripts 與 output review 的 workspace 結構
- 你是否需要除了數值評分之外的質化審查
- 在你的流程中,不同 skill 版本之間的盲測比較是否重要
- 你是否需要透過 description optimization 來改善 skill triggering
- 以 Python 為基礎的本機 review tooling 是否符合你的環境
如果這些需求與你的工作流程吻合,skill-creator 很可能就是值得安裝的選項。
FAQ
安裝後,skill-creator 實際上會做什麼?
skill-creator 提供一套有結構的流程,用來建立與改進 agent skills。它結合了撰寫指引、eval 執行支援、結果審查、評分、盲測比較與迭代,幫助你把 skill 從草稿推進到經過測試的版本。
skill-creator 只適合拿來建立全新的 skills 嗎?
不是。儲存庫說明已明確指出,它支援從零建立 skill、修改既有 skill、改進現有 skill、執行 evals、進行 benchmark,以及為了提升 triggering accuracy 而優化 description。
skill-creator 有包含測試與驗證支援嗎?
有,而且從儲存庫內容來看相當明確。agents/grader.md、agents/comparator.md、agents/analyzer.md,以及 run_eval.py、quick_validate.py、aggregate_benchmark.py 等腳本的存在,都顯示測試與驗證是這套工作流程的核心部分。
skill-creator 能幫我公平比較兩個 skill 版本嗎?
可以。agents/comparator.md 描述了一種盲測比較流程,會將 outputs 標記為 A 與 B,但不揭露是哪個 skill 產生的。這對於想在較少偏見的前提下比較不同版本時很有幫助。
skill-creator 能幫助改善 skill description 嗎?
可以。最上層說明已明確提到,會針對 skill 的 description 進行優化,以提升 triggering accuracy;而儲存庫中也包含 scripts/improve_description.py,進一步支持這項描述。
我需要把每個 script 和子資料夾都用上嗎?
不需要。比較實際的做法是先從 SKILL.md 開始,接著查看 agent 角色相關檔案,再依照你的工作流程去檢視相符的 scripts 與 viewer 檔案。有些團隊只需要撰寫循環與 eval review,有些則會需要更完整的 benchmark 與 reporting 模組。
skill-creator 適合簡單的一次性任務嗎?
通常不太適合。skill-creator 的價值主要在於你打算長期迭代、測試、比較並持續改進 skill 的情境。若只是一次性任務,且沒有評估規劃,它的流程可能會比你實際需要的更完整、更重一些。
在正式工作流程中決定是否安裝 skill-creator 前,我應該先看哪些內容?
請先查看 SKILL.md、agents/ 中的三個 agent 檔案、scripts/ 內的腳本,以及 eval-viewer/generate_review.py。這些檔案最能清楚呈現 skill-creator 在實際使用中如何處理 skill 撰寫、測試與驗證。
