create-skill-test

作者 dotnet

create-skill-test 會為 dotnet/skills 中的 agent skills 建立 eval.yaml 測試檔骨架。可用來建立技能測試、定義情境、fixtures、assertions 與 rubrics，並降低評估設計中的過擬合風險。這不是用來執行既有測試、排查 validator 錯誤，或撰寫 SKILL.md 檔案的工具。

Stars3k

評論0

加入時間2026年5月25日

分類Skill 测试

安裝指令

npx skills add dotnet/skills --skill create-skill-test

編輯評分

這個技能評分為 62/100，代表它可以收錄，但建議審慎使用：它為目錄使用者提供了實際且聚焦的 eval.yaml 測試檔骨架建立流程，但範圍較窄，而且更偏向特定 repository，沒有那麼通用。

62/100

亮點

觸發條件清楚：frontmatter 明確指出可用於建立 eval.yaml 測試檔、加入 scenarios、設定 fixtures，以及檢查過擬合風險。
流程具體可執行：正文包含明確輸入、適用／不適用時機，以及具有限制條件的多步驟流程。
對 dotnet/skills 貢獻者的安裝決策價值高：內容提到 validator 檢查與 repository 慣例，能比通用提示減少猜測。

注意事項

它屬於實驗性、測試導向，且範圍侷限於 dotnet/skills 慣例，因此在該 repository 之外的可移植性可能不佳。
未包含 scripts、參考資料或支援檔案，因此實作細節仍需完全依賴文件本身。

Test 模板文件开发者受众 Dotnet

總覽

`create-skill-test` 技能總覽

create-skill-test 是一個用來搭建與驗證的輔助工具，專門協助你為 dotnet/skills 儲存庫中的 agent skills 建立 eval.yaml 測試檔。它的目標是提供一個可靠的技能測試起點，而不是一個泛用的「幫我寫測試」提示。它的主要工作，是把目標 skill、plugin 名稱與情境構想，整理成符合慣例且較不容易過度擬合的測試結構，包含 fixtures、assertions 和 rubrics。

create-skill-test 最適合已經知道要評估哪個 skill、但需要快速產出一個符合儲存庫規則的測試檔的人。如果你的需求只是想跑測試、排查 validator 失敗，或從零撰寫 skill 指令，這個工具的效益就比較有限。

`create-skill-test` 的用途

當你要建立新的 eval 檔、替既有 eval 補充更多情境，或確認你的 rubric 是否過度綁定某一種固定輸出時，都適合使用 create-skill-test。它特別適合 create-skill-test for Skill Testing 這類流程，因為測試設計的品質和 YAML 結構本身同樣重要。

`create-skill-test` 幫你避開什麼問題

它最大的價值，在於幫你避開脆弱的 eval：缺少必要欄位、skill 路徑不一致、fixture 組織不佳，以及 rubric 用詞不小心獎勵了某種寫法，而不是實際行為。若你希望測試在目標 skill 演進後仍然維持可用，這些都非常關鍵。

`create-skill-test` 不取代什麼

它不能取代 skill-validator，也無法協助你編輯 SKILL.md 檔案。如果你的目標是診斷壞掉的測試執行，或除錯 validator 輸出，這就不是正確工具。

如何使用 `create-skill-test` 技能

安裝並開啟來源 skill

使用 npx skills add dotnet/skills --skill create-skill-test 安裝 create-skill-test。接著先閱讀 SKILL.md，因為那裡會說明工作流程、輸入需求，以及哪些條件會決定你的請求是否有效；在你要求模型產生任何內容之前，這些資訊都很重要。

提供正確的測試簡報

一個好的 create-skill-test install 請求，不只是「幫我做一個測試」而已。你要提供 skill 名稱、plugin 名稱、想驗證的行為，以及任何情境限制。這個 skill 預期的輸入，會像 plugins/<plugin>/skills/ 下面的目標 skill 那樣具體，所以命名精確度很重要。

較好的簡報會像這樣：

Skill: foo-bar
Plugin: dotnet-msbuild
目標：驗證 agent 能建立有效摘要，並拒絕不支援的路徑
情境：第一次使用者，只有部分上下文
Fixture 需求：一個最小輸入檔與一個邊界案例檔

這樣的內容能讓 create-skill-test usage 流程有足夠結構，產出有用的 eval，而不是泛泛而談的版本。

閱讀真正有影響的儲存庫區段

先看 SKILL.md，再檢查附近是否有 README.md、AGENTS.md、metadata.json，以及 rules/、resources/、references/ 或 scripts/ 資料夾。若這些資料夾存在，也都應一併查看。在這個儲存庫快照中，只有 SKILL.md 有被揭露，所以 skill 定義本身就是主要事實來源。

反覆調整情境與 rubric

先用第一版確認測試是否真的在衡量你想要的行為。如果 rubric 獎勵的是措辭而不是結果，就把標準收緊。如果情境太寬，就拆開來寫。如果這個 skill 只需要一條順利路徑，就讓 eval 保持精簡，不要硬加額外案例。

`create-skill-test` 技能 FAQ

`create-skill-test` 只適用於 `dotnet/skills` 嗎？

是，這個技能是依照 dotnet/skills 儲存庫的慣例與 plugins/<plugin>/skills/ 結構來設計的。你可以把概念移植到其他地方，但當你的儲存庫也採用相同結構與驗證預期時，create-skill-test 指南的價值最高。

我應該用它取代一般提示詞嗎？

當你想要一個可重複、結構較穩定、且較少格式錯誤的 eval scaffold 時，就該用 create-skill-test。一般提示詞也能描述測試，但在儲存庫特有慣例、fixture 擺放位置，以及過度擬合檢查這些面向上，通常會比較弱。

它適合新手嗎？

如果你能指出目標 skill，並用白話描述情境，那它就適合新手。若你連 plugin 名稱、skill 路徑或被測行為都說不出來，那它就不太適合新手，因為這些輸入會直接決定產出內容。

什麼時候不該用它？

不要把 create-skill-test 用在跑測試、除錯 validator 錯誤，或撰寫新 skill。這些都是相鄰但不同的工作流程，工具不同，成功標準也不同。

如何改善 `create-skill-test` 技能

提供更精準的輸入

create-skill-test 最好的結果，來自具體情境，而不是空泛目標。「測試 skill 在缺少上下文時能否回傳安全 fallback」會比「做一個完整 eval」更好，因為它清楚指出哪些行為重要、哪些內容不要過度給分。

要求 rubric 品質，不要只要 YAML

如果你只要求結構，最後可能得到一個技術上可用、但仍然過度擬合的檔案。你應該明確說出什麼算成功、什麼算失敗，以及哪些細節只是附帶資訊。這是提升 create-skill-test for Skill Testing 成效最快的方法。

產出後檢查是否過度擬合

檢視 assertions 是否獎勵單一措辭、固定順序，或某個精確的範例字串；除非這種精確度真的必要。好的 eval 應該衡量 skill 需要保留的行為，而不是某一次執行剛好產生的那一組字面用語。

依 validator 回饋再修正

如果第一版輸出驗證失敗，把完整錯誤訊息和前後相鄰的 YAML 片段一起回饋回去。這通常比把整個需求重講一遍，更容易得到更好的第二版。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

skill-creator

作者 anthropics

skill-creator 是一個用於撰寫技能的 meta-skill，可協助起草新技能、修改既有 `SKILL.md`、執行 eval、比較不同版本，並透過 repository 腳本與審查工具優化觸發描述。

Skill 編寫

收藏 2GitHub 105.1k

cpp-testing

作者 affaan-m

cpp-testing 技能可協助你使用 GoogleTest、GoogleMock、CMake 與 CTest 來撰寫、執行與除錯 C++ 測試。適合用於覆蓋率分析、修正不穩定測試、以 sanitizer 為基礎的診斷，以及在現代 C++ 專案中實作實用的 cpp-testing 工作流程。

测试自動化

收藏 0GitHub 156.1k

test-driven-development

作者 addyosmani

test-driven-development 技能可協助你先寫出會失敗的測試，再用最小幅度的修正讓測試通過。適合用於邏輯變更、錯誤修復、回歸問題與邊界情境，特別是在你需要可驗證證據，而不只是看似合理的修補方案時。

Skill 测试

收藏 0GitHub 18.8k

skill-optimizer

作者 mcollina

skill-optimizer 協助作者提升 AI 技能的啟動率、清晰度與跨模型可靠性。適合用於 Skill Authoring：當技能已寫好卻不夠穩定地被遵循、觸發條件太弱、出現迴歸，或需要壓低上下文成本時。它支援基準測試迴圈、發布閘門，以及更高的使用一致性。

Skill 編寫

收藏 0GitHub 1.8k

property-based-testing

作者 trailofbits

這份 property-based-testing 技能指南涵蓋如何在多種語言與 smart contracts 中撰寫、審查與改進 PBT。可用來辨識 roundtrip、idempotence、invariant、parser、validator 與 normalization 等情境，選擇合適的 generators，並判斷何時 property-based-testing 比 example-based tests 更有優勢。

Skill 测试

收藏 0GitHub 5k

writing-skills

作者 obra

writing-skills 是一份用於 Skill Authoring 的實作指南，協助你以測試驅動流程建立、編修與驗證 agent skills。內容涵蓋關鍵檔案、先備條件，以及在壓力情境、基準測試與精簡 SKILL.md 迭代中的實務做法。

Skill 編寫

收藏 0GitHub 121.9k

verification-loop

作者 affaan-m

verification-loop 是一套給 Claude Code 使用的驗證工作流程，用來在程式碼變更後檢查 build、型別、lint、測試、安全性與 diff。這個 verification-loop 技能特別適合在送出 PR 前、或重構之後使用，當你需要的是一份有結構的變更後檢查指南，而不是一個泛用提示詞時。

Verification

收藏 0GitHub 156.3k

perl-testing

作者 affaan-m

perl-testing 是一份實用指南，教你如何使用 Test2::V0、Test::More、prove、mocking、coverage 與 TDD 撰寫、執行並改進 Perl 測試。若你需要安裝指引、使用模式、遷移協助，以及更快排查失敗測試套件的問題，這個 perl-testing 技能會很有幫助。

Skill 测试

收藏 0GitHub 156.2k

kotlin-testing

作者 affaan-m

kotlin-testing 是一份實用的 Kotlin 測試自動化指南，涵蓋 Kotest、MockK、協程測試、屬性式測試與 Kover 覆蓋率。使用這個 kotlin-testing skill，可以跟著偏向 TDD 的工作流程撰寫更清楚的單元測試與元件測試，並在 mock 相依項或測試 suspend 程式碼時，減少猜測與反覆試錯。

测试自動化

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架，適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過／失敗標準、建立能力與回歸評測，並在正式推出提示詞或工作流程變更前，衡量 agent 的可靠性。

模型評測

收藏 0GitHub 156.1k

context-budget

作者 affaan-m

context-budget 技能可稽核 Claude Code 在 agents、skills、rules 與 MCP servers 上的 context 使用情況。它能協助找出內容膨脹、重複資訊與高成本元件，並回傳依優先順序排列的清理建議。這份 context-budget 指南適合想實際運用 context-budget，或在較大型環境中進行 Skill Testing 的使用者參考。

Skill 测试

收藏 0GitHub 156.1k

skill-judge

作者 softaworks

skill-judge 是一個用來稽核 AI skill 套件與 SKILL.md 檔案的審查與評分 skill。它可協助作者與維護者判斷知識增量、觸發清晰度、工作流程品質，以及是否已具備發佈準備度，並提供可採取行動的改進建議。

Skill 验证

收藏 0GitHub 1.3k

playwright-testing

作者 alinaqi

playwright-testing skill 可用於撰寫與除錯 Playwright 端對端測試，涵蓋 page objects、跨瀏覽器執行、適合 CI 的設定、驗證處理，以及穩定的測試結構。

Skill 测试

收藏 0GitHub 607

darwin-skill

作者 alchaincyf

darwin-skill 可用一套可重複執行的流程來改善 SKILL.md：先評估、再修訂、接著測試，最後決定保留或還原變更。它是為 Skill Authoring 打造，結合評分規準與以提示為基礎的驗證流程，並支援輸出來自 repo 範本與素材的視覺化結果。

Skill 編寫

收藏 0GitHub 549

evaluation

作者 muratcankoylan

evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關，以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分，以及需要可重複結果時的實務評估使用。

Skill 测试

收藏 0GitHub 0

tutor

作者 RoundTable02

tutor 是一個以測驗為核心的學習技能，適合 Obsidian StudyVault 使用者做診斷式評量、概念層級複習與進度追蹤。它會偵測語言、找到 vault、讀取 dashboard，並透過結構化練習針對弱項加強。當你需要可重複的學習檢查，而不是一般聊天式家教時，就很適合用 tutor。

Skill 編寫

收藏 0GitHub 0

create-skill-test

create-skill-test 技能總覽

create-skill-test 的用途

create-skill-test 幫你避開什麼問題

create-skill-test 不取代什麼

如何使用 create-skill-test 技能

安裝並開啟來源 skill

提供正確的測試簡報

閱讀真正有影響的儲存庫區段

反覆調整情境與 rubric

create-skill-test 技能 FAQ

create-skill-test 只適用於 dotnet/skills 嗎？

我應該用它取代一般提示詞嗎？

它適合新手嗎？

什麼時候不該用它？

如何改善 create-skill-test 技能

提供更精準的輸入

要求 rubric 品質，不要只要 YAML

產出後檢查是否過度擬合

依 validator 回饋再修正

評分與評論

`create-skill-test` 技能總覽

`create-skill-test` 的用途

`create-skill-test` 幫你避開什麼問題

`create-skill-test` 不取代什麼

如何使用 `create-skill-test` 技能

`create-skill-test` 技能 FAQ

`create-skill-test` 只適用於 `dotnet/skills` 嗎？

如何改善 `create-skill-test` 技能