eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架，適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過／失敗標準、建立能力與回歸評測，並在正式推出提示詞或工作流程變更前，衡量 agent 的可靠性。

Stars156.1k

評論0

加入時間2026年4月15日

分類模型評測

安裝指令

npx skills add affaan-m/everything-claude-code --skill eval-harness

編輯評分

這個技能的評分是 78/100，代表它是很有價值的目錄候選項，對於做 eval-driven development 的 agents 具有實際工作流程價值。使用者應該能很快啟用並理解它的用途，不過也要預期它主要是以文件說明為主，而不是搭配 helper scripts 或內建參考資料的技能。

78/100

亮點

針對 EDD 設定、通過／失敗標準、回歸評測與基準測試，提供清楚的啟用情境
內容相當完整，包含結構化的 eval 與 grader 模板，以及多個工作流程章節
frontmatter 與明確的 'When to Activate' 指引讓觸發性很強，安裝意圖也容易判斷

注意事項

沒有安裝指令、scripts 或支援檔案，因此採用時仍需依照 markdown 指引手動閱讀與套用
沒有附帶 references/resources/tests，對想要一鍵上手的 evaluation harness 使用者來說，信任訊號較弱

Claude Code Evaluation 测试 Regression Testing Pr Github Code

總覽

eval-harness 技能概覽

eval-harness 是做什麼的

eval-harness 技能是一套用於 Claude Code 工作階段與以評測驅動開發的正式評估框架。它能幫你先定義在發佈前什麼叫做「好」，再實際衡量 agent、prompt 或工作流程是否真的達到那個標準。

誰適合使用它

如果你需要為 AI 輔助開發、prompt 變更或 agent 行為建立可重複檢查機制，就很適合使用 eval-harness 技能。它特別適合用來比較不同模型版本、追蹤 regression，或把模糊的任務期待轉成可通過／失敗的判準。

為什麼這很重要

eval-harness for Model Evaluation 的核心價值在於可靠性：與其憑感覺判斷結果，不如撰寫 eval 來揭露行為何時改變。這會讓你更容易除錯 agent 表現、比較不同執行結果，並避免發佈會悄悄拉低品質的 prompt 更新。

什麼情況下最適合

當任務能被表述為可觀察的成功條件、輸出結構，或有檢查點的行為時，eval-harness 最能發揮作用。若是開放式的創意工作，除非你仍然能定義可衡量的驗收條件，否則它的幫助就會比較有限。

如何使用 eval-harness 技能

安裝並啟用

進行 eval-harness install 時，先在你的 Claude Code 環境中走完 repo 提供的技能安裝流程，接著直接打開技能檔。這個技能位於 skills/eval-harness/SKILL.md，而且應該先讀這個檔案，因為它定義了何時啟用框架，以及 eval 應該怎麼組織。

先建立一個技能能評估的 prompt

要有好的 eval-harness usage，不要一開始就寫「測試我的 agent」。先從具體目標開始，例如：agent 必須完成什麼任務、什麼算成功、什麼算失敗，以及你是在檢查能力還是 regression。比較好的輸入像是：「評估 agent 能否在不破壞驗證的情況下更新 React form，並要求三個明確的成功條件。」這樣 harness 才有可以量化的內容。

先讀對的檔案

如果你要在自己的工作流程中採用 eval-harness guide 的方式，請先讀 SKILL.md，再查看任何描述評估風格、評分邏輯或輸出慣例的 repo 註記。這個 repo 沒有 helper scripts 或額外的支援資料夾，所以 skill 檔本身就是唯一的權威來源。

在實際工作流程中使用它

一個好的流程是：先定義行為，再為 happy path 寫一個 eval，接著針對已知失敗點加上一個 regression eval，最後執行 harness 並調整判準。這樣可以讓 eval 的規模保持在容易除錯的範圍，也能降低寫出過於寬泛、難以解讀的測試的機率。

eval-harness 技能 FAQ

eval-harness 只適用於 Claude Code 嗎？

不是。這個技能是圍繞 Claude Code 工作階段撰寫的，但底層方法在任何需要結構化 agent 評估的情境都適用。如果你的技術棧使用不同工具，仍然可以沿用這套 eval 格式與評分邏輯。

eval-harness 跟一般 prompt 一樣嗎？

不一樣。一般 prompt 是要一個答案；eval-harness 要的是一種可重複使用的答案判定方式。當你需要的是跨版本的一致性，而不只是單次回應漂亮，這個差異就很關鍵。

這對初學者友善嗎？

是，只要你能清楚描述任務。真正比較難的不是語法，而是寫出好的成功條件。初學者通常會在從單一、簡單的 capability eval 開始時表現最好，而不是一開始就試著一次建模整個工作流程。

什麼情況下不該用？

如果工作高度主觀、輸出無法一致檢查，或你只是需要一次性的答案，就先不要用 eval-harness。當可靠性、regression 追蹤，或模型比較才是實際目標時，它的效果最強。

如何改進 eval-harness 技能

讓判準可觀察

品質提升最大的地方，是把主觀意見轉成可檢查項。把「讓它變好一點」改成像「保留既有 API shape」、「回傳有效 JSON」或「通過三個 regression case」這類條件。判準越可觀察，eval-harness 就越容易執行，也越值得信任。

把能力與 regression 分開

如果你把新功能檢查與既有行為檢查混在一起，失敗時就會很難解讀。請讓 capability eval 專注在 Claude 能不能完成新能力，讓 regression eval 專注在既有基準是否仍然成立。

給 harness 真正的邊界案例

更強的 eval 不只包含 happy path，也要包含失敗模式。加入棘手輸入、不完整的上下文，或有歧義的指示，讓 eval-harness skill 能看出 agent 是真的穩定，還是只是剛好在乾淨案例上表現不錯。

第一次跑完後要迭代

把第一次執行當作校準，而不是證明。如果結果不夠清楚，就收緊成功條件、加入 baseline，或把一個過於寬泛的 eval 拆成更小的檢查。這通常是提升 eval-harness usage、並得到可採取行動結果的最快方式。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能說明 Model Evaluation 中的 PluginEval 評分方法，涵蓋評估層級、評分規準、綜合計分、徽章門檻，以及如何解讀結果並改善較弱面向的實務建議。

模型評測

收藏 0GitHub 32.6k

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為，以及整合合規性。重大失敗會阻擋部署，因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

模型評測

收藏 0GitHub 156.2k

agent-eval

作者 affaan-m

agent-eval 是一款用來讓程式代理在可重現任務上進行正面比較的 skill，可比對通過率、成本、耗時與一致性。若你想在自己的 repo 中評估 Claude Code、Aider、Codex 或其他代理，agent-eval skill 能提供比臨時下提示更清楚、更有依據的評估結果。

模型評測

收藏 0GitHub 156k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試，以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈，或 community-evals 自動化。

模型評測

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能可透過檢查 Hugging Face 基準排行榜，並依裝置限制與模型大小篩選，幫你找到某項任務的最佳模型。當你需要的是實用的候選清單，而不是泛用模型列表時，它很適合用在程式撰寫、推理、聊天、OCR、RAG、語音、視覺或多模態工作上的模型推薦。

模型評測

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可協助你用 LibAFL 規劃並打造模組化 fuzzing 工具，適用於自訂目標、突變策略與資安稽核流程。使用這份 libafl 指南，你可以從目標細節出發，建立實用的 harness、回饋模型與執行規劃，減少先入為主的假設。

安全稽核

收藏 0GitHub 5k

evaluation

作者 muratcankoylan

evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關，以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分，以及需要可重複結果時的實務評估使用。

Skill 测试

收藏 0GitHub 0

judge-with-debate

作者 NeoLabHQ

judge-with-debate 透過結構化的多代理辯論來評估解決方案，使用共享規格、以證據為基礎的反駁，以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估，以及 Multi-Agent Systems 工作流程中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 可協助你在 googleworkspace/cli 生態系中使用 Google Model Armor。可用來清理 prompts、清理模型回應，並建立比通用 prompt 更少猜測的 templates。它適合重複執行、符合政策意識的使用情境，以及 Security Audit 工作流程。

安全稽核

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 協助分析人員綜合評估基礎架構重疊、ATT&CK 一致性、惡意程式相似度、時間線與語言特徵，進而做出有理有據的活動歸因。可用這份 analyzing-campaign-attribution-evidence 指南來支援 CTI、事件分析與 Security Audit 審查。

安全稽核

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一項資安技能，用於在未受信任的文字送入 LLM 之前先行篩檢。它結合多層正則表達式、啟發式評分與基於 DeBERTa 的分類，來標記直接與間接的 prompt injection attacks。適合用於聊天機器人輸入驗證、文件匯入，以及 Threat Modeling。

威胁建模

收藏 0GitHub 0

llm-evaluation

作者 wshobson

使用 llm-evaluation skill，為 LLM 應用、提示詞、RAG 系統與模型變更設計可重複執行的評估方案，涵蓋指標、人工作業審查、基準測試與回歸檢查。

模型評測

收藏 0GitHub 32.6k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一項提示詞稽核技能，可在正式上線、評估或面向客戶使用前，檢查 LLM 提示詞的安全性、偏誤、資安弱點與輸出品質。

模型評測

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一個 GitHub Copilot skill，示範如何運用反思、依 rubric 進行評論，以及 evaluator-optimizer 模式，為 AI 輸出建立評估迴圈。

模型評測

收藏 0GitHub 27.8k

ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份實用指南，聚焦如何設計涵蓋資料準備、訓練、驗證、部署與監控的端到端 MLOps pipeline，並提供可重複執行的工作流程自動化編排模式。

工作流自動化

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 協助你把模糊的 UI 構想變成具有明確美感方向的獨特、可上線前端介面，產出真實可用的 frontend 程式碼，減少千篇一律的 AI 風格。

UI 設計

收藏 1GitHub 105.2k