agent-eval

作者 affaan-m

agent-eval 是一款用來讓程式代理在可重現任務上進行正面比較的 skill，可比對通過率、成本、耗時與一致性。若你想在自己的 repo 中評估 Claude Code、Aider、Codex 或其他代理，agent-eval skill 能提供比臨時下提示更清楚、更有依據的評估結果。

Stars156k

評論0

加入時間2026年4月15日

分類模型評測

安裝指令

npx skills add affaan-m/everything-claude-code --skill agent-eval

編輯評分

這個 skill 的評分為 78/100，對想用可重現方式比較程式代理的目錄使用者來說，是一個相當值得收錄的候選項目。這個 repository 提供了足夠的操作層面資訊，讓人能理解何時適合使用、以及它如何運作；不過在安裝前仍建議先詳讀原始內容，因為目前沒有額外的支援腳本或參考檔案可搭配使用。

78/100

亮點

清楚說明了啟用情境，適合用於代理比較、回歸檢查，以及模型／工具採用決策。
工作流程元素具體明確：包含 YAML task definitions、judge checks，以及用 git worktree isolation 進行可重現比較。
對希望以資料為依據選擇代理，而不是靠臨時比較判斷的團隊來說，具有很高的安裝決策參考價值。

注意事項

未提供 install command、scripts 或支援檔案，因此是否能順利採用，仍有賴使用者仔細閱讀主要的 skill 檔案。
這個 repository 看起來聚焦於單一且輕量的 CLI workflow；若你需要更完整的評估基礎設施，可能會想找工具更齊全的方案。

Claude Code Codex Aider Git Cli 测试工作流

總覽

agent-eval 技能概覽

agent-eval 是一個用來讓 coding agent 在同一個任務上正面對照、再根據通過率、成本、時間與一致性比較結果的技能。如果你正在評估要不要在真實 repo 裡採用 Claude Code、Aider、Codex，或其他 agent，agent-eval 技能能幫你把意見之爭轉成可重現的證據。

它最適合需要公平比較的團隊與進階使用者，而不是那種泛用的「丟個 prompt 看看」測試。真正要解決的工作是：把任務一次定義好，讓多個 agent 在同一個基準上執行，然後在你的約束條件下判斷誰表現最好。

agent-eval 技能的實用價值

agent-eval 的核心價值在於受控比較：同一個 repo、同一個任務、同一組成功檢查、分開的 worktree。這會讓結果比臨時試跑或一次性 prompt 更值得信任。

agent-eval 技能適用的情境

當你想要以下用途時，使用 agent-eval 技能：

在標準化工作流程前比較各個 agent
檢查模型更新是否改變了結果
在自己的 codebase 與規則下測試效能
為團隊決策或採購選擇蒐集判斷證據

agent-eval 技能不太適合的情況

如果你只需要一個單次的 coding 答案，直接下正常 prompt 會更簡單。agent-eval 的價值主要出現在你在意可重複性、評估標準，以及速度、品質與成本之間的取捨時。

如何使用 agent-eval 技能

安裝並檢視這個 agent-eval 技能

要進行 agent-eval 安裝，先從 repo 安裝這個技能，並先閱讀核心技能檔：
npx skills add affaan-m/everything-claude-code --skill agent-eval

接著打開 SKILL.md，以及你工作流程中會用到的任何關聯上下文。在這個 repository 裡，主要來源就是技能檔本身，所以是否要採用，會很大程度取決於它的任務模型是否符合你的評估流程。

把模糊目標轉成可執行的任務

agent-eval 的使用方式，在你把任務定義得更具體時效果最好：明確的任務、目標 repo、以及客觀檢查。較弱的 prompt 會像是「測試哪個 agent 較擅長重構」。更好的 prompt 則會像這樣：

在 src/http_client.py 加入重試邏輯
將 repo 鎖定到某個 commit，以確保可重現性
指定允許變更的檔案
定義判斷命令，例如 pytest 或 grep
如果有影響，明確寫出可接受的最長時間或成本

任務越能被自動驗證，這種比較就越有價值。

建議的工作流程

一個實用的 agent-eval 指南如下：

先挑一個能反映你真實決策需求的任務。
用 YAML 寫下任務，包含 repo 路徑、檔案、prompt 與 judges。
讓多個 agent 在同一個任務上執行。
比較輸出品質、執行時間與成本。
在做最後決定前，再用另一個任務重複一次。

這個技能使用 git worktree 隔離，能避免不同 agent 互相覆蓋變更，也讓並排評估更乾淨。

先閱讀這些檔案

先看：

SKILL.md，了解任務格式與工作流程
任何定義你測試或評判規則的 repo 內部檔案
你的 YAML 任務定義中所列出的檔案

如果你是在為 Model Evaluation 評估 agent-eval，請先確認你的任務與 judges 已經夠穩定，能產生可比較的執行結果，再投入更大規模的基準測試。

agent-eval 技能常見問題

agent-eval 只適合 coding-agent 基準測試嗎？

是，主要就是如此。這個技能是為了 coding agent 的正面比較而設計，不是用來做一般 prompt 測試或大範圍 LLM benchmarking。

使用它需要 Docker 嗎？

不需要。這個技能透過 git worktree 隔離，所以不用容器也能把各次執行分開。

它適合新手嗎？

如果你能清楚定義任務，並能操作命令列工作流程，那它算是容易上手。但如果你想要的是不用任何設定、點一下就能跑的 evaluator，它就不那麼合適。

這和一般 prompt 有什麼不同？

一般 prompt 是請一個 agent 解一個任務。agent-eval 技能則是讓多個 agent 在固定 judges 下解同一個任務，讓你能用較少偏差比較結果。

如何改進 agent-eval 技能

強化任務定義

agent-eval 的最佳結果，通常來自輸入清楚、可編輯範圍明確、judges 也客觀的任務。如果 prompt 太開放，這場比較多半只是在測各 agent 如何解讀，而不是在測 agent 本身的品質。

加入能反映真實成功標準的 judges

優先選擇能對應你團隊實際驗證變更方式的檢查：測試、lint、檔案 diff，或模式比對。如果 judge 太寬鬆，差的解法也可能看起來不錯；如果太嚴格，則可能反而獎勵脆弱的土法。

迭代的是基準，不是答案

如果某個 agent 以錯誤理由勝出，應該先修正任務，再下結論。把檔案清單收斂清楚、把接受標準講明白，並將 commit 固定下來，這樣 agent-eval 技能每次才是在測同一個目標。

留意常見失敗模式

最常見的問題包括：prompt 太模糊、judge 不匹配、以及任務太大，導致比較不公平。若要更好地使用 agent-eval，先從小型、可重現、而且能代表你真正希望 agent 去做的工作開始。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

evaluation-methodology

作者 wshobson

evaluation-methodology 技能說明 Model Evaluation 中的 PluginEval 評分方法，涵蓋評估層級、評分規準、綜合計分、徽章門檻，以及如何解讀結果並改善較弱面向的實務建議。

模型評測

收藏 0GitHub 32.6k

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為，以及整合合規性。重大失敗會阻擋部署，因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

模型評測

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架，適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過／失敗標準、建立能力與回歸評測，並在正式推出提示詞或工作流程變更前，衡量 agent 的可靠性。

模型評測

收藏 0GitHub 156.1k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試，以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈，或 community-evals 自動化。

模型評測

收藏 0GitHub 10.4k

huggingface-best

作者 huggingface

huggingface-best 技能可透過檢查 Hugging Face 基準排行榜，並依裝置限制與模型大小篩選，幫你找到某項任務的最佳模型。當你需要的是實用的候選清單，而不是泛用模型列表時，它很適合用在程式撰寫、推理、聊天、OCR、RAG、語音、視覺或多模態工作上的模型推薦。

模型評測

收藏 0GitHub 10.4k

libafl

作者 trailofbits

libafl 技能可協助你用 LibAFL 規劃並打造模組化 fuzzing 工具，適用於自訂目標、突變策略與資安稽核流程。使用這份 libafl 指南，你可以從目標細節出發，建立實用的 harness、回饋模型與執行規劃，減少先入為主的假設。

安全稽核

收藏 0GitHub 5k

evaluation

作者 muratcankoylan

evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關，以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分，以及需要可重複結果時的實務評估使用。

Skill 测试

收藏 0GitHub 0

judge-with-debate

作者 NeoLabHQ

judge-with-debate 透過結構化的多代理辯論來評估解決方案，使用共享規格、以證據為基礎的反駁，以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估，以及 Multi-Agent Systems 工作流程中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

gws-modelarmor

作者 googleworkspace

gws-modelarmor 可協助你在 googleworkspace/cli 生態系中使用 Google Model Armor。可用來清理 prompts、清理模型回應，並建立比通用 prompt 更少猜測的 templates。它適合重複執行、符合政策意識的使用情境，以及 Security Audit 工作流程。

安全稽核

收藏 0GitHub 25.5k

analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 協助分析人員綜合評估基礎架構重疊、ATT&CK 一致性、惡意程式相似度、時間線與語言特徵，進而做出有理有據的活動歸因。可用這份 analyzing-campaign-attribution-evidence 指南來支援 CTI、事件分析與 Security Audit 審查。

安全稽核

收藏 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一項資安技能，用於在未受信任的文字送入 LLM 之前先行篩檢。它結合多層正則表達式、啟發式評分與基於 DeBERTa 的分類，來標記直接與間接的 prompt injection attacks。適合用於聊天機器人輸入驗證、文件匯入，以及 Threat Modeling。

威胁建模

收藏 0GitHub 0

llm-evaluation

作者 wshobson

使用 llm-evaluation skill，為 LLM 應用、提示詞、RAG 系統與模型變更設計可重複執行的評估方案，涵蓋指標、人工作業審查、基準測試與回歸檢查。

模型評測

收藏 0GitHub 32.6k

ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一項提示詞稽核技能，可在正式上線、評估或面向客戶使用前，檢查 LLM 提示詞的安全性、偏誤、資安弱點與輸出品質。

模型評測

收藏 0GitHub 27.8k

agentic-eval

作者 github

agentic-eval 是一個 GitHub Copilot skill，示範如何運用反思、依 rubric 進行評論，以及 evaluator-optimizer 模式，為 AI 輸出建立評估迴圈。

模型評測

收藏 0GitHub 27.8k

ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份實用指南，聚焦如何設計涵蓋資料準備、訓練、驗證、部署與監控的端到端 MLOps pipeline，並提供可重複執行的工作流程自動化編排模式。

工作流自動化

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 協助你把模糊的 UI 構想變成具有明確美感方向的獨特、可上線前端介面，產出真實可用的 frontend 程式碼，減少千篇一律的 AI 風格。

UI 設計

收藏 1GitHub 105.2k