Evaluation

Evaluation taxonomy generated by the site skill importer.

19 個技能

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為，以及整合合規性。重大失敗會阻擋部署，因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

模型評測

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架，適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過／失敗標準、建立能力與回歸評測，並在正式推出提示詞或工作流程變更前，衡量 agent 的可靠性。

模型評測

收藏 0GitHub 156.1k

continuous-agent-loop

作者 affaan-m

continuous-agent-loop 可協助 agents 以可重複的自主迴圈執行工作，並搭配品質關卡、evals、復原步驟與清楚的停止規則，提升任務完成的可靠性。

Agent 編排

收藏 0GitHub 156.1k

self-eval

作者 alirezarezvani

self-eval 是一個純提示型 Claude Code skill，用於在工作完成後進行誠實檢視。它透過雙軸評分、devil's advocate reasoning、分數持久化與反灌水檢查，在任務、程式碼審查或工作階段結束後評估 AI 工作品質。

模型評測

收藏 0GitHub 22.2k

prompt-governance

作者 alirezarezvani

prompt-governance 是一個 Claude 技能，用來把生產環境中的 prompts 當成可版本控管、可審查、可測試的資產來管理。你可以用它規劃 prompt registries、regression tests、A/B experiments、eval pipelines、release approvals，以及 AI 功能的 rollback workflows。

Prompt Governance

收藏 0GitHub 22.2k

run

作者 alirezarezvani

run 是一項用於 Claude 的 AgentHub orchestration 技能，可觸發 /hub:run 來初始化任務、產生 agents、評估結果，並合併勝出的方案。適合用在可量化的程式碼改善，或需要評審比較的創意產出情境；使用時應明確提供 task、agent、eval、metric、direction 與 template 等參數。

Agent 編排

收藏 0GitHub 22.1k

eval

作者 alirezarezvani

eval 會依設定好的 metrics、LLM judge review，或混合方式，為已完成的 AgentHub agent 結果排名。搭配 /hub:eval 使用，可在選出勝出者前比較 session branches、diffs 與 result posts。

模型評測

收藏 0GitHub 22.1k

context-degradation

作者 muratcankoylan

context-degradation 是一個實用技能，用於診斷長流程中的上下文失效，包括 lost-in-the-middle、poisoning、distraction、confusion 和 clash。可用來找出上下文在哪裡斷裂、判斷應先改什麼，並套用可重複使用的 context-degradation 指南，支援 Skill Authoring、prompt 放置與 production agent debugging。

Skill 編寫

收藏 0GitHub 15.6k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試，以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈，或 community-evals 自動化。

模型評測

收藏 0GitHub 10.4k

azure-ai-projects-py

作者 microsoft

azure-ai-projects-py 是 Microsoft Foundry 專案用戶端的 Azure AI Projects Python SDK 技能。適合用於安裝、驗證、用戶端設定、使用 PromptAgentDefinition 的版本化 agent，以及評估、連線、部署、資料集、索引與相容 OpenAI 的存取。最適合 Python 後端開發流程。

後端开发

收藏 0GitHub 2.2k

skill-optimizer

作者 mcollina

skill-optimizer 協助作者提升 AI 技能的啟動率、清晰度與跨模型可靠性。適合用於 Skill Authoring：當技能已寫好卻不夠穩定地被遵循、觸發條件太弱、出現迴歸，或需要壓低上下文成本時。它支援基準測試迴圈、發布閘門，以及更高的使用一致性。

Skill 編寫

收藏 0GitHub 1.8k

tree-of-thoughts

作者 NeoLabHQ

tree-of-thoughts 是一種推理工作流程技能，能協助代理探索多種做法、修剪較弱的分支，並整合出更好的答案。它適合困難的除錯、規劃、架構取捨，以及用於 Agent Orchestration 的 tree-of-thoughts。

Agent 編排

收藏 0GitHub 982

judge

作者 NeoLabHQ

Judge 是一個兩階段評估技能，會先啟動 meta-judge，再由 judge 子代理在隔離上下文中，依據證據與明確標準替工作內容打分。當你需要一份可辯護的 judge 指南，而不是隨性意見時，可用於程式碼、寫作、分析或 Skill Authoring 的報告式審查。

Skill 編寫

收藏 0GitHub 982

judge-with-debate

作者 NeoLabHQ

judge-with-debate 透過結構化的多代理辯論來評估解決方案，使用共享規格、以證據為基礎的反駁，以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估，以及 Multi-Agent Systems 工作流程中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

do-and-judge

作者 NeoLabHQ

do-and-judge 技能會以子代理的實作步驟、獨立判定者與重試驗證機制來執行單一任務，直到通過或達到最大重試次數為止。當你需要明確的驗收標準、隔離式執行，以及比通用提示詞更少的猜測時，可在 Workflow Automation 中使用 do-and-judge。

工作流自動化

收藏 0GitHub 982

do-competitively

作者 NeoLabHQ

do-competitively 協助你透過平行候選生成、依評分準則判斷，以及以證據為本的綜合，來解決重要任務。它最適合 Workflow Automation 與其他高風險請求，這類工作比速度更重視品質、穩健性與權衡取捨。

工作流自動化

收藏 0GitHub 982

scholar-evaluation

作者 K-Dense-AI

scholar-evaluation 可用結構化評分來評估學術與研究工作，涵蓋問題界定、方法論、分析、寫作與發表準備度。適合用於學術審稿、修訂規劃，以及對論文、提案、文獻回顧與其他學術草稿提供一致的回饋。

学术研究

收藏 0GitHub 0

evaluation

作者 muratcankoylan

evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關，以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分，以及需要可重複結果時的實務評估使用。

Skill 测试

收藏 0GitHub 0

critique

作者 NeoLabHQ

critique 是一個僅回報結果的 review 技能，透過多個專門評審、辯論與共識機制來評估已完成的工作。它可協助 Code Review 的 critique，並在合併前檢查正確性、品質與可能漏掉的問題。將 critique 安裝到 NeoLabHQ context-engineering-kit 中，並搭配檔案路徑、commit 或 context 使用。

程式碼評審

收藏 0GitHub 0