Evaluation

Evaluation taxonomy generated by the site skill importer.

19 个技能

healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署，因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。

模型评测

收藏 0GitHub 156.2k

eval-harness

作者 affaan-m

eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准，构建能力评估和回归评估，并在发布 prompt 或工作流变更前衡量 agent 的可靠性。

模型评测

收藏 0GitHub 156.1k

continuous-agent-loop

作者 affaan-m

continuous-agent-loop 帮助代理运行可重复的自主循环，配备质量门、eval、恢复步骤和明确的停止规则，以便更可靠地完成任务。

Agent 编排

收藏 0GitHub 156.1k

self-eval

作者 alirezarezvani

self-eval 是一个纯 prompt 的 Claude Code skill，用于在工作完成后进行诚实复盘。它通过双轴评分、devil's advocate reasoning、评分持久化和反膨胀检查，在任务、代码审查或工作会话结束后评估 AI 工作质量。

模型评测

收藏 0GitHub 22.2k

prompt-governance

作者 alirezarezvani

prompt-governance 是一个 Claude skill，用于将生产环境中的 prompts 作为可版本化、可评审、可测试的资产来管理。可用于规划 prompt registries、回归测试、A/B 实验、eval pipelines、发布审批以及 AI 功能的回滚流程。

提示词治理

收藏 0GitHub 22.2k

run

作者 alirezarezvani

run 是一个面向 Claude 的 AgentHub 编排技能，可触发 /hub:run 来初始化任务、生成 agents、评估结果，并合并胜出的方案。适合用于可量化的代码改进，或需要评审对比的创意方案比较；使用时应提供清晰的 task、agent、eval、metric、direction 和 template 参数。

Agent 编排

收藏 0GitHub 22.1k

eval

作者 alirezarezvani

eval 可按配置指标、LLM judge 评审或混合方式，对已完成的 AgentHub agent 结果进行排名。可配合 /hub:eval 使用，在选择优胜结果前比较 session branches、diffs 和 result posts。

模型评测

收藏 0GitHub 22.1k

context-degradation

作者 muratcankoylan

context-degradation 是一项实用技能，用于诊断长流程中的上下文失效问题，包括 lost-in-the-middle、poisoning、distraction、confusion 和 clash。它可以帮助你定位上下文是在哪里断裂的，决定先改什么，并为 Skill Authoring、prompt 放置和生产环境中的 agent 调试提供一套可重复执行的 context-degradation 指南。

Skill 编写

收藏 0GitHub 15.6k

huggingface-community-evals

作者 huggingface

huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试，以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。

模型评测

收藏 0GitHub 10.4k

azure-ai-projects-py

作者 microsoft

azure-ai-projects-py 是面向 Microsoft Foundry 项目客户端的 Azure AI Projects Python SDK 技能。适用于安装、认证、客户端初始化、使用 PromptAgentDefinition 的版本化 agent、评估、连接、部署、数据集、索引，以及 OpenAI 兼容访问。最适合 Python 后端开发工作流。

后端开发

收藏 0GitHub 2.2k

skill-optimizer

作者 mcollina

skill-optimizer 帮助作者提升 AI 技能的激活率、清晰度和跨模型可靠性。适合用于 Skill Authoring：当技能已经写好却总是跟不对、触发条件不够明确、出现回归，或需要压缩上下文成本时使用。它支持基准测试循环、发布门禁，以及更高的使用一致性。

Skill 编写

收藏 0GitHub 1.8k

tree-of-thoughts

作者 NeoLabHQ

tree-of-thoughts 是一种推理工作流技能，帮助智能体探索多种路径、剪除薄弱分支，并综合出更好的答案。它适用于困难调试、方案规划、架构权衡，以及用于 Agent Orchestration 的 tree-of-thoughts。

Agent 编排

收藏 0GitHub 982

judge

作者 NeoLabHQ

Judge 是一个两阶段评估技能：先启动 meta-judge，再启动 judge 子代理，在隔离上下文、证据和明确标准下对作品打分。适合用于代码、写作、分析或 Skill Authoring 的仅报告式审查；当你需要一份站得住脚的 judge 指南，而不是随口给出的意见时，它尤其合适。

Skill 编写

收藏 0GitHub 982

judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案，使用共享规范、基于证据的反驳，以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估，以及 Multi-Agent Systems 工作流中的 judge-with-debate。

多 Agent 系统

收藏 0GitHub 982

do-and-judge

作者 NeoLabHQ

do-and-judge 技能通过子代理执行步骤、独立评审和基于重试的验证来完成单个任务，直到通过或达到最大重试次数。对于需要明确验收标准、隔离执行，并且比通用 prompt 更少猜测的 Workflow Automation 场景，适合使用 do-and-judge。

工作流自动化

收藏 0GitHub 982

do-competitively

作者 NeoLabHQ

do-competitively 帮你通过并行候选生成、基于 rubric 的评判和基于证据的综合，解决重要任务。它特别适合 Workflow Automation 以及其他高风险请求，因为在这些场景里，质量、鲁棒性和权衡处理比速度更重要。

工作流自动化

收藏 0GitHub 982

scholar-evaluation

作者 K-Dense-AI

scholar-evaluation 可通过覆盖问题定义、方法、分析、写作和发表准备度的结构化评分，帮助评估学术与研究成果。适用于学术审阅、修改规划，以及对论文、提案、文献综述和其他学术初稿提供一致性的反馈。

学术研究

收藏 0GitHub 0

evaluation

作者 muratcankoylan

evaluation 技能可帮助你为非确定性系统设计并执行 agent 评估。适用于评估安装规划、评分标准、回归检查、质量门禁，以及 Skill Testing 场景下的评估；也适合 LLM-as-judge 工作流、多维度打分，以及需要可重复结果的实际评估使用。

Skill 测试

收藏 0GitHub 0

critique

作者 NeoLabHQ

critique 是一款仅出报告的审查技能，使用多个专门裁判、辩论和共识机制来评估已完成的工作。它可用于 Code Review 中的 critique，以及在合并前检查正确性、质量和遗漏问题。将 critique 安装到 NeoLabHQ context-engineering-kit 中，并结合文件路径、提交记录或上下文使用。

代码评审

收藏 0GitHub 0