Evaluation

Evaluation taxonomy generated by the site skill importer.

15 个技能
A
healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署,因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。

模型评测
收藏 0GitHub 156.2k
A
eval-harness

作者 affaan-m

eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准,构建能力评估和回归评估,并在发布 prompt 或工作流变更前衡量 agent 的可靠性。

模型评测
收藏 0GitHub 156.1k
A
continuous-agent-loop

作者 affaan-m

continuous-agent-loop 帮助代理运行可重复的自主循环,配备质量门、eval、恢复步骤和明确的停止规则,以便更可靠地完成任务。

Agent 编排
收藏 0GitHub 156.1k
M
context-degradation

作者 muratcankoylan

context-degradation 是一项实用技能,用于诊断长流程中的上下文失效问题,包括 lost-in-the-middle、poisoning、distraction、confusion 和 clash。它可以帮助你定位上下文是在哪里断裂的,决定先改什么,并为 Skill Authoring、prompt 放置和生产环境中的 agent 调试提供一套可重复执行的 context-degradation 指南。

Skill 编写
收藏 0GitHub 15.6k
H
huggingface-community-evals

作者 huggingface

huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试,以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。

模型评测
收藏 0GitHub 10.4k
M
azure-ai-projects-py

作者 microsoft

azure-ai-projects-py 是面向 Microsoft Foundry 项目客户端的 Azure AI Projects Python SDK 技能。适用于安装、认证、客户端初始化、使用 PromptAgentDefinition 的版本化 agent、评估、连接、部署、数据集、索引,以及 OpenAI 兼容访问。最适合 Python 后端开发工作流。

后端开发
收藏 0GitHub 2.2k
M
skill-optimizer

作者 mcollina

skill-optimizer 帮助作者提升 AI 技能的激活率、清晰度和跨模型可靠性。适合用于 Skill Authoring:当技能已经写好却总是跟不对、触发条件不够明确、出现回归,或需要压缩上下文成本时使用。它支持基准测试循环、发布门禁,以及更高的使用一致性。

Skill 编写
收藏 0GitHub 1.8k
N
tree-of-thoughts

作者 NeoLabHQ

tree-of-thoughts 是一种推理工作流技能,帮助智能体探索多种路径、剪除薄弱分支,并综合出更好的答案。它适用于困难调试、方案规划、架构权衡,以及用于 Agent Orchestration 的 tree-of-thoughts。

Agent 编排
收藏 0GitHub 982
N
judge

作者 NeoLabHQ

Judge 是一个两阶段评估技能:先启动 meta-judge,再启动 judge 子代理,在隔离上下文、证据和明确标准下对作品打分。适合用于代码、写作、分析或 Skill Authoring 的仅报告式审查;当你需要一份站得住脚的 judge 指南,而不是随口给出的意见时,它尤其合适。

Skill 编写
收藏 0GitHub 982
N
judge-with-debate

作者 NeoLabHQ

judge-with-debate 通过结构化的多智能体辩论来评估解决方案,使用共享规范、基于证据的反驳,以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估,以及 Multi-Agent Systems 工作流中的 judge-with-debate。

多 Agent 系统
收藏 0GitHub 982
N
do-and-judge

作者 NeoLabHQ

do-and-judge 技能通过子代理执行步骤、独立评审和基于重试的验证来完成单个任务,直到通过或达到最大重试次数。对于需要明确验收标准、隔离执行,并且比通用 prompt 更少猜测的 Workflow Automation 场景,适合使用 do-and-judge。

工作流自动化
收藏 0GitHub 982
N
do-competitively

作者 NeoLabHQ

do-competitively 帮你通过并行候选生成、基于 rubric 的评判和基于证据的综合,解决重要任务。它特别适合 Workflow Automation 以及其他高风险请求,因为在这些场景里,质量、鲁棒性和权衡处理比速度更重要。

工作流自动化
收藏 0GitHub 982
K
scholar-evaluation

作者 K-Dense-AI

scholar-evaluation 可通过覆盖问题定义、方法、分析、写作和发表准备度的结构化评分,帮助评估学术与研究成果。适用于学术审阅、修改规划,以及对论文、提案、文献综述和其他学术初稿提供一致性的反馈。

学术研究
收藏 0GitHub 0
M
evaluation

作者 muratcankoylan

evaluation 技能可帮助你为非确定性系统设计并执行 agent 评估。适用于评估安装规划、评分标准、回归检查、质量门禁,以及 Skill Testing 场景下的评估;也适合 LLM-as-judge 工作流、多维度打分,以及需要可重复结果的实际评估使用。

Skill 测试
收藏 0GitHub 0
N
critique

作者 NeoLabHQ

critique 是一款仅出报告的审查技能,使用多个专门裁判、辩论和共识机制来评估已完成的工作。它可用于 Code Review 中的 critique,以及在合并前检查正确性、质量和遗漏问题。将 critique 安装到 NeoLabHQ context-engineering-kit 中,并结合文件路径、提交记录或上下文使用。

代码评审
收藏 0GitHub 0
Evaluation