作者 affaan-m
healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署,因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。
作者 affaan-m
healthcare-eval-harness 是面向医疗应用部署的患者安全评估 harness。它帮助团队在发布前验证 CDSS 准确性、PHI 暴露、数据完整性、临床工作流行为以及集成合规性。严重失败会阻止部署,因此它很适合用于 Model Evaluation 和 CI 安全门禁中的 healthcare-eval-harness。
作者 affaan-m
eval-harness 技能是面向 Claude Code 会话和 eval 驱动开发的正式评估框架。它可以帮助你定义通过/失败标准,构建能力评估和回归评估,并在发布 prompt 或工作流变更前衡量 agent 的可靠性。
作者 affaan-m
agent-eval 是一项用于对编码 agent 进行基准测试的技能,支持在可复现任务上让多个 agent 直接对比,评估通过率、成本、耗时和一致性。你可以用 agent-eval 在自己的 repo 中评估 Claude Code、Aider、Codex 或其他 agent,并获得比临时提问更清晰的证据。
作者 wshobson
evaluation-methodology 技能说明了用于 Model Evaluation 的 PluginEval 评分方法,包括评估层级、评分 rubric、综合评分、徽章阈值,以及如何解读结果并改进薄弱维度的实用建议。
作者 wshobson
使用 llm-evaluation skill,为 LLM 应用、提示词、RAG 系统和模型变更设计可重复执行的评估方案,覆盖指标、人审、基准测试与回归检查。
作者 github
ai-prompt-engineering-safety-review 是一项用于提示词审计的技能,可在生产环境、评估流程或面向客户使用前,审查 LLM 提示词在安全性、偏见、安全弱点和输出质量方面的风险。
作者 github
agentic-eval 是一个 GitHub Copilot skill,展示如何通过反思、基于 rubric 的评审,以及 evaluator-optimizer 模式,为 AI 输出构建评估循环。
作者 googleworkspace
gws-modelarmor 帮助你在 googleworkspace/cli 生态中使用 Google Model Armor。它可用于净化提示词、净化模型响应,并以比通用 prompt 更少的猜测来创建模板。该技能面向可重复、符合策略要求的使用场景,以及 Security Audit 工作流。
作者 huggingface
huggingface-community-evals 可帮助你在本地使用 inspect-ai 或 lighteval 运行 Hugging Face Hub 模型评测。适合做后端选择、冒烟测试,以及了解 vLLM、Transformers 或 accelerate 的实用选型指引。不适用于 HF Jobs 编排、model-card PR、.eval_results 发布或 community-evals 自动化。
作者 huggingface
huggingface-best 技能通过查看 Hugging Face 基准排行榜,并结合设备限制和模型大小进行筛选,帮助你为具体任务找到最合适的模型。适用于编码、推理、聊天、OCR、RAG、语音、视觉或多模态场景下的模型推荐,尤其是在你需要一份实用的候选清单,而不是泛泛的模型列表时。
作者 mukul975
analyzing-campaign-attribution-evidence 帮助分析师综合评估基础设施重叠、ATT&CK 一致性、恶意软件相似性、时间线和语言痕迹,以形成更有依据的 campaign 归因结论。适用于 CTI、事件分析和 Security Audit 复核的 analyzing-campaign-attribution-evidence 指南。
作者 trailofbits
libafl 技能可帮助你使用 LibAFL 为自定义目标、变异策略和安全审计流程规划并构建模块化 fuzzers。借助这份 libafl 指南,你可以更少假设地,从目标细节推进到可落地的 harness、反馈模型和运行计划。
作者 NeoLabHQ
judge-with-debate 通过结构化的多智能体辩论来评估解决方案,使用共享规范、基于证据的反驳,以及最多 3 轮讨论达成共识。它非常适合代码审查、基于评分标准的评估,以及 Multi-Agent Systems 工作流中的 judge-with-debate。
作者 muratcankoylan
evaluation 技能可帮助你为非确定性系统设计并执行 agent 评估。适用于评估安装规划、评分标准、回归检查、质量门禁,以及 Skill Testing 场景下的评估;也适合 LLM-as-judge 工作流、多维度打分,以及需要可重复结果的实际评估使用。
作者 mukul975
detecting-ai-model-prompt-injection-attacks 是一项网络安全技能,用于在未受信文本进入 LLM 之前进行筛查。它结合分层 regex、启发式评分和基于 DeBERTa 的分类,识别直接和间接的 prompt injection 攻击。适用于 chatbot 输入校验、文档摄取和 Threat Modeling。
作者 wshobson
ml-pipeline-workflow 是一份实用指南,帮助你设计覆盖数据准备、训练、验证、部署与监控的端到端 MLOps 流水线,并提供适合构建可重复工作流自动化的编排模式。