作者 affaan-m
healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。
作者 affaan-m
healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。
作者 affaan-m
eval-harness 技能是一套正式的評估框架,適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過/失敗標準、建立能力與回歸評測,並在正式推出提示詞或工作流程變更前,衡量 agent 的可靠性。
作者 affaan-m
agent-eval 是一款用來讓程式代理在可重現任務上進行正面比較的 skill,可比對通過率、成本、耗時與一致性。若你想在自己的 repo 中評估 Claude Code、Aider、Codex 或其他代理,agent-eval skill 能提供比臨時下提示更清楚、更有依據的評估結果。
作者 wshobson
evaluation-methodology 技能說明 Model Evaluation 中的 PluginEval 評分方法,涵蓋評估層級、評分規準、綜合計分、徽章門檻,以及如何解讀結果並改善較弱面向的實務建議。
作者 wshobson
使用 llm-evaluation skill,為 LLM 應用、提示詞、RAG 系統與模型變更設計可重複執行的評估方案,涵蓋指標、人工作業審查、基準測試與回歸檢查。
作者 github
ai-prompt-engineering-safety-review 是一項提示詞稽核技能,可在正式上線、評估或面向客戶使用前,檢查 LLM 提示詞的安全性、偏誤、資安弱點與輸出品質。
作者 github
agentic-eval 是一個 GitHub Copilot skill,示範如何運用反思、依 rubric 進行評論,以及 evaluator-optimizer 模式,為 AI 輸出建立評估迴圈。
作者 googleworkspace
gws-modelarmor 可協助你在 googleworkspace/cli 生態系中使用 Google Model Armor。可用來清理 prompts、清理模型回應,並建立比通用 prompt 更少猜測的 templates。它適合重複執行、符合政策意識的使用情境,以及 Security Audit 工作流程。
作者 huggingface
huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試,以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈,或 community-evals 自動化。
作者 huggingface
huggingface-best 技能可透過檢查 Hugging Face 基準排行榜,並依裝置限制與模型大小篩選,幫你找到某項任務的最佳模型。當你需要的是實用的候選清單,而不是泛用模型列表時,它很適合用在程式撰寫、推理、聊天、OCR、RAG、語音、視覺或多模態工作上的模型推薦。
作者 mukul975
analyzing-campaign-attribution-evidence 協助分析人員綜合評估基礎架構重疊、ATT&CK 一致性、惡意程式相似度、時間線與語言特徵,進而做出有理有據的活動歸因。可用這份 analyzing-campaign-attribution-evidence 指南來支援 CTI、事件分析與 Security Audit 審查。
作者 trailofbits
libafl 技能可協助你用 LibAFL 規劃並打造模組化 fuzzing 工具,適用於自訂目標、突變策略與資安稽核流程。使用這份 libafl 指南,你可以從目標細節出發,建立實用的 harness、回饋模型與執行規劃,減少先入為主的假設。
作者 NeoLabHQ
judge-with-debate 透過結構化的多代理辯論來評估解決方案,使用共享規格、以證據為基礎的反駁,以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估,以及 Multi-Agent Systems 工作流程中的 judge-with-debate。
作者 muratcankoylan
evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關,以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分,以及需要可重複結果時的實務評估使用。
作者 mukul975
detecting-ai-model-prompt-injection-attacks 是一項資安技能,用於在未受信任的文字送入 LLM 之前先行篩檢。它結合多層正則表達式、啟發式評分與基於 DeBERTa 的分類,來標記直接與間接的 prompt injection attacks。適合用於聊天機器人輸入驗證、文件匯入,以及 Threat Modeling。
作者 wshobson
ml-pipeline-workflow 是一份實用指南,聚焦如何設計涵蓋資料準備、訓練、驗證、部署與監控的端到端 MLOps pipeline,並提供可重複執行的工作流程自動化編排模式。