模型評測

瀏覽 安全 下與 模型評測 相關的 Agent Skill,並比較相近工作流、工具與使用情境。

16 個技能
A
healthcare-eval-harness

作者 affaan-m

healthcare-eval-harness 是一個用於醫療應用部署的病人安全評估 harness。它能協助團隊在發布前驗證 CDSS 準確性、PHI 暴露、資料完整性、臨床工作流程行為,以及整合合規性。重大失敗會阻擋部署,因此它很適合用於 healthcare-eval-harness 的 Model Evaluation 與 CI 安全閘門。

模型評測
收藏 0GitHub 156.2k
A
eval-harness

作者 affaan-m

eval-harness 技能是一套正式的評估框架,適用於 Claude Code 工作階段與 eval-driven development。它能幫助你定義通過/失敗標準、建立能力與回歸評測,並在正式推出提示詞或工作流程變更前,衡量 agent 的可靠性。

模型評測
收藏 0GitHub 156.1k
A
agent-eval

作者 affaan-m

agent-eval 是一款用來讓程式代理在可重現任務上進行正面比較的 skill,可比對通過率、成本、耗時與一致性。若你想在自己的 repo 中評估 Claude Code、Aider、Codex 或其他代理,agent-eval skill 能提供比臨時下提示更清楚、更有依據的評估結果。

模型評測
收藏 0GitHub 156k
W
evaluation-methodology

作者 wshobson

evaluation-methodology 技能說明 Model Evaluation 中的 PluginEval 評分方法,涵蓋評估層級、評分規準、綜合計分、徽章門檻,以及如何解讀結果並改善較弱面向的實務建議。

模型評測
收藏 0GitHub 32.6k
W
llm-evaluation

作者 wshobson

使用 llm-evaluation skill,為 LLM 應用、提示詞、RAG 系統與模型變更設計可重複執行的評估方案,涵蓋指標、人工作業審查、基準測試與回歸檢查。

模型評測
收藏 0GitHub 32.6k
G
ai-prompt-engineering-safety-review

作者 github

ai-prompt-engineering-safety-review 是一項提示詞稽核技能,可在正式上線、評估或面向客戶使用前,檢查 LLM 提示詞的安全性、偏誤、資安弱點與輸出品質。

模型評測
收藏 0GitHub 27.8k
G
agentic-eval

作者 github

agentic-eval 是一個 GitHub Copilot skill,示範如何運用反思、依 rubric 進行評論,以及 evaluator-optimizer 模式,為 AI 輸出建立評估迴圈。

模型評測
收藏 0GitHub 27.8k
G
gws-modelarmor

作者 googleworkspace

gws-modelarmor 可協助你在 googleworkspace/cli 生態系中使用 Google Model Armor。可用來清理 prompts、清理模型回應,並建立比通用 prompt 更少猜測的 templates。它適合重複執行、符合政策意識的使用情境,以及 Security Audit 工作流程。

安全稽核
收藏 0GitHub 25.5k
H
huggingface-community-evals

作者 huggingface

huggingface-community-evals 可協助你在本機使用 inspect-ai 或 lighteval 執行 Hugging Face Hub 模型評測。適合用於後端選擇、冒煙測試,以及了解 vLLM、Transformers 或 accelerate 的實作指南。不適用於 HF Jobs 協調、model-card PR、.eval_results 發佈,或 community-evals 自動化。

模型評測
收藏 0GitHub 10.4k
H
huggingface-best

作者 huggingface

huggingface-best 技能可透過檢查 Hugging Face 基準排行榜,並依裝置限制與模型大小篩選,幫你找到某項任務的最佳模型。當你需要的是實用的候選清單,而不是泛用模型列表時,它很適合用在程式撰寫、推理、聊天、OCR、RAG、語音、視覺或多模態工作上的模型推薦。

模型評測
收藏 0GitHub 10.4k
M
analyzing-campaign-attribution-evidence

作者 mukul975

analyzing-campaign-attribution-evidence 協助分析人員綜合評估基礎架構重疊、ATT&CK 一致性、惡意程式相似度、時間線與語言特徵,進而做出有理有據的活動歸因。可用這份 analyzing-campaign-attribution-evidence 指南來支援 CTI、事件分析與 Security Audit 審查。

安全稽核
收藏 0GitHub 6.1k
T
libafl

作者 trailofbits

libafl 技能可協助你用 LibAFL 規劃並打造模組化 fuzzing 工具,適用於自訂目標、突變策略與資安稽核流程。使用這份 libafl 指南,你可以從目標細節出發,建立實用的 harness、回饋模型與執行規劃,減少先入為主的假設。

安全稽核
收藏 0GitHub 5k
N
judge-with-debate

作者 NeoLabHQ

judge-with-debate 透過結構化的多代理辯論來評估解決方案,使用共享規格、以證據為基礎的反駁,以及最多 3 輪討論來達成共識。它很適合用於程式碼審查、依評分規準的評估,以及 Multi-Agent Systems 工作流程中的 judge-with-debate。

多 Agent 系统
收藏 0GitHub 982
M
evaluation

作者 muratcankoylan

evaluation 技能可協助你為非決定性系統設計並執行 agent 評估。可用於評估安裝規劃、評分規準、回歸檢查、品質把關,以及 Skill Testing 的評估工作。它適合 LLM-as-judge 工作流程、多維度評分,以及需要可重複結果時的實務評估使用。

Skill 测试
收藏 0GitHub 0
M
detecting-ai-model-prompt-injection-attacks

作者 mukul975

detecting-ai-model-prompt-injection-attacks 是一項資安技能,用於在未受信任的文字送入 LLM 之前先行篩檢。它結合多層正則表達式、啟發式評分與基於 DeBERTa 的分類,來標記直接與間接的 prompt injection attacks。適合用於聊天機器人輸入驗證、文件匯入,以及 Threat Modeling。

威胁建模
收藏 0GitHub 0
W
ml-pipeline-workflow

作者 wshobson

ml-pipeline-workflow 是一份實用指南,聚焦如何設計涵蓋資料準備、訓練、驗證、部署與監控的端到端 MLOps pipeline,並提供可重複執行的工作流程自動化編排模式。

工作流自動化
收藏 0GitHub 0
模型評測 Agent Skill