Model Evaluation

Explorez les agent skills lies a Model Evaluation dans Securite et comparez les workflows, outils et cas d usage associes.

16 skills
A
healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Model Evaluation
Favoris 0GitHub 156.2k
A
eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Model Evaluation
Favoris 0GitHub 156.1k
A
agent-eval

par affaan-m

agent-eval est une skill conçue pour benchmarker des agents de code en face à face sur des tâches reproductibles, en comparant le taux de réussite, le coût, le temps et la régularité. Utilisez la skill agent-eval pour évaluer Claude Code, Aider, Codex ou un autre agent dans votre propre dépôt, avec des éléments plus probants que de simples prompts ad hoc.

Model Evaluation
Favoris 0GitHub 156k
W
evaluation-methodology

par wshobson

La compétence evaluation-methodology explique le scoring PluginEval pour Model Evaluation, avec les couches d’évaluation, les rubrics, le score composite, les seuils de badges et des conseils pratiques pour interpréter les résultats et améliorer les dimensions faibles.

Model Evaluation
Favoris 0GitHub 32.6k
W
llm-evaluation

par wshobson

Utilisez le skill llm-evaluation pour concevoir des plans d’évaluation reproductibles pour les applications LLM, les prompts, les systèmes RAG et les changements de modèle, avec des métriques, de la revue humaine, du benchmarking et des vérifications de régression.

Model Evaluation
Favoris 0GitHub 32.6k
G
ai-prompt-engineering-safety-review

par github

ai-prompt-engineering-safety-review est une skill d’audit de prompts conçue pour examiner les prompts de LLM sous l’angle de la sécurité, des biais, des faiblesses de sécurité et de la qualité des résultats avant une mise en production, une évaluation ou un usage en contact avec des clients.

Model Evaluation
Favoris 0GitHub 27.8k
G
agentic-eval

par github

agentic-eval est une compétence GitHub Copilot qui montre comment créer des boucles d’évaluation des sorties d’IA à l’aide de la réflexion, de critiques fondées sur des rubriques et de schémas evaluator-optimizer.

Model Evaluation
Favoris 0GitHub 27.8k
G
gws-modelarmor

par googleworkspace

gws-modelarmor vous aide à travailler avec Google Model Armor dans l’écosystème googleworkspace/cli. Utilisez-le pour assainir les prompts, assainir les réponses de modèle et créer des modèles avec moins d’approximations qu’un prompt générique. Il est conçu pour un usage répétable, conforme aux politiques, et pour les workflows de Security Audit.

Security Audit
Favoris 0GitHub 25.5k
H
huggingface-community-evals

par huggingface

huggingface-community-evals vous aide à lancer स्थानीयement des évaluations de modèles du Hugging Face Hub avec inspect-ai ou lighteval. Servez-vous-en pour choisir le backend, effectuer des tests de fumée et disposer d’un guide pratique pour vLLM, Transformers ou accelerate. Ne convient pas à l’orchestration HF Jobs, aux PR de model-card, à la publication de .eval_results ni à l’automatisation de community-evals.

Model Evaluation
Favoris 0GitHub 10.4k
H
huggingface-best

par huggingface

La skill huggingface-best vous aide à trouver le meilleur modèle pour une tâche en consultant les classements de benchmarks de Hugging Face et en filtrant selon les limites de l’appareil et la taille du modèle. Utilisez-la pour obtenir des recommandations de modèles en codage, raisonnement, chat, OCR, RAG, voix, vision ou multimodalité lorsque vous avez besoin d’une short-list pratique, pas d’une liste générique de modèles.

Model Evaluation
Favoris 0GitHub 10.4k
M
analyzing-campaign-attribution-evidence

par mukul975

analyzing-campaign-attribution-evidence aide les analystes à évaluer le chevauchement d’infrastructure, la cohérence avec ATT&CK, la similarité des malwares, la chronologie et les indices linguistiques afin d’étayer une attribution de campagne défendable. Utilisez ce guide analyzing-campaign-attribution-evidence pour les revues CTI, l’analyse d’incidents et les audits de sécurité.

Security Audit
Favoris 0GitHub 6.1k
T
libafl

par trailofbits

Le skill libafl vous aide à concevoir et à construire des fuzzers modulaires avec LibAFL pour des cibles personnalisées, des stratégies de mutation sur mesure et des workflows d’audit de sécurité. Utilisez ce guide libafl pour passer des détails de la cible à un harness pratique, à un modèle de feedback et à un plan d’exécution, avec moins d’hypothèses.

Security Audit
Favoris 0GitHub 5k
N
judge-with-debate

par NeoLabHQ

judge-with-debate évalue des solutions au moyen d’un débat multi-agent structuré, en s’appuyant sur une spécification partagée, des contre-arguments fondés sur des preuves et jusqu’à 3 rounds pour parvenir à un consensus. Elle convient particulièrement à la revue de code, à l’évaluation basée sur une grille, et aux workflows judge-with-debate pour les systèmes multi-agents.

Multi-Agent Systems
Favoris 0GitHub 982
M
evaluation

par muratcankoylan

Le skill d’évaluation vous aide à concevoir et à exécuter des évaluations d’agents pour des systèmes non déterministes. Utilisez-le pour planifier l’installation des évaluations, définir des grilles de notation, effectuer des contrôles de régression, mettre en place des garde-fous qualité et réaliser des évaluations pour le test de skills. Il convient aux workflows LLM-as-judge, au scoring multidimensionnel et aux usages d’évaluation concrets lorsque vous avez besoin de résultats reproductibles.

Skill Testing
Favoris 0GitHub 0
M
detecting-ai-model-prompt-injection-attacks

par mukul975

detecting-ai-model-prompt-injection-attacks est une skill de cybersécurité destinée à filtrer les textes non fiables avant qu’ils n’atteignent un LLM. Elle combine des regex en couches, un scoring heuristique et une classification basée sur DeBERTa pour repérer les attaques de prompt injection directes et indirectes. Utile pour la validation des entrées de chatbot, l’ingestion de documents et la modélisation des menaces.

Threat Modeling
Favoris 0GitHub 0
W
ml-pipeline-workflow

par wshobson

ml-pipeline-workflow est un guide pratique pour concevoir des pipelines MLOps de bout en bout couvrant la préparation des données, l'entraînement, la validation, le déploiement et le monitoring, avec des modèles d'orchestration pour automatiser des workflows reproductibles.

Workflow Automation
Favoris 0GitHub 0
Model Evaluation agent skills