Evaluation

Evaluation taxonomy generated by the site skill importer.

15 skills
A
healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Model Evaluation
Favoris 0GitHub 156.2k
A
eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Model Evaluation
Favoris 0GitHub 156.1k
A
continuous-agent-loop

par affaan-m

continuous-agent-loop aide les agents à exécuter des boucles autonomes répétables avec des garde-fous qualité, des évaluations, des étapes de reprise et des règles d’arrêt claires pour mener les tâches à bien de façon fiable.

Agent Orchestration
Favoris 0GitHub 156.1k
M
context-degradation

par muratcankoylan

context-degradation est un skill pratique pour diagnostiquer les défaillances de contexte dans les workflows longs, notamment les cas de lost-in-the-middle, de poisoning, de distraction, de confusion et de clash. Utilisez-le pour repérer où le contexte se rompt, décider quoi corriger en premier et appliquer un guide reproductible de dégradation du contexte pour le Skill Authoring, le placement des prompts et le débogage d’agents en production.

Skill Authoring
Favoris 0GitHub 15.6k
H
huggingface-community-evals

par huggingface

huggingface-community-evals vous aide à lancer स्थानीयement des évaluations de modèles du Hugging Face Hub avec inspect-ai ou lighteval. Servez-vous-en pour choisir le backend, effectuer des tests de fumée et disposer d’un guide pratique pour vLLM, Transformers ou accelerate. Ne convient pas à l’orchestration HF Jobs, aux PR de model-card, à la publication de .eval_results ni à l’automatisation de community-evals.

Model Evaluation
Favoris 0GitHub 10.4k
M
azure-ai-projects-py

par microsoft

azure-ai-projects-py est le skill du SDK Python Azure AI Projects pour les clients de projets Microsoft Foundry. Utilisez-le pour l’installation, l’authentification, la configuration du client, les agents versionnés avec PromptAgentDefinition, les évaluations, les connexions, les déploiements, les jeux de données, les index et l’accès compatible OpenAI. Idéal pour les workflows backend en Python.

Backend Development
Favoris 0GitHub 2.2k
M
skill-optimizer

par mcollina

skill-optimizer aide les auteurs à améliorer des skills IA en matière d’activation, de clarté et de fiabilité entre modèles. Utilisez-le pour la Skill Authoring lorsqu’un skill est rédigé mais pas suivi de façon fiable, lorsque les déclencheurs sont faibles, que des régressions apparaissent ou qu’il faut réduire le coût en contexte. Il prend en charge les boucles de benchmark, les garde-fous de release et un meilleur respect d’usage.

Skill Authoring
Favoris 0GitHub 1.8k
N
tree-of-thoughts

par NeoLabHQ

tree-of-thoughts est une skill de workflow de raisonnement qui aide les agents à explorer plusieurs approches, à élaguer les branches faibles et à synthétiser une meilleure réponse. Elle est utile pour le débogage complexe, la planification, les arbitrages d’architecture et tree-of-thoughts pour l’orchestration d’agents.

Agent Orchestration
Favoris 0GitHub 982
N
judge

par NeoLabHQ

Judge est un skill d’évaluation en deux phases qui lance d’abord un méta-judge, puis un sous-agent judge pour noter un travail avec un contexte isolé, des preuves et des critères clairs. Utilisez-le pour des revues en mode rapport uniquement sur du code, des textes, des analyses ou du Skill Authoring lorsque vous avez besoin d’un guide de jugement défendable plutôt que d’un simple avis informel.

Skill Authoring
Favoris 0GitHub 982
N
judge-with-debate

par NeoLabHQ

judge-with-debate évalue des solutions au moyen d’un débat multi-agent structuré, en s’appuyant sur une spécification partagée, des contre-arguments fondés sur des preuves et jusqu’à 3 rounds pour parvenir à un consensus. Elle convient particulièrement à la revue de code, à l’évaluation basée sur une grille, et aux workflows judge-with-debate pour les systèmes multi-agents.

Multi-Agent Systems
Favoris 0GitHub 982
N
do-and-judge

par NeoLabHQ

La compétence do-and-judge exécute une tâche unique avec une étape d’implémentation par sous-agent, un juge indépendant et une vérification par itérations jusqu’à validation ou atteinte du nombre maximal de tentatives. Utilisez do-and-judge pour l’automatisation des workflows lorsque vous avez besoin de critères d’acceptation clairs, d’une exécution isolée et de moins d’incertitude qu’avec un prompt générique.

Workflow Automation
Favoris 0GitHub 982
N
do-competitively

par NeoLabHQ

do-competitively vous aide à résoudre des tâches importantes grâce à la génération parallèle de candidats, à l’évaluation fondée sur une grille de critères et à une synthèse appuyée sur des preuves. Il est particulièrement adapté à Workflow Automation et aux demandes à forts enjeux, où la qualité, la robustesse et la gestion des compromis comptent davantage que la vitesse.

Workflow Automation
Favoris 0GitHub 982
K
scholar-evaluation

par K-Dense-AI

scholar-evaluation aide à évaluer des travaux scientifiques et de recherche à l’aide d’une grille de notation structurée couvrant la formulation du problème, la méthodologie, l’analyse, la rédaction et l’état de préparation à la publication. Utilisez-le pour la relecture académique, la planification des révisions et un retour cohérent sur des articles, propositions, revues de littérature et autres brouillons universitaires.

Academic Research
Favoris 0GitHub 0
M
evaluation

par muratcankoylan

Le skill d’évaluation vous aide à concevoir et à exécuter des évaluations d’agents pour des systèmes non déterministes. Utilisez-le pour planifier l’installation des évaluations, définir des grilles de notation, effectuer des contrôles de régression, mettre en place des garde-fous qualité et réaliser des évaluations pour le test de skills. Il convient aux workflows LLM-as-judge, au scoring multidimensionnel et aux usages d’évaluation concrets lorsque vous avez besoin de résultats reproductibles.

Skill Testing
Favoris 0GitHub 0
N
critique

par NeoLabHQ

critique est une skill de revue en mode rapport uniquement qui s’appuie sur plusieurs juges spécialisés, le débat et le consensus pour évaluer un travail terminé. Elle aide à faire la critique du Code Review, à vérifier l’exactitude, la qualité et les problèmes manqués avant la fusion. Installez critique dans le contexte NeoLabHQ context-engineering-kit et utilisez-la avec des chemins de fichiers, des commits ou du contexte.

Code Review
Favoris 0GitHub 0
Evaluation