Evaluation

Evaluation taxonomy generated by the site skill importer.

19 skills

healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Model Evaluation

Favoris 0GitHub 156.2k

eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Model Evaluation

Favoris 0GitHub 156.1k

continuous-agent-loop

par affaan-m

continuous-agent-loop aide les agents à exécuter des boucles autonomes répétables avec des garde-fous qualité, des évaluations, des étapes de reprise et des règles d’arrêt claires pour mener les tâches à bien de façon fiable.

Agent Orchestration

Favoris 0GitHub 156.1k

self-eval

par alirezarezvani

self-eval est un skill Claude Code prompt-only conçu pour une revue honnête du travail une fois la tâche terminée. Il s’appuie sur une notation à deux axes, un raisonnement en avocat du diable, la persistance des scores et des contrôles anti-inflation pour évaluer la qualité du travail de l’IA après des tâches, des revues de code ou des sessions de travail.

Model Evaluation

Favoris 0GitHub 22.2k

prompt-governance

par alirezarezvani

prompt-governance est un skill Claude pour gérer les prompts de production comme des actifs versionnés, relus et testés. Il aide à structurer des registres de prompts, des tests de régression, des expérimentations A/B, des pipelines d’eval, des validations de release et des workflows de rollback pour les fonctionnalités d’IA.

Prompt Governance

Favoris 0GitHub 22.2k

run

par alirezarezvani

run est un skill d’orchestration AgentHub pour Claude qui déclenche /hub:run afin d’initialiser une tâche, lancer des agents, évaluer les résultats et fusionner le gagnant. Utilisez-le pour des améliorations de code mesurables ou des comparaisons créatives arbitrées, avec des paramètres clairs pour la tâche, les agents, l’évaluation, la métrique, l’orientation et le modèle.

Agent Orchestration

Favoris 0GitHub 22.1k

eval

par alirezarezvani

eval classe les résultats d’agents AgentHub terminés selon des métriques configurées, un examen par LLM judge ou une approche hybride. Utilisez-le avec /hub:eval pour comparer des branches de session, des diffs et des publications de résultats avant de choisir un gagnant.

Model Evaluation

Favoris 0GitHub 22.1k

context-degradation

par muratcankoylan

context-degradation est un skill pratique pour diagnostiquer les défaillances de contexte dans les workflows longs, notamment les cas de lost-in-the-middle, de poisoning, de distraction, de confusion et de clash. Utilisez-le pour repérer où le contexte se rompt, décider quoi corriger en premier et appliquer un guide reproductible de dégradation du contexte pour le Skill Authoring, le placement des prompts et le débogage d’agents en production.

Skill Authoring

Favoris 0GitHub 15.6k

huggingface-community-evals

par huggingface

huggingface-community-evals vous aide à lancer स्थानीयement des évaluations de modèles du Hugging Face Hub avec inspect-ai ou lighteval. Servez-vous-en pour choisir le backend, effectuer des tests de fumée et disposer d’un guide pratique pour vLLM, Transformers ou accelerate. Ne convient pas à l’orchestration HF Jobs, aux PR de model-card, à la publication de .eval_results ni à l’automatisation de community-evals.

Model Evaluation

Favoris 0GitHub 10.4k

azure-ai-projects-py

par microsoft

azure-ai-projects-py est le skill du SDK Python Azure AI Projects pour les clients de projets Microsoft Foundry. Utilisez-le pour l’installation, l’authentification, la configuration du client, les agents versionnés avec PromptAgentDefinition, les évaluations, les connexions, les déploiements, les jeux de données, les index et l’accès compatible OpenAI. Idéal pour les workflows backend en Python.

Backend Development

Favoris 0GitHub 2.2k

skill-optimizer

par mcollina

skill-optimizer aide les auteurs à améliorer des skills IA en matière d’activation, de clarté et de fiabilité entre modèles. Utilisez-le pour la Skill Authoring lorsqu’un skill est rédigé mais pas suivi de façon fiable, lorsque les déclencheurs sont faibles, que des régressions apparaissent ou qu’il faut réduire le coût en contexte. Il prend en charge les boucles de benchmark, les garde-fous de release et un meilleur respect d’usage.

Skill Authoring

Favoris 0GitHub 1.8k

tree-of-thoughts

par NeoLabHQ

tree-of-thoughts est une skill de workflow de raisonnement qui aide les agents à explorer plusieurs approches, à élaguer les branches faibles et à synthétiser une meilleure réponse. Elle est utile pour le débogage complexe, la planification, les arbitrages d’architecture et tree-of-thoughts pour l’orchestration d’agents.

Agent Orchestration

Favoris 0GitHub 982

judge

par NeoLabHQ

Judge est un skill d’évaluation en deux phases qui lance d’abord un méta-judge, puis un sous-agent judge pour noter un travail avec un contexte isolé, des preuves et des critères clairs. Utilisez-le pour des revues en mode rapport uniquement sur du code, des textes, des analyses ou du Skill Authoring lorsque vous avez besoin d’un guide de jugement défendable plutôt que d’un simple avis informel.

Skill Authoring

Favoris 0GitHub 982

judge-with-debate

par NeoLabHQ

judge-with-debate évalue des solutions au moyen d’un débat multi-agent structuré, en s’appuyant sur une spécification partagée, des contre-arguments fondés sur des preuves et jusqu’à 3 rounds pour parvenir à un consensus. Elle convient particulièrement à la revue de code, à l’évaluation basée sur une grille, et aux workflows judge-with-debate pour les systèmes multi-agents.

Multi-Agent Systems

Favoris 0GitHub 982

do-and-judge

par NeoLabHQ

La compétence do-and-judge exécute une tâche unique avec une étape d’implémentation par sous-agent, un juge indépendant et une vérification par itérations jusqu’à validation ou atteinte du nombre maximal de tentatives. Utilisez do-and-judge pour l’automatisation des workflows lorsque vous avez besoin de critères d’acceptation clairs, d’une exécution isolée et de moins d’incertitude qu’avec un prompt générique.

Workflow Automation

Favoris 0GitHub 982

do-competitively

par NeoLabHQ

do-competitively vous aide à résoudre des tâches importantes grâce à la génération parallèle de candidats, à l’évaluation fondée sur une grille de critères et à une synthèse appuyée sur des preuves. Il est particulièrement adapté à Workflow Automation et aux demandes à forts enjeux, où la qualité, la robustesse et la gestion des compromis comptent davantage que la vitesse.

Workflow Automation

Favoris 0GitHub 982

scholar-evaluation

par K-Dense-AI

scholar-evaluation aide à évaluer des travaux scientifiques et de recherche à l’aide d’une grille de notation structurée couvrant la formulation du problème, la méthodologie, l’analyse, la rédaction et l’état de préparation à la publication. Utilisez-le pour la relecture académique, la planification des révisions et un retour cohérent sur des articles, propositions, revues de littérature et autres brouillons universitaires.

Academic Research

Favoris 0GitHub 0

evaluation

par muratcankoylan

Le skill d’évaluation vous aide à concevoir et à exécuter des évaluations d’agents pour des systèmes non déterministes. Utilisez-le pour planifier l’installation des évaluations, définir des grilles de notation, effectuer des contrôles de régression, mettre en place des garde-fous qualité et réaliser des évaluations pour le test de skills. Il convient aux workflows LLM-as-judge, au scoring multidimensionnel et aux usages d’évaluation concrets lorsque vous avez besoin de résultats reproductibles.

Skill Testing

Favoris 0GitHub 0

critique

par NeoLabHQ

critique est une skill de revue en mode rapport uniquement qui s’appuie sur plusieurs juges spécialisés, le débat et le consensus pour évaluer un travail terminé. Elle aide à faire la critique du Code Review, à vérifier l’exactitude, la qualité et les problèmes manqués avant la fusion. Installez critique dans le contexte NeoLabHQ context-engineering-kit et utilisez-la avec des chemins de fichiers, des commits ou du contexte.

Code Review

Favoris 0GitHub 0