eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Étoiles156.1k

Favoris0

Commentaires0

Ajouté15 avr. 2026

CatégorieModel Evaluation

Commande d’installation

npx skills add affaan-m/everything-claude-code --skill eval-harness

Score éditorial

Ce skill obtient 78/100, ce qui en fait un bon candidat pour le répertoire, avec une vraie valeur opérationnelle pour les agents qui pratiquent le développement guidé par l’évaluation. Les utilisateurs devraient pouvoir le déclencher et comprendre rapidement son objectif, tout en s’attendant à un skill surtout fondé sur de la documentation plutôt que sur des scripts d’aide ou des références intégrées.

78/100

Points forts

Cas d’usage d’activation clairs pour la mise en place d’EDD, les critères réussite/échec, les évaluations de régression et le benchmark
Contenu opérationnel riche avec des modèles structurés d’évaluation et de notation, plus plusieurs sections de workflow
Déclenchement facile grâce au frontmatter et à la consigne explicite 'When to Activate', ce qui facilite l’évaluation de l’intention d’installation

Points de vigilance

Aucune commande d’installation, aucun script ni fichier de support, donc l’adoption dépend d’une lecture attentive et d’une application manuelle des consignes en markdown
Aucune ressource, référence ou suite de tests intégrée, ce qui limite les signaux de confiance pour les utilisateurs qui veulent un framework d’évaluation prêt à l’emploi

Claude Code Evaluation Testing Regression Testing Pr Github Code

Vue d’ensemble

Aperçu du skill `eval-harness`

Ce que fait `eval-harness`

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par les évaluations. Il vous aide à définir ce à quoi ressemble un résultat « bon » avant de livrer, puis à mesurer si un agent, un prompt ou un workflow atteint réellement ce niveau.

À qui il s’adresse

Utilisez le skill eval-harness si vous avez besoin de vérifications répétables pour du codage assisté par IA, des changements de prompt ou le comportement d’un agent. Il est particulièrement utile pour les équipes qui comparent des versions de modèles, suivent des régressions ou transforment des attentes de tâche floues en critères de réussite/échec.

Pourquoi c’est important

La principale valeur de eval-harness for Model Evaluation tient à la fiabilité : au lieu de juger les résultats « au ressenti », vous rédigez des evals qui révèlent quand le comportement change. Cela facilite le débogage des performances de l’agent, la comparaison des exécutions et évite de livrer des mises à jour de prompt qui dégradent silencieusement la qualité.

Quand c’est un bon choix

C’est surtout adapté quand la tâche peut s’exprimer sous forme de critères de succès observables, de structure de sortie ou de comportement à valider à des étapes précises. C’est moins utile pour un travail créatif très ouvert, sauf si vous pouvez malgré tout définir des conditions d’acceptation mesurables.

Comment utiliser le skill `eval-harness`

Installer et activer

Pour eval-harness install, utilisez le flux d’installation du skill fourni par le repo dans votre environnement Claude Code, puis ouvrez directement le fichier du skill. Le skill se trouve dans skills/eval-harness/SKILL.md, et c’est le premier fichier à lire, car il définit quand activer le framework et comment structurer les evals.

Construire un prompt que le skill peut évaluer

Pour tirer le meilleur parti de eval-harness usage, ne partez pas de « teste mon agent ». Commencez par une cible concrète : quelle tâche l’agent doit accomplir, ce qui compte comme une réussite, à quoi ressemble un échec et si vous vérifiez une capacité ou une régression. Un meilleur point de départ ressemble à ceci : « Évalue si l’agent peut mettre à jour un formulaire React sans casser la validation, et impose trois critères de réussite explicites. » Cela donne au harness quelque chose de mesurable.

Lire d’abord les bons fichiers

Si vous adoptez l’approche eval-harness guide dans votre propre workflow, lisez d’abord SKILL.md, puis inspectez les notes du repository qui décrivent le style d’évaluation, la logique de notation ou les conventions de sortie. Dans ce repo, il n’y a ni scripts d’aide ni dossiers de support supplémentaires ; le fichier du skill fait donc autorité.

L’intégrer dans un workflow concret

Un bon workflow consiste à : définir le comportement, écrire un eval pour le cas nominal, ajouter un eval de régression pour un échec connu, puis exécuter le harness et affiner les critères. Cela permet de garder des evals assez petites pour être déboguées et réduit le risque d’écrire des tests trop larges pour être interprétés.

FAQ sur le skill `eval-harness`

`eval-harness` est-il réservé à Claude Code ?

Non. Le skill est conçu autour des sessions Claude Code, mais la méthode sous-jacente est utile partout où vous avez besoin d’une évaluation structurée d’agent. Si votre stack utilise d’autres outils, vous pouvez quand même adapter le format des evals et la logique de notation.

`eval-harness` est-il la même chose qu’un prompt classique ?

Non. Un prompt classique demande une réponse ; eval-harness demande une manière répétable d’évaluer des réponses. Cette distinction est essentielle quand vous avez besoin de cohérence entre plusieurs versions, pas seulement d’une bonne réponse isolée.

Est-ce adapté aux débutants ?

Oui, si vous savez décrire une tâche clairement. La difficulté ne vient pas tant de la syntaxe que de la rédaction de bons critères de réussite. Les débutants s’en sortent généralement bien s’ils commencent par une seule eval de capacité simple plutôt que d’essayer de modéliser tout un workflow d’un coup.

Quand ne faut-il pas l’utiliser ?

Évitez eval-harness si le travail est très subjectif, si la sortie ne peut pas être vérifiée de façon constante ou si vous avez simplement besoin d’une réponse ponctuelle. Il est particulièrement efficace quand la fiabilité, le suivi des régressions ou la comparaison de modèles est le véritable objectif.

Comment améliorer le skill `eval-harness`

Rendre les critères observables

Le plus gros gain de qualité vient du passage des avis aux vérifications. Remplacez « rends-le meilleur » par des conditions comme « conserver la forme existante de l’API », « renvoyer du JSON valide » ou « passer les trois cas de régression ». Plus les critères sont observables, plus eval-harness devient simple à exécuter et à faire confiance.

Séparer la capacité de la régression

Si vous mélangez les vérifications de nouvelle fonctionnalité et celles du comportement existant, les échecs deviennent difficiles à interpréter. Gardez les evals de capacité centrées sur la question de savoir si Claude peut faire quelque chose de nouveau, et les evals de régression centrées sur la confirmation qu’une base connue tient toujours.

Donner au harness de vrais cas limites

Les evals les plus solides incluent des modes d’échec, pas seulement des cas nominaux. Ajoutez des entrées piégeuses, du contexte incomplet ou des instructions ambiguës pour que le skill eval-harness puisse révéler si l’agent est réellement robuste ou simplement chanceux sur des exemples propres.

Itérer après le premier passage

Considérez le premier passage comme un calibrage, pas comme une preuve. Si le résultat n’est pas clair, resserrez les critères de réussite, ajoutez une base de référence ou découpez un eval trop large en vérifications plus petites. C’est généralement la façon la plus rapide d’améliorer eval-harness usage et d’obtenir des résultats exploitables.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

evaluation-methodology

par wshobson

La compétence evaluation-methodology explique le scoring PluginEval pour Model Evaluation, avec les couches d’évaluation, les rubrics, le score composite, les seuils de badges et des conseils pratiques pour interpréter les résultats et améliorer les dimensions faibles.

Model Evaluation

Favoris 0GitHub 32.6k

healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Model Evaluation

Favoris 0GitHub 156.2k

agent-eval

par affaan-m

agent-eval est une skill conçue pour benchmarker des agents de code en face à face sur des tâches reproductibles, en comparant le taux de réussite, le coût, le temps et la régularité. Utilisez la skill agent-eval pour évaluer Claude Code, Aider, Codex ou un autre agent dans votre propre dépôt, avec des éléments plus probants que de simples prompts ad hoc.

Model Evaluation

Favoris 0GitHub 156k

huggingface-community-evals

par huggingface

huggingface-community-evals vous aide à lancer स्थानीयement des évaluations de modèles du Hugging Face Hub avec inspect-ai ou lighteval. Servez-vous-en pour choisir le backend, effectuer des tests de fumée et disposer d’un guide pratique pour vLLM, Transformers ou accelerate. Ne convient pas à l’orchestration HF Jobs, aux PR de model-card, à la publication de .eval_results ni à l’automatisation de community-evals.

Model Evaluation

Favoris 0GitHub 10.4k

huggingface-best

par huggingface

La skill huggingface-best vous aide à trouver le meilleur modèle pour une tâche en consultant les classements de benchmarks de Hugging Face et en filtrant selon les limites de l’appareil et la taille du modèle. Utilisez-la pour obtenir des recommandations de modèles en codage, raisonnement, chat, OCR, RAG, voix, vision ou multimodalité lorsque vous avez besoin d’une short-list pratique, pas d’une liste générique de modèles.

Model Evaluation

Favoris 0GitHub 10.4k

libafl

par trailofbits

Le skill libafl vous aide à concevoir et à construire des fuzzers modulaires avec LibAFL pour des cibles personnalisées, des stratégies de mutation sur mesure et des workflows d’audit de sécurité. Utilisez ce guide libafl pour passer des détails de la cible à un harness pratique, à un modèle de feedback et à un plan d’exécution, avec moins d’hypothèses.

Security Audit

Favoris 0GitHub 5k

evaluation

par muratcankoylan

Le skill d’évaluation vous aide à concevoir et à exécuter des évaluations d’agents pour des systèmes non déterministes. Utilisez-le pour planifier l’installation des évaluations, définir des grilles de notation, effectuer des contrôles de régression, mettre en place des garde-fous qualité et réaliser des évaluations pour le test de skills. Il convient aux workflows LLM-as-judge, au scoring multidimensionnel et aux usages d’évaluation concrets lorsque vous avez besoin de résultats reproductibles.

Skill Testing

Favoris 0GitHub 0

judge-with-debate

par NeoLabHQ

judge-with-debate évalue des solutions au moyen d’un débat multi-agent structuré, en s’appuyant sur une spécification partagée, des contre-arguments fondés sur des preuves et jusqu’à 3 rounds pour parvenir à un consensus. Elle convient particulièrement à la revue de code, à l’évaluation basée sur une grille, et aux workflows judge-with-debate pour les systèmes multi-agents.

Multi-Agent Systems

Favoris 0GitHub 982

gws-modelarmor

par googleworkspace

gws-modelarmor vous aide à travailler avec Google Model Armor dans l’écosystème googleworkspace/cli. Utilisez-le pour assainir les prompts, assainir les réponses de modèle et créer des modèles avec moins d’approximations qu’un prompt générique. Il est conçu pour un usage répétable, conforme aux politiques, et pour les workflows de Security Audit.

Security Audit

Favoris 0GitHub 25.5k

analyzing-campaign-attribution-evidence

par mukul975

analyzing-campaign-attribution-evidence aide les analystes à évaluer le chevauchement d’infrastructure, la cohérence avec ATT&CK, la similarité des malwares, la chronologie et les indices linguistiques afin d’étayer une attribution de campagne défendable. Utilisez ce guide analyzing-campaign-attribution-evidence pour les revues CTI, l’analyse d’incidents et les audits de sécurité.

Security Audit

Favoris 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

par mukul975

detecting-ai-model-prompt-injection-attacks est une skill de cybersécurité destinée à filtrer les textes non fiables avant qu’ils n’atteignent un LLM. Elle combine des regex en couches, un scoring heuristique et une classification basée sur DeBERTa pour repérer les attaques de prompt injection directes et indirectes. Utile pour la validation des entrées de chatbot, l’ingestion de documents et la modélisation des menaces.

Threat Modeling

Favoris 0GitHub 0

llm-evaluation

par wshobson

Utilisez le skill llm-evaluation pour concevoir des plans d’évaluation reproductibles pour les applications LLM, les prompts, les systèmes RAG et les changements de modèle, avec des métriques, de la revue humaine, du benchmarking et des vérifications de régression.

Model Evaluation

Favoris 0GitHub 32.6k

ai-prompt-engineering-safety-review

par github

ai-prompt-engineering-safety-review est une skill d’audit de prompts conçue pour examiner les prompts de LLM sous l’angle de la sécurité, des biais, des faiblesses de sécurité et de la qualité des résultats avant une mise en production, une évaluation ou un usage en contact avec des clients.

Model Evaluation

Favoris 0GitHub 27.8k

agentic-eval

par github

agentic-eval est une compétence GitHub Copilot qui montre comment créer des boucles d’évaluation des sorties d’IA à l’aide de la réflexion, de critiques fondées sur des rubriques et de schémas evaluator-optimizer.

Model Evaluation

Favoris 0GitHub 27.8k

ml-pipeline-workflow

par wshobson

ml-pipeline-workflow est un guide pratique pour concevoir des pipelines MLOps de bout en bout couvrant la préparation des données, l'entraînement, la validation, le déploiement et le monitoring, avec des modèles d'orchestration pour automatiser des workflows reproductibles.

Workflow Automation

Favoris 0GitHub 0

frontend-design

par anthropics

frontend-design transforme des idées d’interface floues en UIs distinctives, prêtes pour la prod, avec du vrai code frontend, une direction esthétique claire et moins de style IA générique.

UI Design

Favoris 1GitHub 105.2k

eval-harness

Aperçu du skill eval-harness

Ce que fait eval-harness

À qui il s’adresse

Pourquoi c’est important

Quand c’est un bon choix

Comment utiliser le skill eval-harness

Installer et activer

Construire un prompt que le skill peut évaluer

Lire d’abord les bons fichiers

L’intégrer dans un workflow concret

FAQ sur le skill eval-harness

eval-harness est-il réservé à Claude Code ?

eval-harness est-il la même chose qu’un prompt classique ?

Est-ce adapté aux débutants ?

Quand ne faut-il pas l’utiliser ?

Comment améliorer le skill eval-harness

Rendre les critères observables

Séparer la capacité de la régression

Donner au harness de vrais cas limites

Itérer après le premier passage

Notes et avis

Aperçu du skill `eval-harness`

Ce que fait `eval-harness`

Comment utiliser le skill `eval-harness`

FAQ sur le skill `eval-harness`

`eval-harness` est-il réservé à Claude Code ?

`eval-harness` est-il la même chose qu’un prompt classique ?

Comment améliorer le skill `eval-harness`