agent-eval

par affaan-m

agent-eval est une skill conçue pour benchmarker des agents de code en face à face sur des tâches reproductibles, en comparant le taux de réussite, le coût, le temps et la régularité. Utilisez la skill agent-eval pour évaluer Claude Code, Aider, Codex ou un autre agent dans votre propre dépôt, avec des éléments plus probants que de simples prompts ad hoc.

Étoiles156k

Favoris0

Commentaires0

Ajouté15 avr. 2026

CatégorieModel Evaluation

Commande d’installation

npx skills add affaan-m/everything-claude-code --skill agent-eval

Score éditorial

Cette skill obtient la note de 78/100, ce qui en fait une fiche solide pour les utilisateurs du répertoire qui recherchent une méthode reproductible pour comparer des agents de code. Le dépôt fournit assez de détails opérationnels pour comprendre quand l’utiliser et comment il fonctionne, même s’il reste préférable de consulter la source avant installation, faute de scripts ou de fichiers de référence.

78/100

Points forts

Cas d’usage d’activation clairement définis pour comparer des agents, effectuer des vérifications de régression et guider les décisions d’adoption de modèles ou d’outils.
Éléments de workflow concrets : définitions de tâches en YAML, vérifications par juge et isolation via git worktree pour des comparaisons reproductibles.
Forte valeur pour la décision d’installation des équipes qui veulent choisir un agent sur la base de données plutôt que de comparaisons ad hoc.

Points de vigilance

Aucune commande d’installation, aucun script ni fichier de support n’est fourni ; l’adoption suppose donc encore de lire le fichier principal de la skill.
Le dépôt semble centré sur un workflow CLI léger unique ; les utilisateurs qui ont besoin d’une infrastructure d’évaluation plus large voudront sans doute davantage d’outillage.

Claude Code Codex Aider Git Cli Testing Workflow

Vue d’ensemble

Présentation de la skill agent-eval

agent-eval est une skill conçue pour évaluer des agents de code en face à face sur une même tâche, puis comparer les résultats selon le taux de réussite, le coût, le temps et la régularité. Si vous cherchez à décider s’il faut adopter Claude Code, Aider, Codex ou un autre agent dans un dépôt réel, la skill agent-eval vous aide à passer des impressions à des preuves reproductibles.

Elle convient surtout aux équipes et aux utilisateurs avancés qui ont besoin d’une comparaison équitable, et non d’un simple test improvisé du type « on lui donne un prompt et on voit ». Le vrai besoin couvert consiste à définir une tâche une seule fois, à exécuter plusieurs agents sur la même base, puis à déterminer lequel est le plus performant selon vos contraintes.

Ce qui rend agent-eval utile

La valeur principale d’agent-eval, c’est la comparaison contrôlée : même dépôt, même tâche, mêmes vérifications de réussite, worktrees séparés. Les résultats sont donc plus fiables que des essais ad hoc ou des prompts ponctuels.

Quand la skill agent-eval est adaptée

Utilisez la skill agent-eval si vous voulez :

comparer des agents avant de standardiser un workflow
vérifier si une mise à jour de modèle a modifié les résultats
tester les performances sur votre propre base de code et vos propres règles
réunir des éléments concrets pour une décision d’équipe ou d’achat

Quand elle peut ne pas convenir

Si vous avez seulement besoin d’une réponse de code unique, un prompt classique sera plus simple. agent-eval prend toute sa valeur lorsque la répétabilité, les critères d’évaluation et les arbitrages entre vitesse, qualité et coût comptent vraiment.

Comment utiliser la skill agent-eval

Installer agent-eval et inspecter la skill

Pour l’installation de agent-eval, ajoutez la skill depuis le dépôt et commencez par lire le fichier principal de la skill :
npx skills add affaan-m/everything-claude-code --skill agent-eval

Ouvrez ensuite SKILL.md ainsi que tout contexte lié que vous utilisez dans votre workflow. Dans ce dépôt, la source principale est le fichier de skill lui-même ; la décision d’installation dépend donc largement du fait que son modèle de tâche corresponde ou non à votre processus d’évaluation.

Transformer un objectif vague en tâche exploitable

L’usage de agent-eval fonctionne beaucoup mieux si vous définissez une tâche concrète, un dépôt cible et des vérifications objectives. Un prompt faible serait : « test which agent is better at refactoring ». Un prompt plus solide serait :

ajouter une logique de retry dans src/http_client.py
épingler le dépôt sur un commit pour garantir la reproductibilité
préciser les fichiers qui peuvent être modifiés
définir des commandes de jugement comme pytest ou grep
indiquer le temps ou le coût maximum acceptable si c’est un critère important

Plus la tâche peut être vérifiée automatiquement, plus la comparaison sera utile.

Workflow recommandé avec agent-eval

Un guide pratique pour agent-eval :

Choisissez une tâche qui reflète une vraie décision à prendre.
Rédigez la tâche en YAML avec le chemin du dépôt, les fichiers, le prompt et les juges.
Exécutez plusieurs agents sur cette même tâche.
Comparez la qualité du résultat, le temps d’exécution et le coût.
Répétez avec une autre tâche avant de faire un choix définitif.

La skill utilise l’isolation via git worktree, ce qui évite que les agents écrasent les modifications les uns des autres et rend l’évaluation côte à côte plus propre.

Fichiers à lire en priorité

Commencez par :

SKILL.md pour le format des tâches et le workflow
tous les fichiers locaux au dépôt qui définissent vos règles de test ou de jugement
les fichiers mentionnés dans votre définition de tâche YAML

Si vous évaluez agent-eval spécifiquement pour la Model Evaluation, vérifiez d’abord que vos tâches et vos juges sont assez stables pour produire des exécutions comparables avant d’investir dans des benchmarks plus larges.

FAQ sur la skill agent-eval

agent-eval sert-il uniquement aux benchmarks d’agents de code ?

Oui, principalement. La skill est conçue pour comparer des agents de code en face à face, pas pour du test de prompts généraliste ni pour du benchmarking LLM au sens large.

Faut-il Docker pour l’utiliser ?

Non. La skill s’appuie sur l’isolation par git worktree, ce qui permet de séparer les exécutions sans la surcharge de conteneurs.

Est-ce adapté aux débutants ?

La prise en main reste accessible si vous savez définir clairement une tâche et exécuter un workflow en ligne de commande. C’est moins adapté aux utilisateurs qui cherchent un évaluateur en un clic, sans configuration.

En quoi est-ce différent d’un prompt classique ?

Un prompt classique demande à un seul agent de résoudre une seule tâche. La skill agent-eval demande à plusieurs agents de résoudre exactement la même tâche avec des juges fixes, afin de comparer les résultats avec moins de biais.

Comment améliorer la skill agent-eval

Utiliser des définitions de tâche plus solides

Les meilleurs résultats avec agent-eval viennent de tâches avec des entrées claires, des limites d’édition explicites et des juges objectifs. Si votre prompt est trop ouvert, la comparaison mesurera surtout des différences d’interprétation plutôt que la qualité réelle des agents.

Ajouter des juges qui reflètent la réussite réelle

Privilégiez des vérifications qui correspondent à la façon dont votre équipe valide réellement les changements : tests, lint, diffs de fichiers ou contrôles de motifs. Si le juge est trop permissif, des solutions faibles peuvent sembler bonnes ; s’il est trop strict, vous risquez de récompenser des hacks fragiles.

Itérer sur le benchmark, pas sur la réponse

Si un agent gagne pour de mauvaises raisons, révisez la tâche avant d’en tirer des conclusions. Resserrez la liste des fichiers, clarifiez les critères d’acceptation et épinglez le commit afin que la skill agent-eval mesure bien la même cible à chaque exécution.

Surveiller les modes d’échec fréquents

Les erreurs les plus courantes sont des prompts vagues, des juges mal alignés et des tâches trop larges pour une comparaison équitable. Pour un meilleur usage de agent-eval, gardez le premier benchmark petit, reproductible et représentatif du travail que vous attendez réellement des agents.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

evaluation-methodology

par wshobson

La compétence evaluation-methodology explique le scoring PluginEval pour Model Evaluation, avec les couches d’évaluation, les rubrics, le score composite, les seuils de badges et des conseils pratiques pour interpréter les résultats et améliorer les dimensions faibles.

Model Evaluation

Favoris 0GitHub 32.6k

healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Model Evaluation

Favoris 0GitHub 156.2k

eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Model Evaluation

Favoris 0GitHub 156.1k

huggingface-community-evals

par huggingface

huggingface-community-evals vous aide à lancer स्थानीयement des évaluations de modèles du Hugging Face Hub avec inspect-ai ou lighteval. Servez-vous-en pour choisir le backend, effectuer des tests de fumée et disposer d’un guide pratique pour vLLM, Transformers ou accelerate. Ne convient pas à l’orchestration HF Jobs, aux PR de model-card, à la publication de .eval_results ni à l’automatisation de community-evals.

Model Evaluation

Favoris 0GitHub 10.4k

huggingface-best

par huggingface

La skill huggingface-best vous aide à trouver le meilleur modèle pour une tâche en consultant les classements de benchmarks de Hugging Face et en filtrant selon les limites de l’appareil et la taille du modèle. Utilisez-la pour obtenir des recommandations de modèles en codage, raisonnement, chat, OCR, RAG, voix, vision ou multimodalité lorsque vous avez besoin d’une short-list pratique, pas d’une liste générique de modèles.

Model Evaluation

Favoris 0GitHub 10.4k

libafl

par trailofbits

Le skill libafl vous aide à concevoir et à construire des fuzzers modulaires avec LibAFL pour des cibles personnalisées, des stratégies de mutation sur mesure et des workflows d’audit de sécurité. Utilisez ce guide libafl pour passer des détails de la cible à un harness pratique, à un modèle de feedback et à un plan d’exécution, avec moins d’hypothèses.

Security Audit

Favoris 0GitHub 5k

evaluation

par muratcankoylan

Le skill d’évaluation vous aide à concevoir et à exécuter des évaluations d’agents pour des systèmes non déterministes. Utilisez-le pour planifier l’installation des évaluations, définir des grilles de notation, effectuer des contrôles de régression, mettre en place des garde-fous qualité et réaliser des évaluations pour le test de skills. Il convient aux workflows LLM-as-judge, au scoring multidimensionnel et aux usages d’évaluation concrets lorsque vous avez besoin de résultats reproductibles.

Skill Testing

Favoris 0GitHub 0

judge-with-debate

par NeoLabHQ

judge-with-debate évalue des solutions au moyen d’un débat multi-agent structuré, en s’appuyant sur une spécification partagée, des contre-arguments fondés sur des preuves et jusqu’à 3 rounds pour parvenir à un consensus. Elle convient particulièrement à la revue de code, à l’évaluation basée sur une grille, et aux workflows judge-with-debate pour les systèmes multi-agents.

Multi-Agent Systems

Favoris 0GitHub 982

gws-modelarmor

par googleworkspace

gws-modelarmor vous aide à travailler avec Google Model Armor dans l’écosystème googleworkspace/cli. Utilisez-le pour assainir les prompts, assainir les réponses de modèle et créer des modèles avec moins d’approximations qu’un prompt générique. Il est conçu pour un usage répétable, conforme aux politiques, et pour les workflows de Security Audit.

Security Audit

Favoris 0GitHub 25.5k

analyzing-campaign-attribution-evidence

par mukul975

analyzing-campaign-attribution-evidence aide les analystes à évaluer le chevauchement d’infrastructure, la cohérence avec ATT&CK, la similarité des malwares, la chronologie et les indices linguistiques afin d’étayer une attribution de campagne défendable. Utilisez ce guide analyzing-campaign-attribution-evidence pour les revues CTI, l’analyse d’incidents et les audits de sécurité.

Security Audit

Favoris 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

par mukul975

detecting-ai-model-prompt-injection-attacks est une skill de cybersécurité destinée à filtrer les textes non fiables avant qu’ils n’atteignent un LLM. Elle combine des regex en couches, un scoring heuristique et une classification basée sur DeBERTa pour repérer les attaques de prompt injection directes et indirectes. Utile pour la validation des entrées de chatbot, l’ingestion de documents et la modélisation des menaces.

Threat Modeling

Favoris 0GitHub 0

llm-evaluation

par wshobson

Utilisez le skill llm-evaluation pour concevoir des plans d’évaluation reproductibles pour les applications LLM, les prompts, les systèmes RAG et les changements de modèle, avec des métriques, de la revue humaine, du benchmarking et des vérifications de régression.

Model Evaluation

Favoris 0GitHub 32.6k

ai-prompt-engineering-safety-review

par github

ai-prompt-engineering-safety-review est une skill d’audit de prompts conçue pour examiner les prompts de LLM sous l’angle de la sécurité, des biais, des faiblesses de sécurité et de la qualité des résultats avant une mise en production, une évaluation ou un usage en contact avec des clients.

Model Evaluation

Favoris 0GitHub 27.8k

agentic-eval

par github

agentic-eval est une compétence GitHub Copilot qui montre comment créer des boucles d’évaluation des sorties d’IA à l’aide de la réflexion, de critiques fondées sur des rubriques et de schémas evaluator-optimizer.

Model Evaluation

Favoris 0GitHub 27.8k

ml-pipeline-workflow

par wshobson

ml-pipeline-workflow est un guide pratique pour concevoir des pipelines MLOps de bout en bout couvrant la préparation des données, l'entraînement, la validation, le déploiement et le monitoring, avec des modèles d'orchestration pour automatiser des workflows reproductibles.

Workflow Automation

Favoris 0GitHub 0

frontend-design

par anthropics

frontend-design transforme des idées d’interface floues en UIs distinctives, prêtes pour la prod, avec du vrai code frontend, une direction esthétique claire et moins de style IA générique.

UI Design

Favoris 1GitHub 105.2k