llm-evaluation

par wshobson

Utilisez le skill llm-evaluation pour concevoir des plans d’évaluation reproductibles pour les applications LLM, les prompts, les systèmes RAG et les changements de modèle, avec des métriques, de la revue humaine, du benchmarking et des vérifications de régression.

Étoiles32.6k

Favoris0

Commentaires0

Ajouté30 mars 2026

CatégorieModel Evaluation

Commande d’installation

npx skills add wshobson/agents --skill llm-evaluation

Score éditorial

Ce skill obtient un score de 68/100, ce qui en fait une option acceptable à proposer aux utilisateurs de l’annuaire qui recherchent un cadre structuré pour évaluer des applications LLM. En revanche, il faut s’attendre à une approche très centrée sur la documentation plutôt qu’à un skill véritablement opérationnel avec des ressources exécutables ou des étapes d’exécution explicites.

68/100

Points forts

Bonne déclenchabilité : le skill indique clairement dans quels cas l’utiliser, notamment pour les tests de régression, la comparaison de modèles ou de prompts, et la validation en production.
Contenu de workflow substantiel : le document couvre plusieurs modes d’évaluation, comme les métriques automatisées, l’évaluation humaine, le benchmarking et les tests A/B, au lieu de rester au niveau d’un simple canevas.
Apport conceptuel utile : il fournit aux agents une taxonomie d’évaluation réutilisable pour la génération de texte, la classification et les tâches RAG, plus structurée qu’un prompt générique.

Points de vigilance

La clarté opérationnelle reste limitée en raison de l’absence d’instructions d’installation ou d’exécution, de scripts et des fichiers de support mentionnés ; les agents doivent donc encore déduire une partie de l’implémentation.
Les éléments fournis montrent peu de contraintes explicites ou de règles de décision, ce qui peut rendre le choix des métriques et l’exécution inégaux d’un projet réel à l’autre.

Llm Testing Ai Metrics Reliability Workflow

Vue d’ensemble

Présentation de la skill llm-evaluation

La skill llm-evaluation est un cadre pratique pour concevoir des évaluations de vos applications LLM, de vos prompts et des changements de modèle. Elle convient particulièrement aux équipes et builders qui ont besoin de plus que « ça semble meilleur » et veulent une méthode reproductible pour mesurer la qualité, comparer des variantes et détecter des régressions avant la mise en production.

À qui s’adresse cette skill llm-evaluation

Cette skill llm-evaluation est adaptée aux équipes comme aux développeurs solo qui travaillent sur :

l’itération de prompts
la comparaison de modèles
les contrôles qualité RAG
les tâches de classification ou d’extraction
la QA en production pour des fonctionnalités LLM
la création de benchmarks pour des releases continues

Si vous cherchez à répondre à la question « Est-ce que ce changement a réellement amélioré le système ? », cette skill est un très bon choix.

Quel problème concret la skill aide à résoudre

Le vrai besoin couvert consiste à transformer des inquiétudes floues sur la qualité en un plan d’évaluation exploitable. Au lieu de demander des conseils génériques de test, vous utilisez llm-evaluation pour choisir le bon type d’évaluation, définir des métriques, ajouter une revue humaine là où l’automatisation montre ses limites, et structurer des comparaisons dans le temps.

Ce qui différencie llm-evaluation d’un prompt générique

Un prompt générique pourrait suggérer « utilisez BLEU, F1 et une revue humaine ». Cette llm-evaluation skill est plus utile quand vous devez faire correspondre les méthodes d’évaluation à la forme réelle de votre application :

les tâches de génération de texte demandent d’autres métriques que la classification
les systèmes RAG ont besoin de métriques de retrieval, pas seulement de jugements sur la sortie
certaines qualités, comme l’utilité ou le ton, nécessitent une évaluation humaine
les tests A/B et les contrôles de régression exigent des baselines, pas des scores isolés

Cela en fait un outil bien plus orienté décision qu’une simple demande du type « comment évaluer mon LLM ? ».

Ce qu’il faut clarifier avant d’installer llm-evaluation

Avant d’utiliser llm-evaluation, clarifiez bien trois points :

la tâche que vous évaluez
ce que signifie « bon » pour cette tâche
si vous avez besoin de métriques automatisées, d’une revue humaine, ou des deux

Si ces points restent flous, la skill peut quand même vous aider, mais les résultats resteront à un niveau assez général.

Principaux compromis et limites

Cette skill fournit une stratégie d’évaluation, pas un runner d’évaluation clé en main. Elle vous aide à concevoir le cadre et à sélectionner les méthodes, mais vous devez toujours apporter votre propre dataset, vos outils et votre environnement d’exécution. Si vous cherchez un framework entièrement automatisé avec des pipelines intégrés, considérez-la comme un guide de planification plutôt que comme une infrastructure prête à l’emploi.

Comment utiliser la skill llm-evaluation

Comment installer la skill llm-evaluation

Utilisez le flux d’installation standard des skills :

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

Après l’installation, invoquez-la lorsque vous voulez de l’aide pour concevoir ou améliorer un plan d’évaluation pour une application LLM.

Que lire en premier dans le repository

Cette skill est inhabituellement autonome. Commencez par :

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

Comme il n’y a pas de scripts d’aide ni de fichiers de ressources évidents, l’essentiel de la valeur se trouve dans le cadre écrit lui-même. Lisez d’abord les sections “When to Use This Skill” et “Core Evaluation Types”.

De quelles entrées la skill a besoin pour être utile

La qualité d’usage de llm-evaluation dépend fortement des informations que vous fournissez. Donnez notamment :

votre type d’application : summarization, chatbot, RAG, extraction, classification, etc.
le changement évalué : nouveau prompt, changement de modèle, mise à jour du retrieval, changement de policy
des exemples d’entrées et de sorties attendues
les modes d’échec actuels
les contraintes de déploiement : vitesse, coût, sécurité, capacité de revue
si vous avez besoin de benchmarking offline, de revue humaine ou de tests online

Sans ce contexte, la skill restera logiquement générique.

Comment transformer un objectif flou en prompt solide

Objectif faible :

« Aide-moi à évaluer mon application LLM. »

Objectif plus solide :

« Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

Cette version plus robuste indique à la skill quel système évolue, de quel type d’évaluation vous avez besoin, et quelle décision l’évaluation doit permettre de prendre.

Modèle de prompt pour l’usage de llm-evaluation

Utilisez une demande structurée autour de :

type de tâche
architecture du système
variantes comparées
taille et source du dataset d’évaluation
risques principaux
métriques préférées
compromis acceptables

Exemple de structure :

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

Choisir le bon type d’évaluation avec llm-evaluation

La skill couvre plusieurs modes d’évaluation. En pratique :

utilisez des métriques automatisées pour la reproductibilité et le passage à l’échelle
utilisez l’évaluation humaine pour les qualités subjectives ou nuancées
utilisez le benchmarking pour comparer des versions dans le temps
utilisez des tests A/B quand le comportement réel des utilisateurs compte

Une erreur fréquente consiste à surutiliser une seule méthode. Par exemple, s’appuyer uniquement sur BLEU pour des tâches génératives, ou uniquement sur la revue humaine pour de gros contrôles de régression.

Choisir les métriques selon la tâche

Laissez la tâche guider le choix des métriques :

génération de texte : BLEU, ROUGE, METEOR, BERTScore, perplexity
classification : accuracy, precision, recall, F1, confusion matrix, AUC-ROC
retrieval / RAG : MRR, NDCG, Precision@K, Recall@K

Le point pratique essentiel : n’appliquez pas de force des métriques de génération de texte à des problèmes de retrieval, ni l’inverse. Le llm-evaluation guide est particulièrement utile quand vous alignez les métriques sur la couche réelle du système testée.

Quand inclure une évaluation humaine

Ajoutez une revue humaine lorsque vos critères de réussite incluent des éléments comme :

l’exactitude factuelle dans des réponses ouvertes
l’utilité
la cohérence
le ton
le respect des instructions
la sécurité ou la conformité aux policies

La revue humaine est particulièrement importante quand les scores automatiques semblent bons alors que les réponses réelles restent médiocres.

Un workflow pratique pour réduire l’incertitude

Un bon workflow de départ pour les utilisateurs de llm-evaluation install :

définissez une tâche et un résultat utilisateur
constituez un petit jeu de test, mais représentatif
choisissez 2 à 4 métriques automatisées adaptées à la tâche
définissez 3 à 5 dimensions de revue humaine
évaluez un système de baseline
comparez un changement à la fois
consignez les échecs, pas seulement les moyennes

Cela permet d’adopter l’évaluation sans trop de lourdeur, tout en gardant un niveau de rigueur suffisant.

Ce que la skill fait le mieux

Cette llm-evaluation skill est particulièrement forte quand vous avez besoin d’aide pour :

sélectionner des méthodes d’évaluation
structurer un benchmark
combiner évaluation humaine et automatisée
planifier des comparaisons entre prompts ou modèles
renforcer la confiance avant un déploiement

Elle est moins utile si vous avez seulement besoin d’un prompt en une ligne pour « juger des sorties », ou si vous disposez déjà d’un harnais d’évaluation mature et cherchez uniquement du code d’implémentation.

Erreur fréquente d’usage : évaluer sans baseline

Beaucoup d’équipes demandent si la version B est « bonne ». La question la plus utile est de savoir si la version B est meilleure que la version A sur les cas qui comptent vraiment. Dans votre prompt, demandez à la skill de définir :

des métriques de baseline
des règles de comparaison
des seuils de réussite / échec
des critères de régression

C’est ce qui rend llm-evaluation for Model Evaluation bien plus actionnable.

FAQ sur la skill llm-evaluation

Est-ce que llm-evaluation convient aux débutants ?

Oui, à condition que vous connaissiez déjà le type de votre application et ce que vous cherchez à améliorer. La skill explique clairement les grandes catégories d’évaluation. Elle est moins accessible aux débutants si vous n’avez pas encore défini votre tâche, votre dataset ou vos critères de réussite.

Ai-je besoin d’un benchmark dataset formel dès le départ ?

Non, mais vous avez besoin d’exemples. Même un petit jeu de test curé vaut mieux qu’une évaluation faite au fil de l’eau avec des prompts improvisés à chaque fois. La skill est surtout utile à partir du moment où vous pouvez montrer des cas représentatifs et le comportement attendu.

Cette skill est-elle réservée aux évaluations de type académique ?

Non. Le contenu du repository est concret : comparaison de modèles, validation de prompts, détection de régressions, confiance avant mise en production et tests A/B. Il s’applique aux équipes produit, pas uniquement aux workflows de recherche.

Quand ne faut-il pas utiliser llm-evaluation ?

Passez llm-evaluation si votre besoin est purement lié à l’implémentation, par exemple brancher un SDK d’évaluation précis ou exécuter une commande spécifique d’un framework. Cette skill porte sur la stratégie et la conception, pas sur une intégration de code clé en main.

En quoi llm-evaluation diffère-t-elle du fait de demander à un LLM de s’auto-noter ?

L’auto-évaluation peut faire partie d’un workflow, mais ce n’est pas une stratégie d’évaluation complète. llm-evaluation vous aide à combiner des métriques adaptées au besoin, du jugement humain, des baselines et des comparaisons pour éviter de dépendre d’un signal unique et bruité.

Puis-je utiliser llm-evaluation pour des systèmes RAG ?

Oui. C’est même un très bon cas d’usage, car la skill couvre explicitement des métriques de retrieval comme MRR, NDCG, Precision@K et Recall@K. C’est important, car beaucoup d’évaluations faibles notent uniquement le texte de réponse et ignorent la qualité du retrieval.

Comment améliorer l’usage de la skill llm-evaluation

Donnez à la skill des détails au niveau de la tâche, pas seulement une description générale de l’application

Meilleure entrée :

« Chatbot de support qui répond à des questions de facturation à partir d’une base de connaissances »

Moins bonne entrée :

« Assistant IA »

Plus le cadrage de la tâche est précis, mieux la skill pourra recommander les bonnes métriques et les bonnes dimensions de revue.

Séparez les composants du système dans votre prompt

Pour un usage plus robuste de llm-evaluation, demandez à la skill d’évaluer séparément les couches suivantes :

qualité du retrieval
qualité de génération
précision de classification
comportement de sécurité

Vous évitez ainsi de mélanger plusieurs sources d’échec dans un score unique et flou.

Fournissez de vrais exemples d’échec

Incluez 5 à 10 mauvaises sorties et expliquez pourquoi elles ont échoué. Par exemple :

hallucination d’une policy produit
document pertinent non récupéré
réponse correcte mais avec un mauvais ton
refus alors que la requête était en réalité sûre

Cela aide la skill à recommander des dimensions d’évaluation alignées sur vos risques réels.

Demandez d’abord une évaluation minimale viable

Ne commencez pas par un énorme framework. Demandez :

le plus petit benchmark utile
le minimum de métriques qui valent vraiment le suivi
la rubrique minimale de revue humaine
un processus simple de régression

Cela facilite énormément l’adoption et évite les plans d’évaluation impressionnants sur le papier, mais jamais exécutés.

Utilisez des scorecards avec des critères explicites

Si vous demandez une évaluation humaine, demandez à la skill de définir :

les dimensions de notation
les échelles de score
des exemples de réussite / échec
des règles de départage pour les cas ambigus

Cela réduit l’incohérence entre reviewers et rend les évaluations répétées plus fiables.

Comparez un changement à la fois

Un mode d’échec fréquent consiste à changer le prompt, le modèle, le retriever et le post-processing en même temps. Dans ce cas, l’évaluation ne peut pas expliquer ce qui a produit le résultat. Demandez à llm-evaluation de structurer les expériences pour que chaque test isole une variable quand c’est possible.

Suivez les régressions, pas seulement l’amélioration moyenne

Les moyennes peuvent masquer des pertes importantes. Demandez à la skill d’identifier :

les catégories de pire cas
les slices à haut risque
les scénarios critiques pour l’utilisateur
les prompts sensibles du point de vue sécurité

C’est l’un des plus grands gains pratiques par rapport à des plans d’évaluation superficiels.

Itérez après la première exécution de l’évaluation

Après un premier passage, revenez avec les résultats et demandez à la skill d’affiner :

quelles métriques étaient bruitées
quelles dimensions humaines se chevauchaient
où le dataset était trop étroit
quels clusters d’échec méritent de nouveaux cas de test

C’est souvent à cette deuxième itération que llm-evaluation devient vraiment précieux, et pas seulement informatif.

Améliorez les sorties de llm-evaluation avec des demandes orientées décision

Au lieu de demander une vue d’ensemble large, demandez un livrable de décision :

« Create a release-gate evaluation plan”
« Design a prompt-comparison benchmark”
« Build a human review rubric for hallucination risk”
« Recommend metrics for RAG retrieval regression checks”

Les prompts orientés décision produisent des sorties que vous pouvez utiliser immédiatement.

Connaître le plafond de la skill llm-evaluation

llm-evaluation améliore la qualité de planification, mais ne peut pas remplacer des données représentatives, un étiquetage soigné ou une revue disciplinée. Si vos exemples sont faibles ou si vos critères de réussite sont contradictoires, la sortie le sera aussi. Le moyen le plus rapide d’améliorer l’utilité de la skill est d’augmenter la précision et le réalisme de votre brief d’évaluation.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

evaluation-methodology

par wshobson

La compétence evaluation-methodology explique le scoring PluginEval pour Model Evaluation, avec les couches d’évaluation, les rubrics, le score composite, les seuils de badges et des conseils pratiques pour interpréter les résultats et améliorer les dimensions faibles.

Model Evaluation

Favoris 0GitHub 32.6k

healthcare-eval-harness

par affaan-m

healthcare-eval-harness est un cadre d’évaluation de la sécurité des patients pour les déploiements d’applications de santé. Il aide les équipes à vérifier la précision du CDSS, l’exposition des PHI, l’intégrité des données, le comportement des flux cliniques et la conformité des intégrations avant mise en production. Les échecs critiques bloquent le déploiement, ce qui en fait un outil utile pour healthcare-eval-harness dans l’évaluation de modèles et les garde-fous de sécurité CI.

Model Evaluation

Favoris 0GitHub 156.2k

eval-harness

par affaan-m

Le skill eval-harness est un cadre d’évaluation formel pour les sessions Claude Code et le développement guidé par l’évaluation. Il vous aide à définir des critères de réussite/échec, à construire des évaluations de capacités et de régression, et à mesurer la fiabilité de l’agent avant de déployer des changements de prompt ou de workflow.

Model Evaluation

Favoris 0GitHub 156.1k

agent-eval

par affaan-m

agent-eval est une skill conçue pour benchmarker des agents de code en face à face sur des tâches reproductibles, en comparant le taux de réussite, le coût, le temps et la régularité. Utilisez la skill agent-eval pour évaluer Claude Code, Aider, Codex ou un autre agent dans votre propre dépôt, avec des éléments plus probants que de simples prompts ad hoc.

Model Evaluation

Favoris 0GitHub 156k

huggingface-community-evals

par huggingface

huggingface-community-evals vous aide à lancer स्थानीयement des évaluations de modèles du Hugging Face Hub avec inspect-ai ou lighteval. Servez-vous-en pour choisir le backend, effectuer des tests de fumée et disposer d’un guide pratique pour vLLM, Transformers ou accelerate. Ne convient pas à l’orchestration HF Jobs, aux PR de model-card, à la publication de .eval_results ni à l’automatisation de community-evals.

Model Evaluation

Favoris 0GitHub 10.4k

huggingface-best

par huggingface

La skill huggingface-best vous aide à trouver le meilleur modèle pour une tâche en consultant les classements de benchmarks de Hugging Face et en filtrant selon les limites de l’appareil et la taille du modèle. Utilisez-la pour obtenir des recommandations de modèles en codage, raisonnement, chat, OCR, RAG, voix, vision ou multimodalité lorsque vous avez besoin d’une short-list pratique, pas d’une liste générique de modèles.

Model Evaluation

Favoris 0GitHub 10.4k

libafl

par trailofbits

Le skill libafl vous aide à concevoir et à construire des fuzzers modulaires avec LibAFL pour des cibles personnalisées, des stratégies de mutation sur mesure et des workflows d’audit de sécurité. Utilisez ce guide libafl pour passer des détails de la cible à un harness pratique, à un modèle de feedback et à un plan d’exécution, avec moins d’hypothèses.

Security Audit

Favoris 0GitHub 5k

judge-with-debate

par NeoLabHQ

judge-with-debate évalue des solutions au moyen d’un débat multi-agent structuré, en s’appuyant sur une spécification partagée, des contre-arguments fondés sur des preuves et jusqu’à 3 rounds pour parvenir à un consensus. Elle convient particulièrement à la revue de code, à l’évaluation basée sur une grille, et aux workflows judge-with-debate pour les systèmes multi-agents.

Multi-Agent Systems

Favoris 0GitHub 982

gws-modelarmor

par googleworkspace

gws-modelarmor vous aide à travailler avec Google Model Armor dans l’écosystème googleworkspace/cli. Utilisez-le pour assainir les prompts, assainir les réponses de modèle et créer des modèles avec moins d’approximations qu’un prompt générique. Il est conçu pour un usage répétable, conforme aux politiques, et pour les workflows de Security Audit.

Security Audit

Favoris 0GitHub 25.5k

analyzing-campaign-attribution-evidence

par mukul975

analyzing-campaign-attribution-evidence aide les analystes à évaluer le chevauchement d’infrastructure, la cohérence avec ATT&CK, la similarité des malwares, la chronologie et les indices linguistiques afin d’étayer une attribution de campagne défendable. Utilisez ce guide analyzing-campaign-attribution-evidence pour les revues CTI, l’analyse d’incidents et les audits de sécurité.

Security Audit

Favoris 0GitHub 6.1k

ai-prompt-engineering-safety-review

par github

ai-prompt-engineering-safety-review est une skill d’audit de prompts conçue pour examiner les prompts de LLM sous l’angle de la sécurité, des biais, des faiblesses de sécurité et de la qualité des résultats avant une mise en production, une évaluation ou un usage en contact avec des clients.

Model Evaluation

Favoris 0GitHub 27.8k

agentic-eval

par github

agentic-eval est une compétence GitHub Copilot qui montre comment créer des boucles d’évaluation des sorties d’IA à l’aide de la réflexion, de critiques fondées sur des rubriques et de schémas evaluator-optimizer.

Model Evaluation

Favoris 0GitHub 27.8k

ml-pipeline-workflow

par wshobson

ml-pipeline-workflow est un guide pratique pour concevoir des pipelines MLOps de bout en bout couvrant la préparation des données, l'entraînement, la validation, le déploiement et le monitoring, avec des modèles d'orchestration pour automatiser des workflows reproductibles.

Workflow Automation

Favoris 0GitHub 0

frontend-design

par anthropics

frontend-design transforme des idées d’interface floues en UIs distinctives, prêtes pour la prod, avec du vrai code frontend, une direction esthétique claire et moins de style IA générique.

UI Design

Favoris 1GitHub 105.2k

create-colleague

par titanwings

create-colleague transforme des documents de collègues, chats, e-mails, captures d’écran, ainsi que des données Feishu et DingTalk, en un skill IA modifiable avec des sorties séparées pour le travail et le persona, ainsi que des flux de mise à jour pour l’améliorer dans la durée.

Skill Authoring

Favoris 1GitHub 747

hyperframes

par heygen-com

hyperframes est un skill de workflow pour créer des compositions vidéo en HTML dans HyperFrames. Utilisez-le pour les cartes de titre, les superpositions, les sous-titres, les voix off, les mouvements réactifs à l'audio et les transitions de scène lorsque vous avez besoin de hyperframes structurés, pensés d'abord en code, pour le montage vidéo. Il privilégie les choix de mise en page, de timing et d'animation plutôt que de simples requêtes vidéo génériques basées sur du prompt.

Video Editing

Favoris 0GitHub 2.7k