W

llm-evaluation

par wshobson

Mettez en place des workflows d'évaluation robustes pour les applications LLM grâce à des métriques automatisées, des retours humains et des benchmarks. Parfait pour les équipes testant les performances des LLM, comparant des modèles ou validant des améliorations IA.

Étoiles0
Favoris0
Commentaires0
Ajouté28 mars 2026
CatégorieSkill Testing
Commande d’installation
npx skills add https://github.com/wshobson/agents --skill llm-evaluation
Vue d’ensemble

Vue d'ensemble

Qu'est-ce que llm-evaluation ?

llm-evaluation est une compétence spécialisée pour tester et benchmarker systématiquement les applications basées sur les grands modèles de langage (LLM). Elle permet aux équipes IA et ML de mesurer les performances des LLM, comparer des modèles ou des prompts, détecter des régressions et valider des améliorations en utilisant à la fois des métriques automatisées et des retours humains. Cette compétence est essentielle pour maintenir des systèmes IA de haute qualité et établir des cadres d'évaluation fiables.

À qui s'adresse cette compétence ?

  • Ingénieurs IA/ML et data scientists développant des applications alimentées par des LLM
  • Équipes responsables de l'ingénierie des prompts ou de la sélection des modèles
  • Professionnels QA validant les sorties des LLM avant déploiement
  • Toute personne ayant besoin de suivre les performances des LLM dans le temps ou de déboguer des comportements inattendus des modèles

Problèmes résolus

  • Offre un processus reproductible pour évaluer les LLM
  • Permet la comparaison entre modèles, prompts ou versions du système
  • Aide à détecter les régressions et valider les améliorations
  • Facilite la confiance dans les systèmes IA en production

Comment utiliser

Étapes d'installation

  1. Ajoutez la compétence à votre environnement agent :

    npx skills add https://github.com/wshobson/agents --skill llm-evaluation

  2. Consultez la documentation principale dans SKILL.md pour un aperçu du workflow et des stratégies d'évaluation.

  3. Explorez les fichiers complémentaires tels que README.md, AGENTS.md et metadata.json pour les détails d'intégration et le contexte.

  4. Vérifiez les répertoires rules/, resources/, references/ et scripts/ pour des composants d'évaluation réutilisables et des scripts d'aide.

Types d'évaluation principaux

Métriques automatisées

  • Génération de texte : BLEU, ROUGE, METEOR, BERTScore, Perplexity
  • Classification : Précision, Précision/Rappel/F1, Matrice de confusion, AUC-ROC
  • Récupération (RAG) : MRR, NDCG, Precision@K, Recall@K

Évaluation humaine

  • Revue manuelle pour l'exactitude, la pertinence, la fluidité et d'autres critères subjectifs
  • Utile pour les aspects difficiles à capturer par des métriques automatisées

Adapter à votre workflow

  • Utilisez les stratégies d'évaluation fournies comme modèles et adaptez-les à votre propre dépôt, outils et exigences opérationnelles.
  • Établissez des bases de référence et suivez les progrès dans le temps pour assurer une amélioration continue.

FAQ

Quand utiliser llm-evaluation ?

Utilisez llm-evaluation lorsque vous devez tester, comparer ou valider systématiquement les performances d'une application LLM, notamment avant de déployer des changements en production.

Quels fichiers consulter en priorité ?

Commencez par SKILL.md pour une vue d'ensemble, puis consultez README.md et metadata.json pour les détails d'intégration. Explorez rules/ et scripts/ pour des exemples pratiques.

llm-evaluation prend-il en charge l'évaluation automatisée et humaine ?

Oui, il fournit des guides et des modèles pour les métriques automatisées ainsi que pour la revue manuelle, couvrant un large éventail de besoins d'évaluation LLM.

Comment personnaliser le processus d'évaluation ?

Adaptez les stratégies et scripts à vos modèles, prompts et exigences spécifiques. La compétence est conçue pour être flexible et s'intégrer à différents workflows IA.

Où trouver plus de ressources ?

Parcourez l'arborescence du dépôt pour découvrir des références supplémentaires, des scripts d'aide et de la documentation complémentaire.

Notes et avis

Aucune note pour le moment
Partagez votre avis
Connectez-vous pour laisser une note et un commentaire sur cet outil.
G
0/10000
Derniers avis
Enregistrement...