huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Estrellas10.4k

Favoritos0

Comentarios0

Agregado4 may 2026

CategoríaModel Evaluation

Comando de instalación

npx skills add huggingface/skills --skill huggingface-community-evals

Puntuación editorial

Este skill obtiene 78/100, lo que significa que es una opción sólida para usuarios que necesitan ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. El repositorio aporta suficiente detalle del flujo de trabajo, opciones de backend y exclusiones para que los usuarios del directorio evalúen si merece la pena instalarlo sin demasiadas dudas, aunque es más especializado que un skill de evaluación general.

78/100

Puntos fuertes

Delimita con claridad el caso de uso: evaluación local de modelos del Hub con inspect-ai/lighteval, incluida la elección de backend entre vLLM, Transformers y accelerate.
Ofrece scripts operativos con puntos de entrada concretos en `scripts/` para ejecuciones con inspect_ai y lighteval, lo que reduce las dudas de configuración.
Incluye ejemplos de uso y objetivos excluidos con claridad, ayudando a evitar confundir este skill con orquestación de Jobs o publicación de community-evals.

Puntos a tener en cuenta

No cubre un flujo de community-evals de extremo a extremo: se detiene antes de la publicación de `.eval_results`, la creación de PRs y la orquestación remota de HF Jobs.
Su valor para decidir la instalación es más limitado para quienes solo necesitan evaluación alojada/remota o automatización de publicación, ya que el skill está centrado en ejecuciones locales sobre hardware propio.

Huggingface Evaluation MCP Llm Vllm Transformers Accelerate Developer Audience

Resumen

Resumen de la skill huggingface-community-evals

huggingface-community-evals es una skill práctica para ejecutar evaluaciones de modelos de Hugging Face Hub en hardware local. Es ideal para quien necesita una forma rápida y reproducible de comparar modelos con inspect-ai o lighteval, especialmente cuando la decisión real es qué backend usar: vllm, Transformers o accelerate.

Usa la skill huggingface-community-evals cuando quieras un flujo de evaluación local más parecido a una ejecución real que a un prompt de prueba. Ayuda con smoke tests, selección de tareas y fallback de backend, pero no es la skill adecuada para orquestación de Hugging Face Jobs, edición de model cards, publicación de .eval_results ni automatización de community-evals.

Para qué sirve esta skill

Esta skill se centra en la ejecución de evaluaciones, no en la publicación. Te ayuda a partir de un model ID del Hub, elegir un evaluador y lanzar la prueba mínima útil antes de escalar. Eso la hace útil para selección de modelos, validación de backend y comprobación básica de un modelo candidato en tu propia máquina.

Quién debería usarla

Usa la skill huggingface-community-evals si ya conoces tu modelo objetivo o tu lista corta y necesitas responder preguntas como: “¿Esto corre en local?”, “¿Debería usar vLLM o Transformers?” o “¿Este task se comporta como espero en una muestra pequeña?”. Si necesitas orquestación remota o publicación, esta skill es un punto de entrega, no el destino final.

Qué puede bloquear su adopción

Los principales bloqueos son que el entorno esté listo y que el alcance no encaje. Necesitas una instalación funcional de Python/uv, un HF_TOKEN válido y, para rutas con GPU, una máquina que realmente pueda alojar el modelo. Si esperas un flujo de publicación de community evals con un solo comando, esta skill te parecerá incompleta porque se detiene deliberadamente antes de la capa de publicación.

Cómo usar la skill huggingface-community-evals

Instala y empieza por los archivos correctos

Instala la skill huggingface-community-evals con:

npx skills add huggingface/skills --skill huggingface-community-evals

Después, lee primero SKILL.md, luego examples/USAGE_EXAMPLES.md y los tres scripts dentro de scripts/. Esos archivos muestran las rutas de ejecución previstas y sirven mucho más que adivinarlo solo por el nombre del repo.

Convierte un objetivo difuso en un prompt útil

Una buena solicitud para usar huggingface-community-evals debe incluir: model ID, evaluador, task, tamaño de muestra y preferencia de backend. Por ejemplo, pide “un smoke test local de inspect-ai sobre meta-llama/Llama-3.2-1B con mmlu, limit=10, usando la ruta de inference provider” o “una ejecución de lighteval sobre meta-llama/Llama-3.2-3B-Instruct con leaderboard|gsm8k|5 en GPU local”.

Ese nivel de detalle importa porque los scripts toman rutas de ejecución distintas según si usas inference providers, vllm o Transformers/accelerate. Las peticiones vagas suelen acabar en la elección equivocada del script o en una configuración que falla solo después de arrancar.

Elige el script que encaje con el backend

Usa scripts/inspect_eval_uv.py para ejecuciones de inspect-ai contra inference providers, scripts/inspect_vllm_uv.py para ejecuciones locales de inspect-ai en GPU, y scripts/lighteval_vllm_uv.py para ejecuciones locales de lighteval en GPU. Si tu modelo no es estable con vllm, haz fallback a Transformers o accelerate en lugar de forzar la vía rápida.

Detalles prácticos de configuración que sí importan

Define HF_TOKEN antes de ejecutar y verifica la visibilidad de la GPU con nvidia-smi en los runs locales. Trata examples/.env.example como una lista de comprobación de configuración, no solo como un ejemplo, porque la autenticación y las variables de entorno suelen ser el primer punto de fallo en este flujo.

Preguntas frecuentes sobre la skill huggingface-community-evals

¿La skill huggingface-community-evals es solo para evaluación de modelos?

Sí. La skill huggingface-community-evals está pensada específicamente para ejecuciones de evaluación sobre modelos de Hugging Face Hub, sobre todo cuando necesitas ejecución local y orientación para elegir backend. No está pensada para generar publicaciones de community-evals ni para editar metadatos de modelos.

¿Necesito tener ya instalados `inspect-ai` o `lighteval`?

No, los scripts de la skill están diseñados para instalarse y ejecutarse a través de uv, pero sí necesitas un entorno de Python funcional y el hardware adecuado para el backend elegido. Si no sabes qué evaluador usar, empieza por el que coincida con tu stack de benchmarking actual en lugar de cambiar de herramienta a mitad del proceso.

¿Es mejor que un prompt genérico?

Normalmente sí, porque la guía de huggingface-community-evals te da rutas de script concretas, opciones de backend y límites de alcance. Un prompt genérico puede decirte que “evalúes un modelo”, pero esta skill te ayuda a decidir antes si debes usar inference providers, vllm local o un fallback con Transformers, para no perder tiempo en una configuración rota.

¿Cuándo no debería usarla?

No uses huggingface-community-evals si tu objetivo es la orquestación con HF Jobs, los PRs de model cards, la publicación de .eval_results o una canalización completa de automatización de community-evals. En esos casos, esta skill solo cubre el paso local de evaluación y otro flujo debe encargarse del resto.

Cómo mejorar la skill huggingface-community-evals

Indica desde el principio el modelo, el backend y la tarea

Las mejores solicitudes para usar huggingface-community-evals nombran el modelo exacto del Hub, el benchmark objetivo y el backend que quieres probar primero. Por ejemplo, “Ejecuta meta-llama/Llama-3.2-8B-Instruct en gsm8k con inspect-ai usando vllm, limit=20 y fallback a Transformers si la memoria se queda corta” es mucho mejor que “prueba este modelo”.

Valida primero con ejecuciones pequeñas

Empieza con un smoke test antes de lanzar un benchmark completo. Un limit pequeño te ayuda a detectar problemas de autenticación, desajustes de tokenizer, fallos de chat template o funciones del modelo no soportadas antes de invertir tiempo en una evaluación larga. Esto es especialmente útil en huggingface-community-evals porque la elección del backend puede cambiar el comportamiento más de lo que muchos usuarios esperan.

Comparte las restricciones que afectan a la calidad del resultado

Menciona la memoria de GPU, si el modelo necesita trust_remote_code y si necesitas formato de chat o una ruta de completion simple. Para lighteval, incluye la cadena exacta de tarea que quieres, como leaderboard|mmlu|5, porque el formato del task afecta a cómo se interpreta y ejecuta la corrida.

Itera sobre el primer resultado en lugar de reiniciar

Si la primera ejecución falla, ajusta la entrada en vez de sustituir todo el plan. Buenas continuaciones son “cambiar de vllm a backend hf”, “reducir limit”, “usar un modelo más pequeño” o “dejar la lista de tareas en un solo benchmark”. Ese tipo de iteración es la forma más rápida de sacar valor de la skill huggingface-community-evals sin sobreconstruir la ejecución.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

evaluation-methodology

por wshobson

La skill evaluation-methodology explica la puntuación PluginEval para Model Evaluation, incluidas las capas, las rúbricas, la puntuación compuesta, los umbrales de insignias y la orientación práctica para interpretar resultados y mejorar las dimensiones más débiles.

Model Evaluation

Favoritos 0GitHub 32.6k

healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation

Favoritos 0GitHub 156.1k

agent-eval

por affaan-m

agent-eval es una skill para comparar agentes de código cara a cara en tareas reproducibles, midiendo tasa de éxito, coste, tiempo y consistencia. Usa la skill agent-eval para evaluar Claude Code, Aider, Codex u otro agente en tu propio repo con evidencia más clara que la que ofrecen los prompts ad hoc.

Model Evaluation

Favoritos 0GitHub 156k

huggingface-best

por huggingface

La skill huggingface-best te ayuda a encontrar el mejor modelo para una tarea revisando los rankings de referencia de Hugging Face y filtrando por límites del dispositivo y tamaño del modelo. Úsala para obtener recomendaciones de modelos en coding, reasoning, chat, OCR, RAG, speech, vision o trabajo multimodal cuando necesitas una shortlist práctica, no una lista genérica de modelos.

Model Evaluation

Favoritos 0GitHub 10.4k

libafl

por trailofbits

La skill de libafl te ayuda a planificar y construir fuzzers modulares con LibAFL para objetivos personalizados, estrategias de mutación y flujos de trabajo de auditoría de seguridad. Usa esta guía de libafl para pasar de los detalles del objetivo a un harness práctico, un modelo de feedback y un plan de ejecución con menos suposiciones.

Security Audit

Favoritos 0GitHub 5k

gws-modelarmor

por googleworkspace

gws-modelarmor te ayuda a trabajar con Google Model Armor dentro del ecosistema googleworkspace/cli. Úsalo para sanitizar prompts, sanitizar respuestas del modelo y crear plantillas con menos improvisación que con un prompt genérico. Está pensado para un uso repetible, alineado con políticas, y para flujos de trabajo de Security Audit.

Security Audit

Favoritos 0GitHub 25.5k

llm-evaluation

por wshobson

Usa la skill llm-evaluation para diseñar planes de evaluación repetibles para apps con LLM, prompts, sistemas RAG y cambios de modelo, con métricas, revisión humana, benchmarking y controles de regresión.

Model Evaluation

Favoritos 0GitHub 32.6k

ai-prompt-engineering-safety-review

por github

ai-prompt-engineering-safety-review es una skill de auditoría de prompts para revisar prompts de LLM en busca de riesgos de seguridad, sesgos, debilidades de seguridad y problemas de calidad de salida antes de su uso en producción, evaluación o entornos de cara al cliente.

Model Evaluation

Favoritos 0GitHub 27.8k

agentic-eval

por github

agentic-eval es una skill de GitHub Copilot que muestra cómo crear bucles de evaluación para salidas de IA mediante reflexión, crítica basada en rúbricas y patrones evaluator-optimizer.

Model Evaluation

Favoritos 0GitHub 27.8k

ml-pipeline-workflow

por wshobson

ml-pipeline-workflow es una guía práctica para diseñar pipelines MLOps de extremo a extremo para preparación de datos, entrenamiento, validación, despliegue y monitorización, con patrones de orquestación para automatizar flujos de trabajo repetibles.

Workflow Automation

Favoritos 0GitHub 0

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k

create-colleague

por titanwings

create-colleague convierte documentos de compañeros, chats, correos, capturas de pantalla, datos de Feishu y DingTalk en una habilidad de IA editable, con salidas separadas de trabajo y persona, además de flujos de actualización para seguir refinándola.

Skill Authoring

Favoritos 1GitHub 747

hyperframes

por heygen-com

hyperframes es una skill de flujo de trabajo para crear composiciones de video basadas en HTML en HyperFrames. Úsala para tarjetas de título, superposiciones, subtítulos, locuciones, movimiento reactivo al audio y transiciones de escena cuando necesites hyperframes estructurados y orientados al código para edición de video. Prioriza decisiones de diseño, tiempo y animación por encima de solicitudes genéricas de video basadas solo en prompts.

Video Editing

Favoritos 0GitHub 2.7k

skill-creator

por anthropics

skill-creator es una metahabilidad de creación de Skills para redactar nuevas skills, revisar archivos SKILL.md, ejecutar evaluaciones, comparar variantes y mejorar descripciones de activación con scripts del repositorio y herramientas de revisión.

Skill Authoring

Favoritos 2GitHub 105.1k

claude-api

por anthropics

claude-api es una skill práctica para instalar y usar la Claude API y los SDKs de Anthropic. Ayuda a elegir entre el SDK adecuado o HTTP directo, localizar la documentación por lenguaje e implementar streaming, uso de herramientas, archivos, lotes y manejo de errores con menos prueba y error.

API Development

Favoritos 0GitHub 105k

huggingface-community-evals

Resumen de la skill huggingface-community-evals

Para qué sirve esta skill

Quién debería usarla

Qué puede bloquear su adopción

Cómo usar la skill huggingface-community-evals

Instala y empieza por los archivos correctos

Convierte un objetivo difuso en un prompt útil

Elige el script que encaje con el backend

Detalles prácticos de configuración que sí importan

Preguntas frecuentes sobre la skill huggingface-community-evals

¿La skill huggingface-community-evals es solo para evaluación de modelos?

¿Necesito tener ya instalados inspect-ai o lighteval?

¿Es mejor que un prompt genérico?

¿Cuándo no debería usarla?

Cómo mejorar la skill huggingface-community-evals

Indica desde el principio el modelo, el backend y la tarea

Valida primero con ejecuciones pequeñas

Comparte las restricciones que afectan a la calidad del resultado

Itera sobre el primer resultado en lugar de reiniciar

Calificaciones y reseñas

¿Necesito tener ya instalados `inspect-ai` o `lighteval`?