Evaluation

Evaluation taxonomy generated by the site skill importer.

19 skills

healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation

Favoritos 0GitHub 156.1k

continuous-agent-loop

por affaan-m

continuous-agent-loop ayuda a los agentes a ejecutar bucles autónomos repetibles con controles de calidad, evals, pasos de recuperación y reglas claras de parada para completar tareas de forma fiable.

Agent Orchestration

Favoritos 0GitHub 156.1k

self-eval

por alirezarezvani

self-eval es una skill de Claude Code basada solo en prompts para revisar con honestidad el trabajo realizado. Usa scoring de dos ejes, razonamiento de abogado del diablo, persistencia de puntuaciones y controles antiinflación para evaluar la calidad del trabajo de IA después de tareas, revisiones de código o sesiones de trabajo.

Model Evaluation

Favoritos 0GitHub 22.2k

prompt-governance

por alirezarezvani

prompt-governance es una skill de Claude para gestionar prompts en producción como activos versionados, revisados y probados. Úsala para planificar registros de prompts, pruebas de regresión, experimentos A/B, pipelines de evals, aprobaciones de release y flujos de rollback para funciones de IA.

Prompt Governance

Favoritos 0GitHub 22.2k

run

por alirezarezvani

run es una skill de orquestación de AgentHub para Claude que activa /hub:run para inicializar una tarea, crear agentes, evaluar resultados y fusionar el ganador. Úsala para mejoras de código medibles o comparaciones creativas evaluadas con parámetros claros de task, agent, eval, metric, direction y template.

Agent Orchestration

Favoritos 0GitHub 22.1k

eval

por alirezarezvani

eval clasifica resultados completados de agentes de AgentHub mediante métricas configuradas, revisión de un juez LLM o un enfoque híbrido. Úsalo con /hub:eval para comparar ramas de sesión, diffs y publicaciones de resultados antes de elegir un ganador.

Model Evaluation

Favoritos 0GitHub 22.1k

context-degradation

por muratcankoylan

context-degradation es una skill práctica para diagnosticar fallos de contexto en flujos de trabajo largos, incluyendo lost-in-the-middle, poisoning, distraction, confusion y clash. Úsala para identificar dónde se rompe el contexto, decidir qué cambiar primero y aplicar una guía repetible de context-degradation para Skill Authoring, la colocación de prompts y la depuración de agentes en producción.

Skill Authoring

Favoritos 0GitHub 15.6k

huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

azure-ai-projects-py

por microsoft

azure-ai-projects-py es el skill del SDK de Python de Azure AI Projects para clientes de proyectos de Microsoft Foundry. Úsalo para instalación, autenticación, configuración del cliente, agentes versionados con PromptAgentDefinition, evaluaciones, conexiones, implementaciones, conjuntos de datos, índices y acceso compatible con OpenAI. Es ideal para flujos de trabajo de desarrollo backend en Python.

Backend Development

Favoritos 0GitHub 2.2k

skill-optimizer

por mcollina

skill-optimizer ayuda a los autores a mejorar skills de IA para aumentar la activación, la claridad y la fiabilidad entre modelos. Úsalo en Skill Authoring cuando un skill está escrito pero no se sigue de forma consistente, cuando los disparadores son débiles, aparecen regresiones o hace falta reducir el coste de contexto. Da soporte a ciclos de benchmark, controles de salida y una mayor fidelidad de uso.

Skill Authoring

Favoritos 0GitHub 1.8k

tree-of-thoughts

por NeoLabHQ

tree-of-thoughts es una habilidad de flujo de trabajo de razonamiento que ayuda a los agentes a explorar varias aproximaciones, podar ramas débiles y sintetizar una mejor respuesta. Resulta útil para depuración compleja, planificación, decisiones de arquitectura y tree-of-thoughts para la orquestación de agentes.

Agent Orchestration

Favoritos 0GitHub 982

judge

por NeoLabHQ

Judge es una skill de evaluación en dos fases que primero activa un meta-juez y luego un subagente juez para puntuar el trabajo con contexto aislado, evidencia y criterios claros. Úsala para revisiones solo con informe de código, redacción, análisis o Skill Authoring cuando necesites una guía de juez defendible en lugar de una opinión informal.

Skill Authoring

Favoritos 0GitHub 982

judge-with-debate

por NeoLabHQ

judge-with-debate evalúa soluciones mediante un debate multiagente estructurado, usando una especificación compartida, contraargumentos basados en evidencia y hasta 3 rondas para llegar a un consenso. Encaja bien para revisión de código, evaluación basada en rúbricas y flujos de trabajo de judge-with-debate para Multi-Agent Systems.

Multi-Agent Systems

Favoritos 0GitHub 982

do-and-judge

por NeoLabHQ

La skill do-and-judge ejecuta una sola tarea con un paso de implementación de subagente, un juez independiente y verificación basada en reintentos hasta que pasa o se alcanza el máximo de reintentos. Usa do-and-judge para automatización de flujos cuando necesites criterios de aceptación claros, ejecución aislada y menos improvisación que con un prompt genérico.

Workflow Automation

Favoritos 0GitHub 982

do-competitively

por NeoLabHQ

do-competitively te ayuda a resolver tareas importantes con generación paralela de candidatos, evaluación basada en rúbricas y síntesis sustentada en evidencia. Es especialmente adecuada para Workflow Automation y otras solicitudes de alto riesgo donde la calidad, la robustez y la gestión de compromisos importan más que la velocidad.

Workflow Automation

Favoritos 0GitHub 982

scholar-evaluation

por K-Dense-AI

scholar-evaluation ayuda a evaluar trabajos académicos y de investigación con una puntuación estructurada en formulación del problema, metodología, análisis, redacción y preparación para publicación. Úsalo para revisión académica, planificación de revisiones y comentarios consistentes sobre artículos, propuestas, revisiones de literatura y otros borradores académicos.

Academic Research

Favoritos 0GitHub 0

evaluation

por muratcankoylan

La skill evaluation te ayuda a diseñar y ejecutar evaluaciones de agentes para sistemas no deterministas. Úsala para planificar la instalación de evaluaciones, crear rúbricas, hacer comprobaciones de regresión, definir quality gates y realizar evaluation para Skill Testing. Encaja con flujos de trabajo LLM-as-judge, puntuación multidimensional y usos prácticos de evaluación cuando necesitas resultados repetibles.

Skill Testing

Favoritos 0GitHub 0

critique

por NeoLabHQ

critique es una skill de revisión de solo informe que usa varios jueces especializados, debate y consenso para evaluar trabajo ya completado. Ayuda con critique para Code Review, la corrección, la calidad y los problemas pasados por alto antes de hacer merge. Instala critique en el contexto NeoLabHQ context-engineering-kit y úsala con rutas de archivos, commits o contexto.

Code Review

Favoritos 0GitHub 0