Evaluation

Evaluation taxonomy generated by the site skill importer.

15 skills
A
healthcare-eval-harness

por affaan-m

healthcare-eval-harness es un entorno de evaluación de seguridad del paciente para despliegues de aplicaciones sanitarias. Ayuda a los equipos a verificar la precisión de CDSS, la exposición de PHI, la integridad de los datos, el comportamiento del flujo clínico y el cumplimiento de integraciones antes de publicar. Los fallos críticos bloquean el despliegue, por lo que resulta útil para healthcare-eval-harness en evaluaciones de modelos y como puerta de seguridad en CI.

Model Evaluation
Favoritos 0GitHub 156.2k
A
eval-harness

por affaan-m

La skill eval-harness es un marco formal de evaluación para sesiones de Claude Code y el desarrollo guiado por evals. Te ayuda a definir criterios de aprobado/reprobado, crear evals de capacidad y de regresión, y medir la fiabilidad del agente antes de publicar cambios en prompts o flujos de trabajo.

Model Evaluation
Favoritos 0GitHub 156.1k
A
continuous-agent-loop

por affaan-m

continuous-agent-loop ayuda a los agentes a ejecutar bucles autónomos repetibles con controles de calidad, evals, pasos de recuperación y reglas claras de parada para completar tareas de forma fiable.

Agent Orchestration
Favoritos 0GitHub 156.1k
M
context-degradation

por muratcankoylan

context-degradation es una skill práctica para diagnosticar fallos de contexto en flujos de trabajo largos, incluyendo lost-in-the-middle, poisoning, distraction, confusion y clash. Úsala para identificar dónde se rompe el contexto, decidir qué cambiar primero y aplicar una guía repetible de context-degradation para Skill Authoring, la colocación de prompts y la depuración de agentes en producción.

Skill Authoring
Favoritos 0GitHub 15.6k
H
huggingface-community-evals

por huggingface

huggingface-community-evals te ayuda a ejecutar localmente evaluaciones de modelos de Hugging Face Hub con inspect-ai o lighteval. Úsalo para elegir backend, hacer pruebas rápidas y consultar una guía práctica de vLLM, Transformers o accelerate. No sirve para orquestación de HF Jobs, PRs de model cards, publicación de .eval_results ni automatización de community-evals.

Model Evaluation
Favoritos 0GitHub 10.4k
M
azure-ai-projects-py

por microsoft

azure-ai-projects-py es el skill del SDK de Python de Azure AI Projects para clientes de proyectos de Microsoft Foundry. Úsalo para instalación, autenticación, configuración del cliente, agentes versionados con PromptAgentDefinition, evaluaciones, conexiones, implementaciones, conjuntos de datos, índices y acceso compatible con OpenAI. Es ideal para flujos de trabajo de desarrollo backend en Python.

Backend Development
Favoritos 0GitHub 2.2k
M
skill-optimizer

por mcollina

skill-optimizer ayuda a los autores a mejorar skills de IA para aumentar la activación, la claridad y la fiabilidad entre modelos. Úsalo en Skill Authoring cuando un skill está escrito pero no se sigue de forma consistente, cuando los disparadores son débiles, aparecen regresiones o hace falta reducir el coste de contexto. Da soporte a ciclos de benchmark, controles de salida y una mayor fidelidad de uso.

Skill Authoring
Favoritos 0GitHub 1.8k
N
tree-of-thoughts

por NeoLabHQ

tree-of-thoughts es una habilidad de flujo de trabajo de razonamiento que ayuda a los agentes a explorar varias aproximaciones, podar ramas débiles y sintetizar una mejor respuesta. Resulta útil para depuración compleja, planificación, decisiones de arquitectura y tree-of-thoughts para la orquestación de agentes.

Agent Orchestration
Favoritos 0GitHub 982
N
judge

por NeoLabHQ

Judge es una skill de evaluación en dos fases que primero activa un meta-juez y luego un subagente juez para puntuar el trabajo con contexto aislado, evidencia y criterios claros. Úsala para revisiones solo con informe de código, redacción, análisis o Skill Authoring cuando necesites una guía de juez defendible en lugar de una opinión informal.

Skill Authoring
Favoritos 0GitHub 982
N
judge-with-debate

por NeoLabHQ

judge-with-debate evalúa soluciones mediante un debate multiagente estructurado, usando una especificación compartida, contraargumentos basados en evidencia y hasta 3 rondas para llegar a un consenso. Encaja bien para revisión de código, evaluación basada en rúbricas y flujos de trabajo de judge-with-debate para Multi-Agent Systems.

Multi-Agent Systems
Favoritos 0GitHub 982
N
do-and-judge

por NeoLabHQ

La skill do-and-judge ejecuta una sola tarea con un paso de implementación de subagente, un juez independiente y verificación basada en reintentos hasta que pasa o se alcanza el máximo de reintentos. Usa do-and-judge para automatización de flujos cuando necesites criterios de aceptación claros, ejecución aislada y menos improvisación que con un prompt genérico.

Workflow Automation
Favoritos 0GitHub 982
N
do-competitively

por NeoLabHQ

do-competitively te ayuda a resolver tareas importantes con generación paralela de candidatos, evaluación basada en rúbricas y síntesis sustentada en evidencia. Es especialmente adecuada para Workflow Automation y otras solicitudes de alto riesgo donde la calidad, la robustez y la gestión de compromisos importan más que la velocidad.

Workflow Automation
Favoritos 0GitHub 982
K
scholar-evaluation

por K-Dense-AI

scholar-evaluation ayuda a evaluar trabajos académicos y de investigación con una puntuación estructurada en formulación del problema, metodología, análisis, redacción y preparación para publicación. Úsalo para revisión académica, planificación de revisiones y comentarios consistentes sobre artículos, propuestas, revisiones de literatura y otros borradores académicos.

Academic Research
Favoritos 0GitHub 0
M
evaluation

por muratcankoylan

La skill evaluation te ayuda a diseñar y ejecutar evaluaciones de agentes para sistemas no deterministas. Úsala para planificar la instalación de evaluaciones, crear rúbricas, hacer comprobaciones de regresión, definir quality gates y realizar evaluation para Skill Testing. Encaja con flujos de trabajo LLM-as-judge, puntuación multidimensional y usos prácticos de evaluación cuando necesitas resultados repetibles.

Skill Testing
Favoritos 0GitHub 0
N
critique

por NeoLabHQ

critique es una skill de revisión de solo informe que usa varios jueces especializados, debate y consenso para evaluar trabajo ya completado. Ayuda con critique para Code Review, la corrección, la calidad y los problemas pasados por alto antes de hacer merge. Instala critique en el contexto NeoLabHQ context-engineering-kit y úsala con rutas de archivos, commits o contexto.

Code Review
Favoritos 0GitHub 0
Evaluation