Evaluation

Evaluation taxonomy generated by the site skill importer.

19 skills

healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

continuous-agent-loop

por affaan-m

continuous-agent-loop ajuda agentes a executar loops autônomos repetíveis com quality gates, evals, etapas de recuperação e regras claras de parada para concluir tarefas com confiabilidade.

Agent Orchestration

Favoritos 0GitHub 156.1k

self-eval

por alirezarezvani

self-eval é um skill do Claude Code apenas com prompt para revisão honesta depois do trabalho. Ele usa pontuação em dois eixos, raciocínio de devil's advocate, persistência de notas e verificações anti-inflação para avaliar a qualidade do trabalho de IA após tarefas, revisões de código ou sessões de trabalho.

Model Evaluation

Favoritos 0GitHub 22.2k

prompt-governance

por alirezarezvani

prompt-governance é um skill do Claude para gerenciar prompts de produção como ativos versionados, revisados e testados. Use para planejar registros de prompts, testes de regressão, experimentos A/B, pipelines de evals, aprovações de release e fluxos de rollback para recursos de IA.

Prompt Governance

Favoritos 0GitHub 22.2k

run

por alirezarezvani

run é uma skill de orquestração AgentHub para Claude que aciona `/hub:run` para inicializar uma tarefa, criar agentes, avaliar resultados e fazer merge do vencedor. Use para melhorias de código mensuráveis ou comparações criativas julgadas, com parâmetros claros de tarefa, agente, avaliação, métrica, direção e template.

Agent Orchestration

Favoritos 0GitHub 22.1k

eval

por alirezarezvani

eval ranqueia resultados concluídos de agents do AgentHub usando métricas configuradas, revisão por juiz LLM ou uma abordagem híbrida. Use com /hub:eval para comparar branches de sessão, diffs e posts de resultado antes de escolher um vencedor.

Model Evaluation

Favoritos 0GitHub 22.1k

context-degradation

por muratcankoylan

context-degradation é uma skill prática para diagnosticar falhas de contexto em fluxos longos, incluindo lost-in-the-middle, poisoning, distraction, confusion e clash. Use-a para identificar onde o contexto quebra, decidir o que mudar primeiro e aplicar um guia repetível de context-degradation para Skill Authoring, posicionamento de prompts e depuração de agentes em produção.

Skill Authoring

Favoritos 0GitHub 15.6k

huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation

Favoritos 0GitHub 10.4k

azure-ai-projects-py

por microsoft

azure-ai-projects-py é a skill do SDK Python Azure AI Projects para clientes de projetos do Microsoft Foundry. Use para instalação, autenticação, configuração de cliente, agentes versionados com PromptAgentDefinition, avaliações, conexões, deploys, conjuntos de dados, índices e acesso compatível com OpenAI. Ideal para fluxos de desenvolvimento backend em Python.

Backend Development

Favoritos 0GitHub 2.2k

skill-optimizer

por mcollina

O skill-optimizer ajuda autores a melhorar skills de IA em ativação, clareza e confiabilidade entre modelos. Use em Skill Authoring quando uma skill está escrita, mas não é seguida de forma confiável; quando os gatilhos são fracos, aparecem regressões ou é preciso reduzir o custo de contexto. Ele dá suporte a ciclos de benchmark, gates de release e maior fidelidade de uso.

Skill Authoring

Favoritos 0GitHub 1.8k

tree-of-thoughts

por NeoLabHQ

tree-of-thoughts é uma skill de workflow de raciocínio que ajuda agentes a explorar várias abordagens, podar ramificações fracas e sintetizar uma resposta melhor. É útil para debugging complexo, planejamento, trade-offs de arquitetura e tree-of-thoughts para orquestração de agentes.

Agent Orchestration

Favoritos 0GitHub 982

judge

por NeoLabHQ

Judge é uma skill de avaliação em duas fases que primeiro aciona um meta-judge e depois um subagente judge para pontuar o trabalho com contexto isolado, evidências e critérios claros. Use-a para revisões apenas com relatório de código, textos, análises ou Skill Authoring quando você precisar de um guia de julgamento defensável, e não de uma opinião casual.

Skill Authoring

Favoritos 0GitHub 982

judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems

Favoritos 0GitHub 982

do-and-judge

por NeoLabHQ

A skill do-and-judge executa uma única tarefa com uma etapa de implementação por subagente, um juiz independente e verificação com tentativas repetidas até passar ou até atingir o máximo de tentativas. Use do-and-judge para automação de workflows quando precisar de critérios claros de aceitação, execução isolada e menos chute do que em um prompt genérico.

Workflow Automation

Favoritos 0GitHub 982

do-competitively

por NeoLabHQ

A skill do-competitively ajuda você a resolver tarefas importantes com geração paralela de candidatos, julgamento baseado em rubricas e síntese orientada por evidências. Ela é mais indicada para Automação de Fluxos de Trabalho e outros pedidos de alto impacto em que qualidade, robustez e gestão de trade-offs importam mais do que velocidade.

Workflow Automation

Favoritos 0GitHub 982

scholar-evaluation

por K-Dense-AI

O scholar-evaluation ajuda a avaliar trabalhos acadêmicos e de pesquisa com pontuação estruturada em formulação do problema, metodologia, análise, redação e prontidão para publicação. Use-o para revisão acadêmica, planejamento de revisões e feedback consistente sobre artigos, propostas, revisões de literatura e outros rascunhos acadêmicos.

Academic Research

Favoritos 0GitHub 0

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

critique

por NeoLabHQ

critique é uma skill de revisão report-only que usa vários juízes especializados, debate e consenso para avaliar trabalhos concluídos. Ela ajuda na critique para Code Review, correção, qualidade e identificação de problemas que passaram despercebidos antes do merge. Instale o critique no contexto do NeoLabHQ context-engineering-kit e use-o com caminhos de arquivos, commits ou contexto.

Code Review

Favoritos 0GitHub 0