Evaluation

Evaluation taxonomy generated by the site skill importer.

15 skills
A
healthcare-eval-harness

por affaan-m

healthcare-eval-harness é um harness de avaliação de segurança do paciente para implantações de apps de saúde. Ele ajuda equipes a verificar a precisão de CDSS, exposição de PHI, integridade dos dados, comportamento do fluxo clínico e conformidade de integração antes do release. Falhas críticas bloqueiam a implantação, tornando o healthcare-eval-harness útil para Avaliação de Modelo e gates de segurança em CI.

Model Evaluation
Favoritos 0GitHub 156.2k
A
eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation
Favoritos 0GitHub 156.1k
A
continuous-agent-loop

por affaan-m

continuous-agent-loop ajuda agentes a executar loops autônomos repetíveis com quality gates, evals, etapas de recuperação e regras claras de parada para concluir tarefas com confiabilidade.

Agent Orchestration
Favoritos 0GitHub 156.1k
M
context-degradation

por muratcankoylan

context-degradation é uma skill prática para diagnosticar falhas de contexto em fluxos longos, incluindo lost-in-the-middle, poisoning, distraction, confusion e clash. Use-a para identificar onde o contexto quebra, decidir o que mudar primeiro e aplicar um guia repetível de context-degradation para Skill Authoring, posicionamento de prompts e depuração de agentes em produção.

Skill Authoring
Favoritos 0GitHub 15.6k
H
huggingface-community-evals

por huggingface

O huggingface-community-evals ajuda você a executar localmente avaliações de modelos do Hugging Face Hub com inspect-ai ou lighteval. Use-o para escolher o backend, fazer smoke tests e consultar um guia prático de vLLM, Transformers ou accelerate. Não é para orquestração de HF Jobs, PRs de model card, publicação de .eval_results ou automação de community-evals.

Model Evaluation
Favoritos 0GitHub 10.4k
M
azure-ai-projects-py

por microsoft

azure-ai-projects-py é a skill do SDK Python Azure AI Projects para clientes de projetos do Microsoft Foundry. Use para instalação, autenticação, configuração de cliente, agentes versionados com PromptAgentDefinition, avaliações, conexões, deploys, conjuntos de dados, índices e acesso compatível com OpenAI. Ideal para fluxos de desenvolvimento backend em Python.

Backend Development
Favoritos 0GitHub 2.2k
M
skill-optimizer

por mcollina

O skill-optimizer ajuda autores a melhorar skills de IA em ativação, clareza e confiabilidade entre modelos. Use em Skill Authoring quando uma skill está escrita, mas não é seguida de forma confiável; quando os gatilhos são fracos, aparecem regressões ou é preciso reduzir o custo de contexto. Ele dá suporte a ciclos de benchmark, gates de release e maior fidelidade de uso.

Skill Authoring
Favoritos 0GitHub 1.8k
N
tree-of-thoughts

por NeoLabHQ

tree-of-thoughts é uma skill de workflow de raciocínio que ajuda agentes a explorar várias abordagens, podar ramificações fracas e sintetizar uma resposta melhor. É útil para debugging complexo, planejamento, trade-offs de arquitetura e tree-of-thoughts para orquestração de agentes.

Agent Orchestration
Favoritos 0GitHub 982
N
judge

por NeoLabHQ

Judge é uma skill de avaliação em duas fases que primeiro aciona um meta-judge e depois um subagente judge para pontuar o trabalho com contexto isolado, evidências e critérios claros. Use-a para revisões apenas com relatório de código, textos, análises ou Skill Authoring quando você precisar de um guia de julgamento defensável, e não de uma opinião casual.

Skill Authoring
Favoritos 0GitHub 982
N
judge-with-debate

por NeoLabHQ

O judge-with-debate avalia soluções por meio de debate estruturado entre múltiplos agentes, usando uma especificação compartilhada, contra-argumentos baseados em evidências e até 3 rodadas para chegar a um consenso. É uma boa opção para revisão de código, avaliação com base em rubricas e fluxos de judge-with-debate em sistemas multiagente.

Multi-Agent Systems
Favoritos 0GitHub 982
N
do-and-judge

por NeoLabHQ

A skill do-and-judge executa uma única tarefa com uma etapa de implementação por subagente, um juiz independente e verificação com tentativas repetidas até passar ou até atingir o máximo de tentativas. Use do-and-judge para automação de workflows quando precisar de critérios claros de aceitação, execução isolada e menos chute do que em um prompt genérico.

Workflow Automation
Favoritos 0GitHub 982
N
do-competitively

por NeoLabHQ

A skill do-competitively ajuda você a resolver tarefas importantes com geração paralela de candidatos, julgamento baseado em rubricas e síntese orientada por evidências. Ela é mais indicada para Automação de Fluxos de Trabalho e outros pedidos de alto impacto em que qualidade, robustez e gestão de trade-offs importam mais do que velocidade.

Workflow Automation
Favoritos 0GitHub 982
K
scholar-evaluation

por K-Dense-AI

O scholar-evaluation ajuda a avaliar trabalhos acadêmicos e de pesquisa com pontuação estruturada em formulação do problema, metodologia, análise, redação e prontidão para publicação. Use-o para revisão acadêmica, planejamento de revisões e feedback consistente sobre artigos, propostas, revisões de literatura e outros rascunhos acadêmicos.

Academic Research
Favoritos 0GitHub 0
M
evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing
Favoritos 0GitHub 0
N
critique

por NeoLabHQ

critique é uma skill de revisão report-only que usa vários juízes especializados, debate e consenso para avaliar trabalhos concluídos. Ela ajuda na critique para Code Review, correção, qualidade e identificação de problemas que passaram despercebidos antes do merge. Instale o critique no contexto do NeoLabHQ context-engineering-kit e use-o com caminhos de arquivos, commits ou contexto.

Code Review
Favoritos 0GitHub 0
Evaluation