create-skill-test

por dotnet

A skill create-skill-test cria arquivos de teste `eval.yaml` para skills de agente em `dotnet/skills`. Use-a para criar testes de skill, definir cenários, fixtures, assertions e rubricas, e reduzir o overfitting no desenho de avaliações. Ela não serve para executar testes existentes, depurar erros do validador ou escrever arquivos `SKILL.md`.

Estrelas3k

Favoritos0

Comentários0

Adicionado25 de mai. de 2026

CategoriaSkill Testing

Comando de instalação

npx skills add dotnet/skills --skill create-skill-test

Pontuação editorial

Esta skill tem 62/100, o que significa que pode entrar na lista, mas pede cautela: ela oferece um fluxo real e específico para criar arquivos de teste `eval.yaml`, porém é mais estreita e mais dependente do repositório do que uma skill amplamente reutilizável.

62/100

Pontos fortes

Gatilho claro: o frontmatter indica o uso para criar arquivos de teste `eval.yaml`, adicionar cenários, configurar fixtures e avaliar risco de overfitting.
Fluxo operacional concreto: o corpo traz inputs explícitos, orientação de quando usar / quando não usar e um processo em عدة etapas com restrições.
Bom valor para decisão de instalação para quem contribui em `dotnet/skills`: ele menciona verificações do validador e convenções do repositório, reduzindo suposições em comparação com um prompt genérico.

Pontos de atenção

É experimental, voltada para testes e limitada às convenções de `dotnet/skills`, então pode não se transferir bem para fora desse repositório.
Não há scripts, referências nem arquivos de suporte incluídos, então o usuário precisa depender apenas do documento para os detalhes de implementação.

Test Template Docs Developer Audience Dotnet

Visão geral

Visão geral da skill create-skill-test

create-skill-test é um auxiliar de scaffold e validação para criar arquivos de teste eval.yaml para skills de agente no repositório dotnet/skills. Ele foi feito para quem precisa de um ponto de partida confiável para testes de skill, e não como um prompt genérico para “escrever um teste”. A principal função é transformar uma skill-alvo, um nome de plugin e uma ideia de cenário em uma estrutura de teste compatível com as convenções, com fixtures, assertions e rubrics menos propensos a overfitting.

A skill create-skill-test é mais indicada para autores que já sabem qual skill querem avaliar e precisam de um jeito rápido de produzir um arquivo de teste que respeite as regras do repositório. Ela é menos útil se o seu objetivo for apenas executar testes, depurar falhas do validator ou escrever instruções de skill do zero.

Para que serve o create-skill-test

Use a skill create-skill-test quando estiver criando um novo arquivo de eval, expandindo um existente com mais cenários ou verificando se sua rubric está específica demais para uma única saída exata. Ela é especialmente útil em fluxos de trabalho de create-skill-test for Skill Testing, em que a qualidade do desenho do teste importa tanto quanto a forma do YAML.

O que ela ajuda a evitar

O maior valor está em evitar evals frágeis: campos obrigatórios ausentes, caminhos de skill incompatíveis, organização ruim das fixtures e linguagem de rubric que, sem querer, recompensa uma formulação específica em vez do comportamento real. Isso faz diferença se você quer testes que continuem úteis conforme a skill-alvo evolui.

O que ela não substitui

Ela não substitui o skill-validator e também não ajuda a editar arquivos SKILL.md. Se o seu objetivo é diagnosticar uma execução de teste quebrada ou depurar a saída do validator, esta não é a ferramenta certa.

Como usar a skill create-skill-test

Instale e abra a skill de origem

Instale create-skill-test com npx skills add dotnet/skills --skill create-skill-test. Depois, leia primeiro o SKILL.md, porque ele traz o fluxo de trabalho, os requisitos de entrada e os limites que definem se a sua solicitação é válida antes de pedir qualquer geração ao modelo.

Dê à skill o briefing de teste certo

Uma boa solicitação de create-skill-test install não é só “crie um teste”. Inclua o nome da skill, o nome do plugin, o comportamento que você quer verificar e quaisquer restrições de cenário. A skill espera entradas como a skill-alvo em plugins/<plugin>/skills/, então a precisão nos nomes importa.

Um briefing melhor seria assim:

Skill: foo-bar
Plugin: dotnet-msbuild
Objetivo: verificar se o agente cria um resumo válido e rejeita caminhos não suportados
Cenário: usuário de primeira viagem com contexto parcial
Necessidade de fixture: um arquivo de entrada mínimo e um arquivo de caso extremo

Isso dá ao fluxo de create-skill-test usage estrutura suficiente para montar um eval útil, em vez de um genérico.

Leia as seções do repositório que importam

Comece por SKILL.md e, em seguida, inspecione qualquer README.md, AGENTS.md, metadata.json e as pastas próximas rules/, resources/, references/ ou scripts/, se elas existirem. Neste snapshot do repositório, apenas SKILL.md foi exposto, então a própria definição da skill é a principal fonte de verdade.

Itere nos cenários e nas rubrics

Use a primeira versão para checar se o teste realmente mede o comportamento pretendido. Se a rubric recompensa a formulação em vez do resultado, torne-a mais precisa. Se o cenário estiver amplo demais, divida-o. Se a skill só precisa de um único caminho feliz, mantenha o eval enxuto em vez de inventar casos extras.

FAQ da skill create-skill-test

O create-skill-test é só para dotnet/skills?

Sim. Ele foi desenhado em torno das convenções do repositório dotnet/skills e do layout plugins/<plugin>/skills/. Dá para adaptar a ideia em outros contextos, mas o guia create-skill-test é mais valioso quando o seu repositório segue a mesma estrutura e as mesmas expectativas de validação.

Devo usar isso em vez de um prompt normal?

Use create-skill-test quando quiser um scaffold de eval repetível e com menos erros estruturais. Um prompt normal pode descrever um teste, mas geralmente será mais fraco em convenções específicas do repositório, posicionamento de fixtures e checagens de overfitting.

É amigável para iniciantes?

Sim, desde que você consiga identificar a skill-alvo e explicar o cenário em linguagem simples. Ela deixa de ser amigável para iniciantes se você não souber nomear o plugin, o caminho da skill ou o comportamento sendo testado, porque essas informações guiam a saída gerada.

Quando não devo usá-lo?

Não use create-skill-test para executar testes, depurar erros do validator ou criar uma nova skill. Esses são fluxos adjacentes, com ferramentas diferentes e critérios de sucesso diferentes.

Como melhorar a skill create-skill-test

Forneça entradas mais específicas

Os melhores resultados de create-skill-test vêm de cenários específicos, não de intenções amplas. “Testar que a skill lida com contexto ausente e retorna um fallback seguro” é mais forte do que “criar um eval abrangente”, porque deixa claro qual comportamento importa e o que não deve ser supervalorizado.

Peça qualidade de rubric, não só YAML

Se você pedir apenas a estrutura, pode acabar com um arquivo tecnicamente válido, mas ainda sujeito a overfitting. Diga o que deve contar como sucesso, o que deve falhar e quais detalhes são apenas acessórios. Esse é o jeito mais rápido de melhorar os resultados de create-skill-test for Skill Testing.

Verifique overfitting depois da geração

Revise se as assertions recompensam uma formulação única, uma ordem fixa ou uma string de exemplo exata, a menos que essa especificidade seja realmente necessária. Bons evals medem o comportamento que a skill deve preservar, e não a redação exata produzida em uma única execução.

Refine com base no feedback do validator

Se a primeira saída falhar na validação, devolva o erro exato junto com o fragmento de YAML ao redor. Isso normalmente gera uma segunda tentativa melhor do que simplesmente reformular o pedido inteiro.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

skill-creator

por anthropics

skill-creator é uma meta-skill de criação de Skills para rascunhar novas skills, revisar arquivos SKILL.md, rodar evals, comparar variantes e melhorar descrições de trigger com scripts e ferramentas de revisão do repositório.

Skill Authoring

Favoritos 2GitHub 105.1k

cpp-testing

por affaan-m

A skill cpp-testing ajuda você a escrever, executar e depurar testes em C++ com GoogleTest, GoogleMock, CMake e CTest. Use-a para cobertura, correção de testes instáveis, diagnósticos com sanitizers e uso prático de cpp-testing em projetos modernos de C++.

Test Automation

Favoritos 0GitHub 156.1k

test-driven-development

por addyosmani

A skill test-driven-development ajuda você a modificar código escrevendo primeiro um teste que falha e, depois, fazendo a menor correção possível para passar. Use em mudanças de lógica, correção de bugs, regressões e casos de borda em que a prova vale mais do que um conserto apenas plausível.

Skill Testing

Favoritos 0GitHub 18.8k

skill-optimizer

por mcollina

O skill-optimizer ajuda autores a melhorar skills de IA em ativação, clareza e confiabilidade entre modelos. Use em Skill Authoring quando uma skill está escrita, mas não é seguida de forma confiável; quando os gatilhos são fracos, aparecem regressões ou é preciso reduzir o custo de contexto. Ele dá suporte a ciclos de benchmark, gates de release e maior fidelidade de uso.

Skill Authoring

Favoritos 0GitHub 1.8k

property-based-testing

por trailofbits

Guia da skill property-based-testing para escrever, revisar e melhorar PBT em diferentes linguagens e smart contracts. Use este guia de property-based-testing para identificar casos de roundtrip, idempotência, invariantes, parser, validador e normalização, escolher geradores e decidir quando property-based-testing é mais forte do que testes baseados em exemplos.

Skill Testing

Favoritos 0GitHub 5k

writing-skills

por obra

writing-skills é um guia de Skill Authoring para criar, editar e validar skills de agentes com um fluxo orientado por testes. Entenda os arquivos principais, os pré-requisitos e as etapas práticas para cenários de pressão, testes de linha de base e iteração concisa de `SKILL.md`.

Skill Authoring

Favoritos 0GitHub 121.9k

verification-loop

por affaan-m

verification-loop é um fluxo de verificação para Claude Code que ajuda a checar build, tipos, lint, testes, segurança e diffs após mudanças no código. Este skill de verification-loop é útil antes de PRs e depois de refatorações, quando você quer um guia estruturado de pós-mudança em vez de um prompt genérico.

Verification

Favoritos 0GitHub 156.3k

perl-testing

por affaan-m

perl-testing é um guia prático para escrever, executar e aprimorar testes em Perl com Test2::V0, Test::More, prove, mocking, coverage e TDD. Use a skill perl-testing para orientação de instalação, padrões de uso, ajuda na migração e depuração mais rápida de suítes com falha.

Skill Testing

Favoritos 0GitHub 156.2k

kotlin-testing

por affaan-m

kotlin-testing é um guia prático para automação de testes em Kotlin com Kotest, MockK, testes de corrotinas, testes baseados em propriedades e cobertura com Kover. Use esta skill de kotlin-testing para seguir um fluxo de trabalho amigável ao TDD, escrever testes unitários e de componente mais claros e reduzir a incerteza ao simular dependências ou testar código suspenso.

Test Automation

Favoritos 0GitHub 156.2k

eval-harness

por affaan-m

A skill eval-harness é um framework formal de avaliação para sessões do Claude Code e desenvolvimento orientado por avaliação. Ela ajuda você a definir critérios de aprovação e reprovação, criar avaliações de capacidade e regressão e medir a confiabilidade do agente antes de publicar mudanças em prompts ou fluxos de trabalho.

Model Evaluation

Favoritos 0GitHub 156.1k

context-budget

por affaan-m

A skill context-budget audita o uso de contexto no Claude Code em agentes, skills, regras e servidores MCP. Ela ajuda a identificar excesso, conteúdo duplicado e componentes de alto custo, e depois retorna ações de limpeza priorizadas. Use este guia de context-budget para entender o uso prático da skill e aplicar Skill Testing em ambientes maiores.

Skill Testing

Favoritos 0GitHub 156.1k

skill-judge

por softaworks

skill-judge é uma skill de revisão e pontuação para auditar pacotes de skills de IA e arquivos SKILL.md. Ela ajuda autores e mantenedores a avaliar delta de conhecimento, clareza de ativação, qualidade do workflow e prontidão para publicação, com orientações práticas de melhoria.

Skill Validation

Favoritos 0GitHub 1.3k

playwright-testing

por alinaqi

skill playwright-testing para escrever e depurar testes end-to-end com Playwright, com page objects, execuções em múltiplos navegadores, configuração amigável para CI, tratamento de autenticação e estrutura de testes estável.

Skill Testing

Favoritos 0GitHub 607

darwin-skill

por alchaincyf

darwin-skill ajuda a melhorar arquivos SKILL.md com um ciclo repetível: avaliar, revisar, testar e então manter ou reverter as mudanças. Criado para Skill Authoring, ele combina pontuação por rubric com validação baseada em prompts e oferece suporte a saídas visuais geradas a partir de templates e assets do repositório.

Skill Authoring

Favoritos 0GitHub 549

evaluation

por muratcankoylan

A skill de evaluation ajuda você a projetar e executar avaliações de agentes para sistemas não determinísticos. Use-a para planejar a instalação da avaliação, criar rubricas, fazer checagens de regressão, definir gates de qualidade e conduzir evaluation para Skill Testing. Ela se encaixa em fluxos LLM-as-judge, pontuação multidimensional e usos práticos de avaliação quando você precisa de resultados repetíveis.

Skill Testing

Favoritos 0GitHub 0

tutor

por RoundTable02

tutor é uma skill de estudo guiada por quizzes para usuários do Obsidian StudyVault que querem avaliações diagnósticas, revisão por conceito e acompanhamento de progresso. Ela detecta o idioma, encontra o vault, lê o dashboard e trabalha os pontos fracos em sessões estruturadas. Use tutor quando você precisar de checagens de estudo repetíveis, em vez de um tutor genérico de chat.

Skill Authoring

Favoritos 0GitHub 0