evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Stars0

Favoriten0

Kommentare0

Hinzugefügt14. Mai 2026

KategorieSkill Testing

Installationsbefehl

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

Kurationswert

Diese Skill erreicht 78/100 Punkte und ist damit ein solider Kandidat für den Verzeichniseintrag mit echtem Workflow-Nutzen für Nutzer, die Agent-Evaluierungen aufbauen oder messen. Das Repository liefert genug operative Details, um Agenten das Auslösen und Nutzen mit deutlich weniger Rätselraten als bei einem generischen Prompt zu ermöglichen. Bei der Installationsentscheidung sollten jedoch die experimentellen Signale und der fehlende Installationsbefehl mitbedacht werden.

78/100

Stärken

Klare Aktivierungsabsicht für Evaluation, Test-Frameworks, Quality Gates und Agent-Benchmarking, was das Triggern unkompliziert macht.
Umfangreicher Workflow-Inhalt: Die SKILL.md ist lang, klar strukturiert und wird durch ein Referenzdokument sowie ein Python-Evaluator-Skript unterstützt, was die operative Klarheit und den Nutzen für Agenten erhöht.
Mehrdimensionale Evaluierungsanleitung und konkrete Metrikdefinitionen helfen Agenten, einen echten Evaluation-Workflow auszuführen, statt eine Rubrik von Grund auf zu improvisieren.

Hinweise

Das Repository ist mit experimentellen/Test-Signalen versehen, daher sollten Nutzer es eher als praktikablen Prototyp denn als vollständig ausgereiftes Produktionspaket betrachten.
In SKILL.md wird kein Installationsbefehl angegeben, was die Nutzung für Verzeichnisanwender, die sofortige Einrichtungsanweisungen erwarten, etwas weniger reibungslos macht.

Evaluation Agents Context Engineering Testing Workflow Quality Management Verification

Überblick

Überblick über die Evaluation-Skill

Was die Evaluation-Skill macht

Die evaluation-Skill hilft dir dabei, Evaluierungen für Agentensysteme zu entwerfen und durchzuführen, besonders dann, wenn die Ausgaben nicht deterministisch sind und es keine einzelne „richtige“ Antwort gibt. Sie eignet sich vor allem für alle, die die Performance von Agenten messen, Konfigurationen vergleichen oder Quality Gates für eine Pipeline aufbauen wollen, statt nur einen einmaligen Prompt zu schreiben.

Für wen sie geeignet ist

Nutze diese Evaluation-Skill, wenn du Änderungen an Context Engineering testest, Agentenverhalten über Zeit bewertest oder entscheiden willst, ob ein Agent produktionsreif ist. Sie passt besonders gut zu LLM-as-judge-Workflows, Rubrik-basierten Bewertungen, Regression Checks und Agent-Tests, bei denen die Ergebnisqualität wichtiger ist als die exakte schrittweise Ausführung.

Was sie unterscheidet

Das Repo setzt auf mehrdimensionale Evaluation statt auf eine einzelne Gesamtpunktzahl. Genau das ist der richtige Ansatz für Agenten, die auf unterschiedliche Arten erfolgreich sein können. Außerdem legt es Wert auf praktische Umsetzungshilfe durch Referenzen und ein ausführbares Evaluator-Skript, sodass der Evaluation-Install nicht nur für die Planung, sondern auch für die Umsetzung nützlich ist.

So verwendest du die Evaluation-Skill

Installieren und aktivieren

Installiere mit:

npx skills add muratcankoylan/Agent-Skills-for-Context-Engineering --skill evaluation

Nutze sie dann, wenn es um Evaluation-Install-Planung, Bewertungsrubriken oder das Erstellen eines Evaluationsleitfadens für Agentensysteme geht. Die Skill funktioniert am besten, wenn du das zu testende System, die Erfolgskriterien und die Fehlerbilder, die dir wichtig sind, ausdrücklich beschreibst.

Gib der Skill die richtigen Eingaben

Eine schwache Anfrage wie „evaluiere diesen Agenten“ lässt zu viel offen. Ein stärkerer Prompt nennt das Agentensystem, das Zielergebnis, die Constraints und die Bewertungsanforderungen: „Entwirf eine Evaluation für einen Support-Agenten, der ausschließlich aus Produktdokumentation antworten darf, Halluzinationen vermeiden muss und nach faktischer Richtigkeit, Vollständigkeit, Zitiergenauigkeit und Tool-Effizienz bewertet werden soll.“ Dieses Maß an Detail ermöglicht es der Evaluation-Skill, brauchbare Rubriken statt generischer Ratschläge zu erzeugen.

Lies zuerst diese Repo-Dateien

Beginne mit SKILL.md für den Workflow und die Aktivierungsregeln, lies dann references/metrics.md für die Definitionen der Scores und scripts/evaluator.py für Umsetzungsmuster. Wenn du die Skill auf deinen eigenen Stack anpasst, prüfe diese drei Dateien zuerst, bevor du nach anderem suchst, weil sie zeigen, wie die Evaluationslogik gedacht ist.

So setzt du sie in einem echten Workflow ein

Ein praxistauglicher Ablauf für die Nutzung der Evaluation-Skill ist: Aufgabe definieren, Dimensionen wählen, Gewichte vergeben, Testfälle bauen, den Scorer ausführen und anschließend Fehler auf Muster-Ebene prüfen. Nutze die Skill, um deine Rubrik zu erstellen oder zu verfeinern, nicht nur, um Ergebnisse im Nachhinein zu bewerten. Dadurch wird sie nützlicher für Regression Testing, Modellvergleiche und Evaluation für Skill Testing.

FAQ zur Evaluation-Skill

Ist die Evaluation-Skill nur für Benchmarks gedacht?

Nein. Sie ist auch nützlich für alltägliche Quality Gates, Regression Testing und dafür, Prompts oder Agentenrichtlinien nach einem Fehlversuch zu verbessern. Wenn du wiederholbare Bewertungskriterien für Agentenausgaben brauchst, ist die Evaluation-Skill auch ohne formale Benchmark-Suite relevant.

Wann sollte ich sie nicht verwenden?

Lass sie weg, wenn du nur eine einfache subjektive Einschätzung oder eine schnelle Prompt-Anpassung brauchst. Die Evaluation-Skill ist vor allem dann wertvoll, wenn die Ausgabequalität wichtig genug ist, um Rubriken, Testsets und wiederholbares Scoring zu rechtfertigen.

Ist sie anfängerfreundlich?

Ja, sofern du bereits weißt, was der Agent tun soll. Die größte Lernkurve liegt nicht in der Syntax, sondern darin, gute Evaluationsdimensionen zu definieren und sich nicht zu sehr auf eine einzige Punktzahl zu verlassen.

Wie unterscheidet sie sich von einem normalen Prompt?

Ein normaler Prompt bittet um eine Meinung. Die Evaluation-Skill ist ein Workflow, der diese Meinung in eine strukturierte, wiederholbare Bewertung mit Dimensionen, Gewichten und Testfällen überführt. Dieser Unterschied ist wichtig, wenn du Konsistenz über mehrere Läufe oder Reviewer hinweg brauchst.

So verbesserst du die Evaluation-Skill

Beginne mit präziseren Erfolgskriterien

Die besten Ergebnisse entstehen aus explizitem Zielverhalten, nicht aus vagen Zielen. Statt „Qualität messen“ solltest du genau festlegen, was Qualität bedeutet: korrekte Fakten, vollständige Abdeckung, Quellen-Treue, Latenz, Verweigerungsverhalten oder Tool-Nutzung. Je konkreter deine Kriterien sind, desto besser kann die Evaluation-Skill echte Verbesserungen von Zufallstreffern trennen.

Verwende Dimensionen, die zu deinem Risiko passen

Der Standardfokus des Repos auf faktische Richtigkeit, Vollständigkeit, Zitiergenauigkeit und Quellenqualität ist ein guter Ausgangspunkt, aber deine Evaluation sollte die tatsächlichen Kosten von Fehlern widerspiegeln. Bei einem kundenorientierten Agenten können Halluzinationen wichtiger sein als Stil; bei einem Recherche-Agenten kann Quellenqualität höher gewichtet werden als Kürze. Passe die Rubrik an, statt eine generische Punktzahl einfach zu übernehmen.

Iteriere anhand von Fehlern, nicht nur anhand von Durchschnittswerten

Nach dem ersten Durchlauf solltest du die Fälle mit niedriger Punktzahl prüfen und nach wiederkehrenden Ursachen suchen: fehlender Kontext, schwaches Retrieval, schlechte Tool-Auswahl oder selbstsichere, aber falsche Antworten. Nutze diese Muster, um deinen Testdatensatz und deine Prompt-Eingaben zu überarbeiten. Das ist der schnellste Weg, die Nutzung der Evaluation-Skill zu verbessern und den Nutzen der Skill über die Zeit zu steigern.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

skill-creator

von anthropics

skill-creator ist eine Meta-Skill zur Skill-Erstellung: neue Skills entwerfen, bestehende `SKILL.md` überarbeiten, Evals ausführen, Varianten vergleichen und Trigger-Beschreibungen mit Repo-Skripten und Review-Tools verbessern.

Skill Authoring

Favoriten 2GitHub 105.1k

cpp-testing

von affaan-m

Das cpp-testing Skill hilft dir dabei, C++-Tests mit GoogleTest, GoogleMock, CMake und CTest zu schreiben, auszuführen und zu debuggen. Nutze es für Coverage, das Beheben instabiler Tests, Diagnosen mit Sanitizern und die praxisnahe Anwendung von cpp-testing in modernen C++-Projekten.

Test Automation

Favoriten 0GitHub 156.1k

test-driven-development

von addyosmani

Das test-driven-development-Skill hilft dir, Code zu ändern, indem du zuerst einen fehlschlagenden Test schreibst und dann nur die kleinste nötige Korrektur vornimmst, damit er besteht. Nutze es für Logikänderungen, Bugfixes, Regressionen und Grenzfälle, bei denen ein belastbarer Nachweis wichtiger ist als ein plausibler Patch.

Skill Testing

Favoriten 0GitHub 18.8k

skill-optimizer

von mcollina

skill-optimizer hilft Autoren dabei, AI Skills für Aktivierung, Klarheit und modellübergreifende Zuverlässigkeit zu verbessern. Nutzen Sie es für Skill Authoring, wenn ein Skill zwar geschrieben, aber nicht zuverlässig befolgt wird, wenn Trigger schwach sind, Regressionen auftreten oder der Kontextverbrauch reduziert werden muss. Es unterstützt Benchmark-Zyklen, Release-Gates und eine präzisere Nutzungstreue.

Skill Authoring

Favoriten 0GitHub 1.8k

property-based-testing

von trailofbits

Property-Based-Testing Skill-Guide zum Schreiben, Prüfen und Verbessern von PBT über Sprachen und Smart Contracts hinweg. Nutzen Sie diesen Property-Based-Testing-Guide, um Roundtrip-, Idempotenz-, Invarianten-, Parser-, Validator- und Normalisierungsfälle zu erkennen, Generatoren auszuwählen und zu entscheiden, wann Property-Based-Testing stärker ist als beispielbasierte Tests.

Skill Testing

Favoriten 0GitHub 5k

writing-skills

von obra

writing-skills ist ein Leitfaden für Skill Authoring, mit dem du Agent-Skills in einem testgetriebenen Workflow erstellen, überarbeiten und validieren kannst. Du lernst die wichtigsten Dateien, Voraussetzungen und praktischen Schritte für Druckszenarien, Baseline-Tests und prägnante Iterationen an `SKILL.md` kennen.

Skill Authoring

Favoriten 0GitHub 121.9k

verification-loop

von affaan-m

verification-loop ist ein Claude Code-Verifizierungsworkflow zum Prüfen von Builds, Typen, Linting, Tests, Sicherheit und Diffs nach Codeänderungen. Diese verification-loop-Skill ist vor PRs und nach Refactorings hilfreich, wenn Sie statt einer generischen Eingabeaufforderung eine strukturierte Anleitung für die Prüfung nach Änderungen möchten.

Verification

Favoriten 0GitHub 156.3k

perl-testing

von affaan-m

perl-testing ist ein praxisnaher Leitfaden zum Schreiben, Ausführen und Verbessern von Perl-Tests mit Test2::V0, Test::More, prove, Mocking, Coverage und TDD. Nutzen Sie den perl-testing Skill für Installationshinweise, typische Nutzungsmuster, Migrationshilfe und schnelleres Debugging fehlschlagender Test-Suites.

Skill Testing

Favoriten 0GitHub 156.2k

kotlin-testing

von affaan-m

kotlin-testing ist ein praxisnaher Leitfaden für Kotlin-Testautomatisierung mit Kotest, MockK, Coroutine-Tests, property-basierten Tests und Kover-Coverage. Nutze diesen kotlin-testing Skill, um einem TDD-freundlichen Workflow zu folgen, klarere Unit- und Komponententests zu schreiben und beim Mocking von Abhängigkeiten oder beim Testen von suspendierenden Code weniger zu raten.

Test Automation

Favoriten 0GitHub 156.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

context-budget

von affaan-m

Der context-budget Skill prüft die Claude-Code-Kontextnutzung über Agents, Skills, Regeln und MCP-Server hinweg. Er hilft dabei, Aufblähungen, doppelte Inhalte und besonders teure Komponenten zu erkennen und liefert anschließend priorisierte Maßnahmen zur Bereinigung. Nutze diesen context-budget Leitfaden für die praktische Verwendung von context-budget und für Skill-Tests in größeren Setups.

Skill Testing

Favoriten 0GitHub 156.1k

skill-judge

von softaworks

skill-judge ist ein Skill zum Reviewen und Bewerten von AI-Skill-Paketen und SKILL.md-Dateien. Es hilft Autorinnen, Autoren und Maintainers dabei, Wissenszuwachs, Aktivierungsklarheit, Workflow-Qualität und Veröffentlichungsreife zu beurteilen – inklusive konkreter Hinweise zur Verbesserung.

Skill Validation

Favoriten 0GitHub 1.3k

playwright-testing

von alinaqi

playwright-testing-Skill zum Schreiben und Debuggen von Playwright-End-to-End-Tests mit Page Objects, Browser-übergreifenden Läufen, CI-tauglichem Setup, Authentifizierungsbehandlung und stabiler Teststruktur.

Skill Testing

Favoriten 0GitHub 607

darwin-skill

von alchaincyf

darwin-skill hilft dabei, SKILL.md-Dateien mit einem wiederholbaren Ablauf zu verbessern: bewerten, überarbeiten, testen und Änderungen anschließend beibehalten oder zurücknehmen. Entwickelt für Skill Authoring, kombiniert es Rubric-Scoring mit promptbasierter Validierung und unterstützt visuelle Ergebnis-Outputs aus Repo-Templates und Assets.

Skill Authoring

Favoriten 0GitHub 549

tutor

von RoundTable02

tutor ist eine quizbasierte Lern-Skill für Obsidian-StudyVault-Nutzer, die diagnostische Einschätzungen, Wiederholung auf Konzelebene und Fortschritts-Tracking brauchen. Sie erkennt die Sprache, findet den Vault, liest das Dashboard und trainiert Schwachstellen in strukturierten Sitzungen. Verwende tutor, wenn du wiederholbare Lernchecks statt eines allgemeinen Chat-Tutors brauchst.

Skill Authoring

Favoriten 0GitHub 0

skill-authoring-workflow

von deanpeters

skill-authoring-workflow hilft dir dabei, grobe Notizen, Workshop-Ergebnisse oder Entwurfsprompts in ein konformes, repo-fertiges `skills/<skill-name>/SKILL.md` zu überführen. Nutze diese skill-authoring-workflow Skill, um PM-Skills mit weniger Rätselraten zu erstellen oder zu aktualisieren, Repo-Standards einzuhalten und vor dem Commit zu validieren.

Skill Authoring

Favoriten 0GitHub 0