eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Stars156.1k

Favoriten0

Kommentare0

Hinzugefügt15. Apr. 2026

KategorieModel Evaluation

Installationsbefehl

npx skills add affaan-m/everything-claude-code --skill eval-harness

Kurationswert

Dieses Skill erreicht 78/100 und ist damit ein solider Kandidat für das Verzeichnis mit echtem Workflow-Nutzen für Agents, die eval-getriebene Entwicklung betreiben. Nutzer sollten es schnell auslösen und seinen Zweck verstehen können, müssen aber eher mit einem dokumentationslastigen Skill rechnen als mit einem Paket aus Hilfsskripten oder mitgelieferten Referenzen.

78/100

Stärken

Klare Aktivierungsfälle für EDD-Setup, Pass/Fail-Kriterien, Regression-Evals und Benchmarking
Umfangreiche operative Inhalte mit strukturierten Eval- und Grader-Vorlagen sowie mehreren Workflow-Abschnitten
Gute Triggerbarkeit durch das Frontmatter und die explizite Anleitung unter 'When to Activate', wodurch sich die Installationsabsicht leicht einschätzen lässt

Hinweise

Kein Installationsbefehl, keine Skripte und keine Support-Dateien, daher hängt die Nutzung davon ab, die Markdown-Anleitung manuell zu lesen und umzusetzen
Keine mitgelieferten Referenzen, Ressourcen oder Tests, was die Vertrauenssignale für Nutzer einschränkt, die ein schlüsselfertiges Evaluation-Harness erwarten

Claude Code Evaluation Testing Regression Testing Pr Github Code

Überblick

Überblick über den `eval-harness` Skill

Was `eval-harness` macht

Der eval-harness Skill ist ein formales Bewertungsframework für Claude Code-Sitzungen und eval-getriebene Entwicklung. Er hilft dabei, schon vor dem Release festzulegen, wie „gut“ aussehen soll, und dann zu messen, ob ein Agent, ein Prompt oder ein Workflow diesen Anspruch tatsächlich erfüllt.

Wer ihn verwenden sollte

Nutze den eval-harness Skill, wenn du wiederholbare Prüfungen für KI-gestütztes Coden, Prompt-Änderungen oder Agentenverhalten brauchst. Besonders nützlich ist er für Teams, die Modellversionen vergleichen, Regressionen nachverfolgen oder vage Aufgabendefinitionen in klare Bestehen/Nichtbestehen-Kriterien übersetzen wollen.

Warum er wichtig ist

Der zentrale Nutzen von eval-harness for Model Evaluation ist Zuverlässigkeit: Statt Ergebnisse nach Gefühl zu bewerten, schreibst du Evals, die sichtbar machen, wenn sich Verhalten verändert. So lassen sich Agentenleistungen leichter debuggen, Durchläufe vergleichen und Prompt-Updates vermeiden, die unbemerkt Qualität verschlechtern.

Wann er gut passt

Am besten passt er, wenn sich die Aufgabe in beobachtbare Erfolgskriterien, eine klare Ausgabestruktur oder überprüfbare Meilensteine übersetzen lässt. Für offen kreative Arbeit ist er weniger hilfreich, außer du kannst trotzdem messbare Akzeptanzbedingungen definieren.

So nutzt du den `eval-harness` Skill

Installieren und aktivieren

Für eval-harness install nutzt du den Skill-Installationsablauf aus dem Repo in deiner Claude-Code-Umgebung und öffnest dann direkt die Skill-Datei. Der Skill liegt unter skills/eval-harness/SKILL.md, und das ist die erste Datei, die du lesen solltest, weil dort definiert ist, wann das Framework aktiviert wird und wie Evals aufgebaut werden.

Einen Prompt bauen, den der Skill bewerten kann

Für eine starke eval-harness usage solltest du nicht mit „Teste meinen Agenten“ starten. Beginne stattdessen mit einem konkreten Ziel, zum Beispiel: Welche Aufgabe der Agent erledigen muss, was als Erfolg gilt, wie ein Fehler aussieht und ob du eine Fähigkeit oder eine Regression prüfst. Ein besseres Beispiel wäre: „Prüfe, ob der Agent ein React-Formular aktualisieren kann, ohne die Validierung zu brechen, und verlange drei explizite Erfolgskriterien.“ Damit hat das Harness etwas Messbares.

Erst die richtigen Dateien lesen

Wenn du den eval-harness guide-Ansatz in deinen eigenen Workflow übernimmst, lies zuerst SKILL.md und prüfe dann alle Repository-Hinweise zu Evaluationsstil, Bewertungslogik oder Ausgabe-Konventionen. In diesem Repo gibt es keine Hilfsskripte oder zusätzlichen Support-Ordner, daher ist die Skill-Datei selbst die maßgebliche Quelle.

Praktisch im Workflow einsetzen

Ein guter Workflow ist: Verhalten definieren, ein Eval für den Happy Path schreiben, ein Regressionseval für einen bekannten Fehler ergänzen und dann das Harness ausführen, um die Kriterien nachzuschärfen. So bleiben Evals klein genug zum Debuggen und das Risiko sinkt, Tests zu schreiben, die so breit sind, dass sie kaum noch interpretierbar sind.

FAQ zum `eval-harness` Skill

Ist `eval-harness` nur für Claude Code?

Nein. Der Skill ist zwar auf Claude-Code-Sitzungen zugeschnitten, aber die zugrunde liegende Methode ist überall nützlich, wo du Agenten strukturiert bewerten willst. Wenn dein Stack andere Tools verwendet, kannst du das Eval-Format und die Bewertungslogik trotzdem anpassen.

Ist `eval-harness` dasselbe wie ein normaler Prompt?

Nein. Ein normaler Prompt fragt nach einer Antwort; eval-harness fragt nach einer wiederholbaren Methode, Antworten zu bewerten. Dieser Unterschied ist wichtig, wenn du Konsistenz über mehrere Versionen brauchst und nicht nur eine einzelne gute Antwort.

Ist es anfängerfreundlich?

Ja, wenn du eine Aufgabe klar beschreiben kannst. Der schwierigere Teil ist nicht die Syntax, sondern das Schreiben guter Erfolgskriterien. Einsteiger kommen meist gut zurecht, wenn sie mit einem einfachen Capability-Eval starten, statt gleich einen ganzen Workflow auf einmal zu modellieren.

Wann sollte ich es nicht verwenden?

Lass eval-harness weg, wenn die Arbeit stark subjektiv ist, wenn sich die Ausgabe nicht konsistent prüfen lässt oder wenn du nur eine einmalige Antwort brauchst. Am stärksten ist es, wenn Zuverlässigkeit, Regressionstracking oder Modellvergleich das eigentliche Ziel sind.

So verbesserst du den `eval-harness` Skill

Kriterien beobachtbar machen

Der größte Qualitätsgewinn entsteht, wenn du Meinungen in überprüfbare Checks übersetzt. Ersetze „mach es besser“ durch Bedingungen wie „bestehende API-Struktur beibehalten“, „gültiges JSON zurückgeben“ oder „alle drei Regression Cases bestehen“. Je beobachtbarer die Kriterien sind, desto leichter lässt sich eval-harness ausführen und vertrauen.

Fähigkeit und Regression trennen

Wenn du Prüfungen für neue Features mit Checks für altes Verhalten vermischst, werden Fehler schwer zu interpretieren. Halte Capability-Evals darauf fokussiert, ob Claude etwas Neues kann, und Regression-Evals darauf, ob eine bekannte Basis weiterhin stimmt.

Dem Harness echte Grenzfälle geben

Stärkere Evals enthalten Fehlerszenarien und nicht nur Happy Paths. Ergänze schwierige Eingaben, unvollständigen Kontext oder mehrdeutige Anweisungen, damit der eval-harness skill zeigt, ob der Agent robust ist oder nur bei sauberen Beispielen zufällig gut abschneidet.

Nach dem ersten Lauf iterieren

Behandle den ersten Durchlauf als Kalibrierung, nicht als Beweis. Wenn das Ergebnis unklar ist, ziehe die Erfolgskriterien enger, füge eine Baseline hinzu oder teile ein breites Eval in kleinere Prüfungen auf. Das ist meist der schnellste Weg, eval-harness usage zu verbessern und Ergebnisse zu bekommen, mit denen du tatsächlich weiterarbeiten kannst.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

evaluation-methodology

von wshobson

Die evaluation-methodology Skill erklärt das PluginEval-Scoring für Model Evaluation, einschließlich Ebenen, Rubriken, zusammengesetzter Bewertung, Badge-Schwellen und praxisnaher Hinweise zur Interpretation von Ergebnissen und zur Verbesserung schwacher Dimensionen.

Model Evaluation

Favoriten 0GitHub 32.6k

healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation

Favoriten 0GitHub 156.2k

agent-eval

von affaan-m

agent-eval ist eine Skill zur direkten Bewertung von Coding-Agents anhand reproduzierbarer Aufgaben. Verglichen werden Erfolgsquote, Kosten, Zeit und Konsistenz. Mit der agent-eval Skill können Sie Claude Code, Aider, Codex oder einen anderen Agent in Ihrem eigenen Repo mit deutlich belastbareren Ergebnissen als bei ad hoc Prompts evaluieren.

Model Evaluation

Favoriten 0GitHub 156k

huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation

Favoriten 0GitHub 10.4k

huggingface-best

von huggingface

Die huggingface-best Skill hilft dir, das beste Modell für eine Aufgabe zu finden, indem sie Hugging Face-Benchmark-Leaderboards prüft und nach Gerätegrenzen sowie Modellgröße filtert. Nutze sie für Modell-Empfehlungen in Coding, Reasoning, Chat, OCR, RAG, Speech, Vision oder multimodalen Workflows, wenn du eine praktische Shortlist statt einer allgemeinen Modellliste brauchst.

Model Evaluation

Favoriten 0GitHub 10.4k

libafl

von trailofbits

Die libafl-Skill hilft Ihnen dabei, modulare Fuzzer mit LibAFL für eigene Targets, Mutationsstrategien und Security-Audit-Workflows zu planen und aufzubauen. Nutzen Sie diesen libafl-Leitfaden, um von den Target-Details zu einem praktikablen Harness, Feedback-Modell und Run-Plan zu kommen – mit weniger Annahmen.

Security Audit

Favoriten 0GitHub 5k

evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Skill Testing

Favoriten 0GitHub 0

judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems

Favoriten 0GitHub 982

gws-modelarmor

von googleworkspace

gws-modelarmor hilft dir, mit Google Model Armor im googleworkspace/cli-Ökosystem zu arbeiten. Damit kannst du Prompts bereinigen, Modellantworten bereinigen und Templates mit weniger Rätselraten als bei einem generischen Prompt erstellen. Die Skill ist auf wiederholbare, richtlinienbewusste Nutzung und Security-Audit-Workflows ausgelegt.

Security Audit

Favoriten 0GitHub 25.5k

analyzing-campaign-attribution-evidence

von mukul975

analyzing-campaign-attribution-evidence hilft Analysten dabei, Infrastruktur-Überschneidungen, ATT&CK-Konsistenz, Malware-Ähnlichkeiten, Zeitbezug und sprachliche Artefakte abzuwägen, um belastbare Kampagnenzuschreibungen vorzunehmen. Nutzen Sie diesen analyzing-campaign-attribution-evidence-Leitfaden für CTI, Incident-Analysen und Security-Audit-Reviews.

Security Audit

Favoriten 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

von mukul975

detecting-ai-model-prompt-injection-attacks ist eine Cybersecurity-Skill zum Prüfen untrusted Texts, bevor er ein LLM erreicht. Sie nutzt gestaffelte Regex-Prüfungen, heuristische Bewertung und DeBERTa-basierte Klassifikation, um direkte und indirekte Prompt-Injection-Angriffe zu erkennen. Nützlich für die Eingabevalidierung von Chatbots, die Dokumentenaufnahme und Threat Modeling.

Threat Modeling

Favoriten 0GitHub 0

llm-evaluation

von wshobson

Mit dem Skill llm-evaluation erstellen Sie wiederholbare Evaluationspläne für LLM-Apps, Prompts, RAG-Systeme und Modelländerungen – mit Metriken, menschlicher Bewertung, Benchmarking und Regressionsprüfungen.

Model Evaluation

Favoriten 0GitHub 32.6k

ai-prompt-engineering-safety-review

von github

ai-prompt-engineering-safety-review ist eine Skill zur Prompt-Prüfung, mit der LLM-Prompts vor dem Produktiveinsatz, vor Evaluationen oder vor kundennahen Anwendungen auf Sicherheit, Bias, Sicherheitslücken und Ausgabequalität überprüft werden.

Model Evaluation

Favoriten 0GitHub 27.8k

agentic-eval

von github

agentic-eval ist eine GitHub Copilot Skill, die zeigt, wie sich Evaluierungsschleifen für KI-Ausgaben mit Reflection, rubric-basierter Bewertung und Evaluator-Optimizer-Mustern aufbauen lassen.

Model Evaluation

Favoriten 0GitHub 27.8k

ml-pipeline-workflow

von wshobson

ml-pipeline-workflow ist ein praxisnaher Leitfaden für die Konzeption durchgängiger MLOps-Pipelines für Datenaufbereitung, Training, Validierung, Deployment und Monitoring – inklusive Orchestrierungsmustern für wiederholbare Workflow-Automatisierung.

Workflow Automation

Favoriten 0GitHub 0

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k

eval-harness

Überblick über den eval-harness Skill

Was eval-harness macht

Wer ihn verwenden sollte

Warum er wichtig ist

Wann er gut passt

So nutzt du den eval-harness Skill

Installieren und aktivieren

Einen Prompt bauen, den der Skill bewerten kann

Erst die richtigen Dateien lesen

Praktisch im Workflow einsetzen

FAQ zum eval-harness Skill

Ist eval-harness nur für Claude Code?

Ist eval-harness dasselbe wie ein normaler Prompt?

Ist es anfängerfreundlich?

Wann sollte ich es nicht verwenden?

So verbesserst du den eval-harness Skill

Kriterien beobachtbar machen

Fähigkeit und Regression trennen

Dem Harness echte Grenzfälle geben

Nach dem ersten Lauf iterieren

Bewertungen & Rezensionen

Überblick über den `eval-harness` Skill

Was `eval-harness` macht

So nutzt du den `eval-harness` Skill

FAQ zum `eval-harness` Skill

Ist `eval-harness` nur für Claude Code?

Ist `eval-harness` dasselbe wie ein normaler Prompt?

So verbesserst du den `eval-harness` Skill