agent-eval

von affaan-m

agent-eval ist eine Skill zur direkten Bewertung von Coding-Agents anhand reproduzierbarer Aufgaben. Verglichen werden Erfolgsquote, Kosten, Zeit und Konsistenz. Mit der agent-eval Skill können Sie Claude Code, Aider, Codex oder einen anderen Agent in Ihrem eigenen Repo mit deutlich belastbareren Ergebnissen als bei ad hoc Prompts evaluieren.

Stars156k

Favoriten0

Kommentare0

Hinzugefügt15. Apr. 2026

KategorieModel Evaluation

Installationsbefehl

npx skills add affaan-m/everything-claude-code --skill agent-eval

Kurationswert

Diese Skill erhält 78/100 und ist damit ein überzeugender Kandidat für Verzeichnisnutzer, die Coding-Agents reproduzierbar vergleichen möchten. Das Repository liefert genug operative Details, um Einsatzfälle und Funktionsweise nachvollziehen zu können. Vor der Installation sollten Nutzer die Quelle aber dennoch prüfen, da weder unterstützende Skripte noch Referenzdateien vorhanden sind.

78/100

Stärken

Klare Einsatzszenarien für Agentenvergleiche, Regressionstests und Entscheidungen zur Einführung von Modellen oder Tools.
Konkrete Workflow-Bausteine: YAML-Aufgabendefinitionen, Judge-Checks und Isolierung über git worktree für reproduzierbare Vergleiche.
Hoher Mehrwert für Installationsentscheidungen bei Teams, die bei der Agentenauswahl auf belastbare Daten statt auf ad hoc Vergleiche setzen.

Hinweise

Es gibt keinen Installationsbefehl sowie keine Skripte oder Support-Dateien; die Einführung setzt daher weiterhin voraus, die zentrale Skill-Datei zu lesen.
Das Repository scheint auf einen einzelnen schlanken CLI-Workflow ausgerichtet zu sein; wer eine breiter aufgestellte Evaluierungsinfrastruktur braucht, sollte nach mehr Tooling suchen.

Claude Code Codex Aider Git Cli Testing Workflow

Überblick

Überblick über den agent-eval Skill

agent-eval ist ein Skill, mit dem sich Coding-Agenten direkt auf derselben Aufgabe gegeneinander benchmarken und anschließend nach Erfolgsquote, Kosten, Zeit und Konsistenz vergleichen lassen. Wenn Sie entscheiden müssen, ob Sie Claude Code, Aider, Codex oder einen anderen Agenten in einem echten Repository einsetzen wollen, hilft der agent-eval Skill dabei, von Meinungen zu belastbarer, reproduzierbarer Evidenz zu kommen.

Am besten eignet er sich für Teams und Power-User, die einen fairen Vergleich brauchen – nicht für einen allgemeinen „einfach mal prompten und schauen“-Test. Die eigentliche Aufgabe besteht darin, eine Aufgabe einmal sauber zu definieren, mehrere Agenten auf derselben Basis laufen zu lassen und dann zu beurteilen, welcher unter Ihren Vorgaben am besten abschneidet.

Was den agent-eval Skill nützlich macht

Der zentrale Mehrwert von agent-eval ist der kontrollierte Vergleich: gleiches Repo, gleiche Aufgabe, gleiche Erfolgskriterien, getrennte Worktrees. Dadurch sind die Ergebnisse deutlich vertrauenswürdiger als bei ad hoc durchgeführten Versuchen oder einmaligen Prompts.

Wann der Skill gut passt

Setzen Sie den agent-eval Skill ein, wenn Sie:

Agenten vergleichen möchten, bevor Sie einen Workflow standardisieren
prüfen wollen, ob ein Modell-Update die Ergebnisse verändert hat
die Leistung auf Ihrer eigenen Codebasis und unter Ihren eigenen Regeln testen möchten
Entscheidungsgrundlagen für ein Team oder eine Beschaffungsentscheidung sammeln müssen

Wann er eher nicht passt

Wenn Sie nur eine einzelne Coding-Antwort benötigen, ist ein normaler Prompt einfacher. agent-eval ist vor allem dann wertvoll, wenn Wiederholbarkeit, klare Bewertungskriterien und die Abwägung zwischen Geschwindigkeit, Qualität und Kosten für Sie wichtig sind.

So verwenden Sie den agent-eval Skill

Skill installieren und zuerst prüfen

Für die agent-eval Installation fügen Sie den Skill aus dem Repo hinzu und lesen zuerst die zentrale Skill-Datei:
npx skills add affaan-m/everything-claude-code --skill agent-eval

Öffnen Sie danach SKILL.md sowie jeden verlinkten Kontext, den Sie in Ihrem Workflow verwenden. In diesem Repository ist die Skill-Datei selbst die Hauptquelle. Die Installationsentscheidung hängt daher stark davon ab, ob das dort beschriebene Aufgabenmodell zu Ihrem Evaluationsprozess passt.

Aus einem vagen Ziel eine brauchbare Aufgabe machen

agent-eval funktioniert in der Praxis am besten, wenn Sie eine konkrete Aufgabe, ein Ziel-Repo und objektive Prüfungen definieren. Ein schwacher Prompt wäre: „test which agent is better at refactoring.” Ein deutlich stärkerer Prompt ist:

Retry-Logik zu src/http_client.py hinzufügen
das Repo für Reproduzierbarkeit auf einen Commit pinnen
festlegen, welche Dateien geändert werden dürfen
Judge-Kommandos wie pytest oder grep definieren
maximale akzeptable Zeit oder Kosten nennen, falls das relevant ist

Je besser sich die Aufgabe automatisch verifizieren lässt, desto nützlicher wird der Vergleich.

Empfohlener Workflow mit agent-eval

Ein praxistauglicher agent-eval Ablauf sieht so aus:

Wählen Sie eine Aufgabe, die eine echte Entscheidung abbildet, die Sie treffen müssen.
Beschreiben Sie die Aufgabe in YAML mit Repo-Pfad, Dateien, Prompt und Judges.
Führen Sie mehrere Agenten auf derselben Aufgabe aus.
Vergleichen Sie Ausgabequalität, Laufzeit und Kosten.
Wiederholen Sie das Ganze mit einer weiteren Aufgabe, bevor Sie eine endgültige Entscheidung treffen.

Der Skill nutzt git worktree-Isolation. Das verhindert, dass Agenten sich gegenseitig Änderungen überschreiben, und macht die Auswertung nebeneinander deutlich sauberer.

Diese Dateien sollten Sie zuerst lesen

Starten Sie mit:

SKILL.md für Aufgabenformat und Workflow
allen Repo-lokalen Dateien, die Ihre Test- oder Bewertungsregeln festlegen
den Dateien, die in Ihrer YAML-Aufgabendefinition genannt sind

Wenn Sie agent-eval speziell für Model Evaluation prüfen, vergewissern Sie sich vor größeren Benchmarks, dass Ihre Aufgaben und Judges stabil genug sind, um wirklich vergleichbare Durchläufe zu erzeugen.

agent-eval Skill FAQ

Ist agent-eval nur für Benchmarks von Coding-Agenten gedacht?

Ja, in erster Linie. Der Skill ist für den direkten Vergleich von Coding-Agenten konzipiert, nicht für allgemeines Prompt-Testing oder breit angelegte LLM-Benchmarks.

Brauche ich Docker, um den agent-eval Skill zu nutzen?

Nein. Der Skill nutzt git worktree-Isolation, sodass Sie Läufe getrennt halten können, ohne den Overhead von Containern.

Ist der agent-eval Skill anfängerfreundlich?

Der Einstieg ist gut machbar, wenn Sie Aufgaben klar formulieren und einen Command-Line-Workflow ausführen können. Weniger geeignet ist er für Nutzer, die einen One-Click-Evaluator ohne Einrichtung erwarten.

Worin unterscheidet sich agent-eval von einem normalen Prompt?

Ein normaler Prompt fordert einen Agenten auf, eine Aufgabe zu lösen. Der agent-eval Skill lässt mehrere Agenten dieselbe Aufgabe mit festen Judges bearbeiten, damit Sie Ergebnisse mit weniger Verzerrung vergleichen können.

So verbessern Sie den agent-eval Skill

Mit agent-eval stärkere Aufgabendefinitionen verwenden

Die besten agent-eval Ergebnisse entstehen bei Aufgaben mit klaren Eingaben, klaren Änderungsgrenzen und objektiven Judges. Wenn Ihr Prompt zu offen formuliert ist, misst der Vergleich vor allem Interpretationsunterschiede statt tatsächlicher Agentenqualität.

Judges ergänzen, die echten Erfolg abbilden

Bevorzugen Sie Prüfungen, die widerspiegeln, wie Ihr Team Änderungen tatsächlich validiert: Tests, Lint, Datei-Diffs oder Pattern-Checks. Ist der Judge zu locker, können schwache Lösungen gut aussehen; ist er zu streng, belohnen Sie womöglich fragile Hacks.

Den Benchmark iterieren, nicht die Antwort

Wenn ein Agent aus den falschen Gründen gewinnt, sollten Sie die Aufgabe überarbeiten, bevor Sie Schlussfolgerungen ziehen. Schärfen Sie die Dateiliste nach, präzisieren Sie die Akzeptanzkriterien und pinnen Sie den Commit, damit der agent-eval Skill jedes Mal dasselbe Ziel misst.

Auf typische Fehlermuster achten

Die häufigsten Fehler sind vage Prompts, unpassende Judges und Aufgaben, die für einen fairen Vergleich zu groß sind. Für eine bessere agent-eval Nutzung sollten Sie den ersten Benchmark klein, reproduzierbar und repräsentativ für die Arbeit halten, die Ihre Agenten später tatsächlich erledigen sollen.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

evaluation-methodology

von wshobson

Die evaluation-methodology Skill erklärt das PluginEval-Scoring für Model Evaluation, einschließlich Ebenen, Rubriken, zusammengesetzter Bewertung, Badge-Schwellen und praxisnaher Hinweise zur Interpretation von Ergebnissen und zur Verbesserung schwacher Dimensionen.

Model Evaluation

Favoriten 0GitHub 32.6k

healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation

Favoriten 0GitHub 156.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation

Favoriten 0GitHub 10.4k

huggingface-best

von huggingface

Die huggingface-best Skill hilft dir, das beste Modell für eine Aufgabe zu finden, indem sie Hugging Face-Benchmark-Leaderboards prüft und nach Gerätegrenzen sowie Modellgröße filtert. Nutze sie für Modell-Empfehlungen in Coding, Reasoning, Chat, OCR, RAG, Speech, Vision oder multimodalen Workflows, wenn du eine praktische Shortlist statt einer allgemeinen Modellliste brauchst.

Model Evaluation

Favoriten 0GitHub 10.4k

libafl

von trailofbits

Die libafl-Skill hilft Ihnen dabei, modulare Fuzzer mit LibAFL für eigene Targets, Mutationsstrategien und Security-Audit-Workflows zu planen und aufzubauen. Nutzen Sie diesen libafl-Leitfaden, um von den Target-Details zu einem praktikablen Harness, Feedback-Modell und Run-Plan zu kommen – mit weniger Annahmen.

Security Audit

Favoriten 0GitHub 5k

evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Skill Testing

Favoriten 0GitHub 0

judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems

Favoriten 0GitHub 982

gws-modelarmor

von googleworkspace

gws-modelarmor hilft dir, mit Google Model Armor im googleworkspace/cli-Ökosystem zu arbeiten. Damit kannst du Prompts bereinigen, Modellantworten bereinigen und Templates mit weniger Rätselraten als bei einem generischen Prompt erstellen. Die Skill ist auf wiederholbare, richtlinienbewusste Nutzung und Security-Audit-Workflows ausgelegt.

Security Audit

Favoriten 0GitHub 25.5k

analyzing-campaign-attribution-evidence

von mukul975

analyzing-campaign-attribution-evidence hilft Analysten dabei, Infrastruktur-Überschneidungen, ATT&CK-Konsistenz, Malware-Ähnlichkeiten, Zeitbezug und sprachliche Artefakte abzuwägen, um belastbare Kampagnenzuschreibungen vorzunehmen. Nutzen Sie diesen analyzing-campaign-attribution-evidence-Leitfaden für CTI, Incident-Analysen und Security-Audit-Reviews.

Security Audit

Favoriten 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

von mukul975

detecting-ai-model-prompt-injection-attacks ist eine Cybersecurity-Skill zum Prüfen untrusted Texts, bevor er ein LLM erreicht. Sie nutzt gestaffelte Regex-Prüfungen, heuristische Bewertung und DeBERTa-basierte Klassifikation, um direkte und indirekte Prompt-Injection-Angriffe zu erkennen. Nützlich für die Eingabevalidierung von Chatbots, die Dokumentenaufnahme und Threat Modeling.

Threat Modeling

Favoriten 0GitHub 0

llm-evaluation

von wshobson

Mit dem Skill llm-evaluation erstellen Sie wiederholbare Evaluationspläne für LLM-Apps, Prompts, RAG-Systeme und Modelländerungen – mit Metriken, menschlicher Bewertung, Benchmarking und Regressionsprüfungen.

Model Evaluation

Favoriten 0GitHub 32.6k

ai-prompt-engineering-safety-review

von github

ai-prompt-engineering-safety-review ist eine Skill zur Prompt-Prüfung, mit der LLM-Prompts vor dem Produktiveinsatz, vor Evaluationen oder vor kundennahen Anwendungen auf Sicherheit, Bias, Sicherheitslücken und Ausgabequalität überprüft werden.

Model Evaluation

Favoriten 0GitHub 27.8k

agentic-eval

von github

agentic-eval ist eine GitHub Copilot Skill, die zeigt, wie sich Evaluierungsschleifen für KI-Ausgaben mit Reflection, rubric-basierter Bewertung und Evaluator-Optimizer-Mustern aufbauen lassen.

Model Evaluation

Favoriten 0GitHub 27.8k

ml-pipeline-workflow

von wshobson

ml-pipeline-workflow ist ein praxisnaher Leitfaden für die Konzeption durchgängiger MLOps-Pipelines für Datenaufbereitung, Training, Validierung, Deployment und Monitoring – inklusive Orchestrierungsmustern für wiederholbare Workflow-Automatisierung.

Workflow Automation

Favoriten 0GitHub 0

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k