evaluation-methodology

von wshobson

Die evaluation-methodology Skill erklärt das PluginEval-Scoring für Model Evaluation, einschließlich Ebenen, Rubriken, zusammengesetzter Bewertung, Badge-Schwellen und praxisnaher Hinweise zur Interpretation von Ergebnissen und zur Verbesserung schwacher Dimensionen.

Stars32.6k

Favoriten0

Kommentare0

Hinzugefügt30. März 2026

KategorieModel Evaluation

Installationsbefehl

npx skills add wshobson/agents --skill evaluation-methodology

Kurationswert

Dieser Skill erreicht 83/100 und ist damit ein überzeugender Verzeichniseintrag für Nutzer, die eine detaillierte Referenz dazu brauchen, wie PluginEval Skills und Plugins bewertet. Die Repository-Hinweise zeigen umfangreiche, nicht nur Platzhalter-inhalte zur Methodik mit klar benannten Dimensionen, Formeln, Schwellenwerten, Anti-Patterns und Verbesserungsempfehlungen. Dadurch kann ein Agent den Skill zuverlässig zur Interpretation und Kalibrierung nutzen. Er ist allerdings eher eine fachliche Referenz als ein praktisch ausführbarer Workflow. Installieren sollten ihn daher vor allem Nutzer, die eine konsistente Erklärung der Evaluierungslogik suchen, nicht eine Schritt-für-Schritt-Automatisierung.

83/100

Stärken

Hohe Auffindbarkeit durch eine präzise Beschreibung, die Scoring-Interpretation, Kalibrierung von Schwellenwerten und Anwendungsfälle zur Verbesserung abdeckt
Hohe fachliche Substanz: `SKILL.md` ist umfangreich und behandelt Evaluierungsebenen, Dimensionen, Gewichtungen, Formeln, Badges, Anti-Pattern-Flags und Elo-Ranking ausdrücklich
Verlässliche Referenzstruktur mit einer maßgeblichen Rubrikdatei in `references/rubrics.md` als feste Grundlage für Bewertungsstandards

Hinweise

Überwiegend dokumentationsgetrieben; es gibt keine Skripte oder Installationsbefehle, die die Methodik in einen direkt ausführbaren Workflow überführen
Einige referenzierte Implementierungsdetails verweisen auf Analyzer-Dateien wie `layers/static.py`, aber die hier gezeigten Nachweise betreffen vor allem die konzeptionelle Methodik und weniger direkt nutzbare Evaluierungs-Tools

Plugin Eval Testing Checklist Docs Workflow Metrics Ai Agents Llm

Überblick

Überblick über die evaluation-methodology-Skill

Was die evaluation-methodology-Skill leistet

Die evaluation-methodology-Skill erklärt das Bewertungssystem hinter PluginEval für Model Evaluation. Sie ist kein allgemeiner Prompt nach dem Motto „Wie bewertet man Modelle?“, sondern eine konkrete Methodenreferenz. Abgedeckt werden die drei Bewertungsebenen, die Scoring-Dimensionen, die Blend-Logik, Composite Scoring, Badge-Schwellen, Anti-Pattern-Flags und Ranking-Konzepte, mit denen die Qualität von Plugins oder Skills beurteilt wird.

Für wen sich die Installation der evaluation-methodology-Skill lohnt

Diese Skill passt am besten zu Personen, die ein Bewertungsergebnis verstehen oder verbessern müssen und nicht nur einen einzelnen Score erzeugen wollen. Besonders geeignet ist sie für:

Skill- oder Plugin-Autoren, die einen schwachen Score diagnostizieren wollen
Marketplace- oder Plattform-Betreiber, die Quality Gates kalibrieren
Reviewer, die bei Score-Streitfällen eine konsistente Sprache brauchen
Teams, die Badges oder Rankings gegenüber Partnern und Stakeholdern erklären müssen

Wenn Ihre eigentliche Aufgabe lautet: „Warum ist dieser Score so ausgefallen, und was sollte ich zuerst ändern?“, ist das eine sehr gute Wahl.

Der eigentliche Anwendungsfall

Vor der Einführung interessieren Nutzer meist vier Dinge:

welche Dimensionen am stärksten ins Gewicht fallen
wie sich statische Checks von judge-basierter Bewertung unterscheiden
wie Monte Carlo oder gemischte Ebenen die Endnote beeinflussen
welche Änderungen den Score am schnellsten verbessern

Die evaluation-methodology-Skill ist hier wertvoll, weil sie diese Antworten strukturiert liefert, statt Sie auf verstreute Rubrik-Hinweise schließen zu lassen.

Was diese Skill von einem normalen Evaluations-Prompt unterscheidet

Ein normaler Prompt kann ein LLM zwar bitten, „diese Skill zu bewerten“, ihm fehlen aber meistens:

eine explizite Trennung der Ebenen
verankerte Rubrik-Referenzen
dimensionsspezifische Gewichtungslogik
Interpretation von Schwellenwerten und Badges
Methodik-Sprache, die sich für Kalibrierung oder Streitfallklärung eignet

Diese Skill ist die bessere Wahl, wenn Sie konsistente Bewertungslogik brauchen, insbesondere rund um Triggering Accuracy, Orchestration-Qualität und die Interpretation von Scores.

Was Sie vor der Entscheidung lesen sollten

Lesen Sie zuerst SKILL.md für die vollständige Methodik und danach references/rubrics.md für die verankerten Standards, die in der Judge-Ebene verwendet werden. Diese beiden Dateien reichen aus, um zu entscheiden, ob die evaluation-methodology-Skill zu Ihrem Model-Evaluation-Workflow passt.

So verwenden Sie die evaluation-methodology-Skill

Installationskontext für die evaluation-methodology-Installation

Installieren Sie die Skill aus dem Repo mit:

npx skills add https://github.com/wshobson/agents --skill evaluation-methodology

Danach rufen Sie sie in Ihrer AI-Coding-Umgebung wie jede andere installierte Skill auf: indem Sie eine Aufgabe formulieren, die klar nach Interpretation von PluginEval-Scores, Methodik-Erklärung, Kalibrierungshilfe oder Empfehlungen zur Score-Verbesserung fragt.

Welche Eingaben die Skill braucht

Die evaluation-methodology-Skill arbeitet am besten, wenn Sie konkreten Bewertungskontext mitgeben, zum Beispiel:

den zu bewertenden SKILL.md- oder Plugin-Inhalt
die Dimension oder den Score, der fragwürdig wirkt
ob Sie statische Analyse, LLM-Judge-Output oder das vollständige gemischte Scoring betrachten wollen
Ihr Ziel: erklären, kalibrieren, verbessern oder einen Score verteidigen
verwendete Marketplace-Schwellen, Badge-Cutoffs oder Akzeptanzgrenzen

Ohne diesen Kontext bleibt die Ausgabe eher auf hoher Ebene, weil die Methodik selbst sehr breit angelegt ist.

Aus einem groben Ziel einen starken Prompt machen

Schwacher Prompt:

Explain this evaluation score.

Besserer Prompt:

Use the evaluation-methodology skill to interpret this PluginEval result. Focus on Triggering Accuracy and Orchestration Fitness, explain how the three evaluation layers likely contributed, identify which issues are static-document problems versus judge-layer reasoning problems, and suggest the smallest changes that would most improve the composite score.

Warum das funktioniert:

die Methodik wird explizit benannt
die relevanten Dimensionen werden eingegrenzt
es wird nach ebenenbewusster Begründung gefragt
es werden priorisierte Verbesserungsvorschläge statt einer bloßen Zusammenfassung verlangt

Das beste Prompt-Muster für die Nutzung der evaluation-methodology-Skill

Ein hochwertiger Prompt für die evaluation-methodology-Nutzung enthält in der Regel:

das zu bewertende Artefakt
den fraglichen Score oder die betroffene Dimension
die Entscheidung, die Sie treffen müssen
das gewünschte Ausgabeformat

Beispiel:

Apply the evaluation-methodology skill to this skill draft. Estimate which dimensions are most at risk, cite the likely rubric anchors behind that judgment, and recommend edits that improve triggering precision without making the description too narrow.

Praktischer Workflow, der Rätselraten reduziert

Verwenden Sie diese Reihenfolge:

SKILL.md lesen, um das Gesamtsystem der Bewertung zu verstehen
references/rubrics.md öffnen, um die Anker auf Rubrik-Ebene einzuordnen
die Dimension identifizieren, auf die Sie tatsächlich reagieren müssen
nach einer Diagnose pro Ebene fragen
die Skill oder das Plugin überarbeiten
erneut prüfen, ob die Änderung die richtige Dimension verbessert hat, statt nur das Dokument länger zu machen

Das ist wichtig, weil viele Score-Probleme falsch diagnostiziert werden. Ein Triggering-Problem entsteht zum Beispiel oft durch eine vage Beschreibung im Frontmatter, während ein Orchestration-Problem aus unklaren Input-/Output-Verträgen resultieren kann.

Welche Repository-Dateien Sie zuerst lesen sollten

Für diesen evaluation-methodology-Leitfaden sollten Sie priorisieren:

plugins/plugin-eval/skills/evaluation-methodology/SKILL.md
plugins/plugin-eval/skills/evaluation-methodology/references/rubrics.md

Lesen Sie SKILL.md, um das Framework zu verstehen, und ziehen Sie danach references/rubrics.md heran, wenn Sie eine fundierte Score-Interpretation brauchen oder einen Entwurf mit den Anchor Points vergleichen möchten.

Was die drei Ebenen in der Praxis bedeuten

Die Methodik kombiniert drei Ebenen:

statische Analyse für deterministische Dokumentprüfungen
LLM-Judge-Scoring für rubrikbasierte qualitative Bewertung
Monte-Carlo-Simulation für das Verhalten über Prompt-Verteilungen hinweg, insbesondere beim Triggering

Diese Trennung ist operativ nützlich. Wenn Sie vor der Veröffentlichung einen schnellen Preflight-Check brauchen, ist die statische Analyse die erste Station. Wenn Sie eine belastbare Erklärung für einen niedrigen Score benötigen, sind die Judge-Rubriken wichtiger. Wenn Sie wissen möchten, ob eine Skill bei realistischen Variationen auf die richtigen Prompts anspringt, ist das Monte-Carlo-Framing am relevantesten für die Entscheidung.

Wann Sie evaluation-methodology für Model Evaluation einsetzen sollten

Nutzen Sie evaluation-methodology for Model Evaluation, wenn es Ihnen nicht nur um die Qualität des Modell-Outputs geht, sondern um die Qualität der Skill- oder Plugin-Hülle rund um das Modellverhalten. Diese Methodik ist besonders relevant, wenn die Kernfrage lautet, ob eine Skill in einem Agent-Ökosystem auffindbar, passend triggerbar, gut strukturiert und operativ zuverlässig ist.

Weniger geeignet ist sie, wenn Sie nur ein Benchmark-Design für die rohe Modellleistung bei Aufgaben benötigen, die nichts mit Plugin- oder Skill-Orchestrierung zu tun haben.

Häufige Hürden bei der Einführung

Viele zögern, weil unklar ist, ob diese Skill wirklich handlungsleitend ist oder nur beschreibt. In der Praxis ist sie handlungsleitend, wenn Sie:

einen Score auf eine konkrete Dimension zurückführen wollen
verstehen möchten, was jede Dimension belohnt
gezielt Änderungen auswählen wollen, die den Composite Score beeinflussen
Schwellenwerte für Veröffentlichung oder Badging kalibrieren müssen

Weniger handlungsleitend ist sie, wenn Sie ein sofort ausführbares Evaluator-Skript erwarten. Die Evidenz im Repository ist hier klar methodikzentriert; die stärkste Unterstützung steckt im schriftlich ausgearbeiteten Framework und den Rubriken.

FAQ zur evaluation-methodology-Skill

Ist evaluation-methodology ein Scorer oder eine Methodenreferenz?

In erster Linie eine Methodenreferenz. Sie erklärt, wie PluginEval Qualität misst und wie Ergebnisse zu lesen sind. Genau das macht sie besonders nützlich für Audits, Kalibrierung und die Planung von Verbesserungen.

Ist die evaluation-methodology-Skill anfängerfreundlich?

Ja, sofern Anfänger bereits verstehen, was eine Skill oder ein Plugin ist. Die Inhalte sind strukturiert geschrieben, aber deutlich verständlicher wird das Ganze mit einem echten Beispiel und der Frage nach jeweils nur einer Dimension statt nach dem gesamten Framework auf einmal.

Worin unterscheidet sich das davon, ein LLM einfach meine Skill reviewen zu lassen?

Ein einfacher Review-Prompt kann durchaus brauchbare Hinweise liefern, richtet sich aber meist nicht nach dem mehrschichtigen Scoring-Modell oder den Rubrik-Ankern von PluginEval. Die evaluation-methodology-Skill gibt Ihnen eine gemeinsame Sprache für Bewertungen. Das ist besonders hilfreich, wenn mehrere Reviewer konsistent urteilen sollen.

Wann sollte ich evaluation-methodology nicht verwenden?

Verzichten Sie darauf, wenn:

Sie nur eine allgemeine Text- oder Schreibkritik brauchen
Sie die rohe Aufgaben-Accuracy eines Modells statt Skill-/Plugin-Qualität bewerten
Sie eher ausführbare Automatisierung als methodische Anleitung suchen
Ihr Ökosystem keine PluginEval-ähnlichen Dimensionen oder Badge-Logik verwendet

Hilft die Skill bei niedrigen Triggering-Accuracy-Scores?

Ja. Die Rubrik-Referenz behandelt Triggering ausdrücklich als Verhalten aus Präzision plus Recall über repräsentative Prompts hinweg. Dadurch ist die Skill besonders nützlich, wenn eine Beschreibung entweder zu vage ist, um zuverlässig zu triggern, oder zu breit formuliert ist und auch bei irrelevanten Prompts anspringt.

Kann ich das auch außerhalb von PluginEval nutzen?

Ja, aber vor allem als strukturiertes Referenzmodell. Die Dimensionen, die Trennung der Ebenen und das Denken in Rubriken lassen sich gut übertragen. Die exakten Gewichte, Schwellen und Badges sind am nützlichsten, wenn Ihr Prozess stark an PluginEval angelehnt ist.

So verbessern Sie die evaluation-methodology-Skill

Beginnen Sie mit der Dimension, die Entscheidungen wirklich beeinflusst

Wenn Sie die evaluation-methodology-Skill verwenden, fragen Sie nicht zuerst nach der „Gesamtqualität“. Fragen Sie stattdessen, welche einzelne Dimension Ihre Entscheidung am ehesten blockiert. In der Praxis zeigt das oft am schnellsten den größten Hebel, besonders bei Triggering Accuracy oder Orchestration Fitness.

Liefern Sie bessere Eingaben für bessere Analysen

Bessere Eingaben:

aktueller Score oder vermutete schwache Dimension
das genaue description-Frontmatter
der relevante Abschnitt aus SKILL.md
Beispiele für Prompts, die die Skill auslösen sollten und nicht auslösen sollten
Ihre Akzeptanzschwelle

So kann die Skill deutlich näher an der eigentlichen Methodik argumentieren, insbesondere bei dimensionsspezifischer Diagnose.

Nutzen Sie positive und negative Trigger-Beispiele

Eine der wertvollsten Verbesserungen ist, beides mitzugeben:

Prompts, bei denen die Skill aktiv werden sollte
Prompts, bei denen sie still bleiben sollte

Das verbessert direkt die Analyse der Routing-Qualität. Es spiegelt den Fokus der Methodik auf Präzision und Recall wider, statt nur zu fragen: „Klingt das irgendwie relevant?“

Trennen Sie statische Fixes von Fixes auf Judge-Ebene

Nicht alle Verbesserungen sind gleichwertig. Nutzen Sie die Skill, um Probleme so zu klassifizieren:

strukturelle Fixes: Frontmatter, fehlende Verträge, schlechte progressive disclosure
Rubrik-Fixes: schwache Erklärungen, vage Anleitung, geringe Handlungsorientierung
Behavior-Fit-Fixes: wahrscheinliche Triggering-Fehlanpassung unter realistischer Prompt-Variation

So vermeiden Sie, am falschen

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation

Favoriten 0GitHub 156.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

agent-eval

von affaan-m

agent-eval ist eine Skill zur direkten Bewertung von Coding-Agents anhand reproduzierbarer Aufgaben. Verglichen werden Erfolgsquote, Kosten, Zeit und Konsistenz. Mit der agent-eval Skill können Sie Claude Code, Aider, Codex oder einen anderen Agent in Ihrem eigenen Repo mit deutlich belastbareren Ergebnissen als bei ad hoc Prompts evaluieren.

Model Evaluation

Favoriten 0GitHub 156k

huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation

Favoriten 0GitHub 10.4k

huggingface-best

von huggingface

Die huggingface-best Skill hilft dir, das beste Modell für eine Aufgabe zu finden, indem sie Hugging Face-Benchmark-Leaderboards prüft und nach Gerätegrenzen sowie Modellgröße filtert. Nutze sie für Modell-Empfehlungen in Coding, Reasoning, Chat, OCR, RAG, Speech, Vision oder multimodalen Workflows, wenn du eine praktische Shortlist statt einer allgemeinen Modellliste brauchst.

Model Evaluation

Favoriten 0GitHub 10.4k

libafl

von trailofbits

Die libafl-Skill hilft Ihnen dabei, modulare Fuzzer mit LibAFL für eigene Targets, Mutationsstrategien und Security-Audit-Workflows zu planen und aufzubauen. Nutzen Sie diesen libafl-Leitfaden, um von den Target-Details zu einem praktikablen Harness, Feedback-Modell und Run-Plan zu kommen – mit weniger Annahmen.

Security Audit

Favoriten 0GitHub 5k

evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Skill Testing

Favoriten 0GitHub 0

judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems

Favoriten 0GitHub 982

gws-modelarmor

von googleworkspace

gws-modelarmor hilft dir, mit Google Model Armor im googleworkspace/cli-Ökosystem zu arbeiten. Damit kannst du Prompts bereinigen, Modellantworten bereinigen und Templates mit weniger Rätselraten als bei einem generischen Prompt erstellen. Die Skill ist auf wiederholbare, richtlinienbewusste Nutzung und Security-Audit-Workflows ausgelegt.

Security Audit

Favoriten 0GitHub 25.5k

analyzing-campaign-attribution-evidence

von mukul975

analyzing-campaign-attribution-evidence hilft Analysten dabei, Infrastruktur-Überschneidungen, ATT&CK-Konsistenz, Malware-Ähnlichkeiten, Zeitbezug und sprachliche Artefakte abzuwägen, um belastbare Kampagnenzuschreibungen vorzunehmen. Nutzen Sie diesen analyzing-campaign-attribution-evidence-Leitfaden für CTI, Incident-Analysen und Security-Audit-Reviews.

Security Audit

Favoriten 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

von mukul975

detecting-ai-model-prompt-injection-attacks ist eine Cybersecurity-Skill zum Prüfen untrusted Texts, bevor er ein LLM erreicht. Sie nutzt gestaffelte Regex-Prüfungen, heuristische Bewertung und DeBERTa-basierte Klassifikation, um direkte und indirekte Prompt-Injection-Angriffe zu erkennen. Nützlich für die Eingabevalidierung von Chatbots, die Dokumentenaufnahme und Threat Modeling.

Threat Modeling

Favoriten 0GitHub 0

llm-evaluation

von wshobson

Mit dem Skill llm-evaluation erstellen Sie wiederholbare Evaluationspläne für LLM-Apps, Prompts, RAG-Systeme und Modelländerungen – mit Metriken, menschlicher Bewertung, Benchmarking und Regressionsprüfungen.

Model Evaluation

Favoriten 0GitHub 32.6k

ai-prompt-engineering-safety-review

von github

ai-prompt-engineering-safety-review ist eine Skill zur Prompt-Prüfung, mit der LLM-Prompts vor dem Produktiveinsatz, vor Evaluationen oder vor kundennahen Anwendungen auf Sicherheit, Bias, Sicherheitslücken und Ausgabequalität überprüft werden.

Model Evaluation

Favoriten 0GitHub 27.8k

agentic-eval

von github

agentic-eval ist eine GitHub Copilot Skill, die zeigt, wie sich Evaluierungsschleifen für KI-Ausgaben mit Reflection, rubric-basierter Bewertung und Evaluator-Optimizer-Mustern aufbauen lassen.

Model Evaluation

Favoriten 0GitHub 27.8k

ml-pipeline-workflow

von wshobson

ml-pipeline-workflow ist ein praxisnaher Leitfaden für die Konzeption durchgängiger MLOps-Pipelines für Datenaufbereitung, Training, Validierung, Deployment und Monitoring – inklusive Orchestrierungsmustern für wiederholbare Workflow-Automatisierung.

Workflow Automation

Favoriten 0GitHub 0

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k