judge
von NeoLabHQJudge ist eine zweiphasige Bewertungs-Skill, die zuerst einen Meta-Judge und dann einen Judge-Sub-Agenten startet, um Arbeiten mit isoliertem Kontext, Belegen und klaren Kriterien zu bewerten. Nutzen Sie sie für reine Report-Reviews von Code, Texten, Analysen oder Skill Authoring, wenn Sie einen belastbaren Judge-Leitfaden statt einer lockeren Meinung benötigen.
Diese Skill erreicht 66/100 und ist damit grundsätzlich listenfähig, allerdings nur als eher zurückhaltende, mit Hinweisen versehene Option für Nutzer, die einen strukturierten Bewertungs-Workflow suchen. Sie enthält genug echte operative Substanz, um eine Installation zu rechtfertigen, doch Directory-Nutzer sollten mit Interpretationsaufwand rechnen, da das Repo keine unterstützenden Skripte, Referenzen oder einen Installationsbefehl bietet und der Workflow größtenteils in einer einzelnen SKILL.md-Datei steckt.
- Klarer Auslöser und klarer Zweck: Die Frontmatter beschreibt, dass zunächst ein Meta-Judge und anschließend ein Judge-Sub-Agent für Bewertungen im aktuellen Gespräch gestartet werden.
- Umfangreicher Workflow-Inhalt: Der Skill-Text ist lang, umfasst mehrere Überschriften und definierte Phasen und spricht damit für einen echten Bewertungsprozess statt eines Platzhalters.
- Belegorientiertes Design: Es verlangt ausdrücklich strukturiertes Scoring und Zitate, was die Zuverlässigkeit des Agenten gegenüber einem allgemeinen Prompt erhöht.
- Keine Support-Dateien und kein Installationsbefehl; die Nutzung hängt daher davon ab, die SKILL.md-Logik zu lesen und manuell anzuwenden.
- Die operativen Details bleiben teilweise in Fließtext verborgen; Directory-Nutzer müssen die genauen Ausführungsschritte und den Umgang mit Sonderfällen möglicherweise selbst ableiten.
Überblick über den judge-Skill
Was judge macht
Der judge-Skill startet einen Evaluierungs-Workflow in zwei Phasen: Zuerst definiert ein Meta-Judge das passende Bewertungsraster für die Aufgabe, danach bewertet ein Judge-Subagent die Arbeit mit isoliertem Kontext und Belegen. Er eignet sich besonders für Nutzer, die eine disziplinierte Prüfung von Code, Analysen, Texten oder Agenten-Ausgaben brauchen – und nicht nur eine lockere Einschätzung.
Wer judge verwenden sollte
Nutze den judge-Skill, wenn du eine reine Berichtsauswertung mit klaren Kriterien, Belegen und umsetzbarem Feedback willst. Er passt besonders gut für Reviews im Skill Authoring, für die Prüfung von Repo-Änderungen und für jede Aufgabe, bei der Confirmation Bias oder der Verlauf einer Sitzung das Urteil verfälschen könnten.
Warum er sich unterscheidet
Anders als ein generischer Prompt mit der Bitte um „Feedback“ legt judge die Bewertungskriterien fest, bevor das Scoring beginnt. Das macht den judge-Skill vor allem dann stärker, wenn der Artefakttyp noch unklar ist, wenn du mehrdimensionale Bewertungen brauchst oder wenn das Review für einen anderen Menschen belastbar sein muss.
Den judge-Skill verwenden
judge installieren und die Einstiegsdatei prüfen
Installiere mit npx skills add NeoLabHQ/context-engineering-kit --skill judge. Beginne mit plugins/sadd/skills/judge/SKILL.md, denn dort stehen der Workflow, die Eingaben und die Bewertungseinschränkungen, die das Installationsverhalten von judge festlegen.
judge einen konkreten Bewertungsgegenstand geben
Der Skill funktioniert am besten, wenn du die Arbeit und die Perspektive klar benennst. Ein starker Prompt sieht so aus: Judge the last draft of the launch page for clarity, SEO fit, and factual accuracy. Ein schwacher Prompt wie Review this lässt dem Meta-Judge zu viel Rätselraten.
Den richtigen Kontext für die judge-Pipeline mitgeben
Füge das zu bewertende Artefakt, die Erfolgskriterien und harte Vorgaben hinzu, etwa Tonalität, Zielgruppe, Prioritäten im Raster oder verbotene Änderungen. Wenn du judge für Skill Authoring verwendest, sag das ausdrücklich und nenne den Ziel-Skill, weil sich das Raster für Installationsklarheit, Auffindbarkeit und Instruktionsqualität ändern sollte.
Diese Dateien zuerst lesen
Für Installation und Anpassung solltest du zuerst SKILL.md lesen und danach alle Workflow- oder Policy-Dateien, die das Repo enthält. In diesem Repository ist der Skill-Text selbst die wichtigste Quelle der Wahrheit, deshalb ist der schnellste Weg, zuerst die Prompt-Struktur, die Workflow-Phasen und die Beleganforderungen zu prüfen, bevor du das Muster in dein eigenes System übernimmst.
FAQ zum judge-Skill
Ist judge nur für Code-Reviews gedacht?
Nein. Der judge-Skill ist dafür gedacht, jede Art von Ergebnis zu bewerten, die von einem Bewertungsraster profitiert: Prompts, Dokumentationen, Analysen, Agenten-Ausgaben oder Designentscheidungen. Die entscheidende Voraussetzung ist, dass das Ergebnis anhand expliziter Kriterien und mit Belegen beurteilt werden kann.
Wann sollte ich judge nicht verwenden?
Nutze judge nicht, wenn du nur eine schnelle subjektive Reaktion brauchst, wenn noch kein fertiges Artefakt vorliegt oder wenn sich die Aufgabe nicht aus Belegen bewerten lässt. In solchen Fällen ist ein einfacher Prompt meist schneller und weniger fehleranfällig.
Ist judge für Anfänger geeignet?
Ja, sofern der Nutzer das Artefakt und die Erfolgskriterien benennen kann. Anfänger haben in der Regel nur dann Probleme, wenn sie ein Urteil ohne Kontext verlangen. Der Skill entschärft das, indem er einen Meta-Judge-Schritt erzwingt, aber einen klaren Zielgegenstand braucht er trotzdem.
Worin unterscheidet sich judge von einem normalen Prompt?
Ein normaler Prompt lässt oft ein Modell in einem Durchgang sowohl die Kriterien erfinden als auch das Ergebnis bewerten. Der judge-Skill trennt diese Rollen, was in der Regel die Konsistenz verbessert, Bias reduziert und den Abschlussbericht vertrauenswürdiger macht.
Den judge-Skill verbessern
Den Bewertungsgegenstand eindeutig machen
Die besten Inputs für judge nennen das genaue Artefakt, die gewünschte Zielgruppe und die Entscheidung, die du unterstützen willst. Zum Beispiel: Evaluate the new onboarding doc for first-time contributors, with emphasis on setup clarity and missing prerequisites. Das ist besser als Check my doc, weil sich das Bewertungsraster so an echtem Nutzerrisiko ausrichten kann.
Einschränkungen ergänzen, die das Raster beeinflussen
Wenn dir Belege auf Zeilenebene, Zitieranforderungen oder eine bestimmte Skala wichtig sind, sag das von Anfang an. judge arbeitet besser, wenn es weiß, ob Korrektheit, Vollständigkeit, UX-Klarheit oder Policy-Compliance Vorrang haben soll, statt diese Punkte implizit zu mitteln.
Nach dem ersten Bericht iterieren
Nutze den ersten judge-Bericht, um den nächsten Prompt zu schärfen: ergänze fehlenden Kontext, kläre Zielkonflikte und nenne jeden Abschnitt, der aus deiner Sicht zu niedrig gewichtet wurde. Für Skill Authoring ist die nützlichste Iteration oft, judge die Installationsklarheit, die Realitätsnähe der Nutzung und Grenzfälle getrennt neu bewerten zu lassen.
Typische Fehlermodi im Blick behalten
judge kann schwächer abschneiden, wenn die Ausgangsarbeit vage ist, wenn das Artefakt unvollständig ist oder wenn der Bewertungsfokus mit zu vielen Zielen überladen wird. In diesem Fall solltest du die Aufgabe in engere Durchgänge aufteilen und judge nur das Material geben, das für die jeweilige Entscheidung nötig ist.
