do-and-judge

von NeoLabHQ

Die do-and-judge Skill führt eine einzelne Aufgabe mit einem Implementierungsschritt durch einen Sub-Agenten, einem unabhängigen Judge und einer verifizierenden Wiederholung aus, bis das Ergebnis besteht oder die maximale Anzahl an Versuchen erreicht ist. Verwenden Sie do-and-judge für Workflow-Automatisierung, wenn Sie klare Akzeptanzkriterien, isolierte Ausführung und weniger Rätselraten als bei einem generischen Prompt brauchen.

Stars982

Favoriten0

Kommentare0

Hinzugefügt9. Mai 2026

KategorieWorkflow Automation

Installationsbefehl

npx skills add NeoLabHQ/context-engineering-kit --skill do-and-judge

Kurationswert

Dieser Skill erreicht 78/100 und ist damit ein solider Kandidat für ein Verzeichnis, wenn Nutzer einen strukturierten Execute-and-Verify-Workflow suchen. Das Repository liefert genug operative Details, um zu erkennen, wann man es einsetzen sollte und wie es sich verhält, auch wenn noch einige Hilfen für die Einführung fehlen, die Aufwand und Unsicherheit bei Einrichtung und Nutzung weiter verringern würden.

78/100

Stärken

Klarer Auslöser und Workflow: ausdrücklich für eine einzelne Aufgabe mit Implementierung, unabhängiger Bewertung und Wiederholung bis zum Erfolg oder zur maximalen Zahl an Versuchen.
Starke Agenten-Unterstützung: Die Meta-Judge-plus-Judge-Schleife, paralleles Dispatching und das Retry-Muster mit Feedback sollten Agenten helfen, mit weniger Selbstprüfungs-Bias auszuführen.
Die operative Struktur ist substanziell: gültiges Frontmatter, langer Text, viele Überschriften und mehrere Workflow-/Constraint-Signale sprechen für echten prozeduralen Inhalt statt eines Platzhalters.

Hinweise

Es gibt keinen Installationsbefehl, keine Support-Dateien und keine Verweise, daher müssen sich Nutzer allein auf die SKILL.md verlassen.
Der Ausschnitt zeigt eine harte Orchestrierungsregel und eine Kürzung, was den Skill brüchig oder schwerer anpassbar in breiteren Agenten-Setups wirken lassen kann.

Claude Code Claude Agents Evaluation Workflow

Überblick

Überblick über das do-and-judge-Skill

Was do-and-judge macht

Das do-and-judge-Skill ist ein Ausführungsmuster für Workflow-Automatisierung mit einer einzelnen Aufgabe: Es gibt Arbeit an einen Implementierungs-Sub-Agenten weiter, erstellt eine separate Judge-Rubrik und versucht es erneut, bis das Ergebnis besteht oder das Retry-Limit erreicht ist. Es eignet sich besonders für Aufgaben, bei denen die Qualität von externer Verifikation abhängt und nicht nur von einer einmaligen Generierung.

Wer es nutzen sollte

Nutzen Sie do-and-judge, wenn ein Agent eine klar abgegrenzte Aufgabe mit messbaren Abnahmekriterien erledigen soll, etwa Refactorings, Code-Änderungen oder strukturierte Inhaltsanpassungen. Es passt gut, wenn Sie weniger Selbstkritik und mehr unabhängige Prüfung wünschen, bevor ein Ergebnis akzeptiert wird.

Warum es heraussticht

Der zentrale Mehrwert des do-and-judge-Skill liegt in der Trennung der Rollen: Der Orchestrator erledigt die Aufgabe nicht selbst, der Implementierungs-Agent arbeitet mit frischem Kontext, und der Judge bewertet anhand einer eigenen Spezifikation. Dieses Design reduziert blinde Flecken und macht die Installation von do-and-judge besonders sinnvoll, wenn Korrektheit wichtiger ist als reine Geschwindigkeit.

So verwenden Sie das do-and-judge-Skill

do-and-judge installieren und einrichten

Installieren Sie das do-and-judge-Skill in Ihrem Skills-Workspace und öffnen Sie zuerst SKILL.md, weil dort die Betriebsregeln und der Kontrollfluss beschrieben sind. Für einen schnellen Repo-Überblick sollten Sie zunächst SKILL.md lesen; Hilfsskripte oder Support-Ordner gibt es hier nicht, daher ist die Skill-Datei die maßgebliche Quelle.

Eine vage Anfrage in nutzbaren Input verwandeln

Das do-and-judge usage-Muster funktioniert am besten, wenn die Aufgabe eng umrissen, testbar und klar abgeschlossen ist. Fragen Sie nicht einfach nach „Verbessere dieses Modul“, sondern liefern Sie:

die genaue Ziel-Datei oder Komponente
das gewünschte Ergebnis
Einschränkungen, die unverändert bleiben müssen
ein Kriterium für Bestehen/Nichtbestehen oder das erwartete Verhalten

Starkes Prompt-Beispiel: Refactor the UserService class to use dependency injection without changing public method names; verify that all existing tests still pass and that constructor wiring is explicit.

Empfohlener Workflow

Ein praxistauglicher do-and-judge guide ist: Aufgabe definieren, den Implementierungs-Agenten isoliert arbeiten lassen, eine Judge-Rubrik erzeugen, das Ergebnis gegen diese Rubrik prüfen und nur bei konkreten Fehlern erneut versuchen. Der Workflow ist für do-and-judge for Workflow Automation gedacht, also für kontrollierte Ausführung statt für offenes Brainstorming.

Worauf Sie im Repo achten sollten

Lesen Sie SKILL.md für den Ablauf, die kritischen Einschränkungen und die Retry-Schwelle. Achten Sie besonders auf die Abschnitte zu Aufgabenumfang, Kontextverarbeitung und Warnsignalen, weil sie darüber entscheiden, ob der Orchestrator korrekt arbeitet. Wenn Sie das Skill auf einen anderen Stack übertragen, sollten Sie diese Regeln vor dem Einsatz an einer realen Aufgabe auf Ihre eigenen Tools abbilden.

FAQ zum do-and-judge-Skill

Ist do-and-judge besser als ein normaler Prompt?

Bei einfachen Anfragen nein. Ein normaler Prompt ist schneller. do-and-judge ist besser, wenn eine Aufgabe umgesetzt und unabhängig geprüft werden soll, besonders wenn die erste Antwort wahrscheinlich Edge Cases verfehlt oder von den Anforderungen abweicht.

Ist dieses Skill anfängerfreundlich?

Ja, wenn Sie die Aufgabe klar beschreiben können. Die eigentliche Lernkurve liegt nicht in der Syntax, sondern darin, genug Aufgaben-Kontext und Abnahmekriterien zu liefern, damit der Judge das Ergebnis ohne Raten bewerten kann.

Wann sollte ich do-and-judge nicht verwenden?

Verwenden Sie do-and-judge nicht für offene Exploration, lockeres Ideensammeln oder Aufgaben, bei denen Erfolg schwer zu definieren ist. Es ist auch keine gute Wahl, wenn der Orchestrator direkt Dateien bearbeiten oder Tools ausführen soll, weil das Skill auf Rollentrennung und Verifikation ausgelegt ist.

Wie passt es in Workflow Automation?

Am besten passt es als Kontrollschicht für einzelne, klar abgegrenzte Jobs innerhalb eines größeren Automatisierungssystems. Wenn Ihr Workflow bereits explizite Prüfungen enthält, bringt das Skill Mehrwert, indem es die Agenten-Schleife strukturiert; wenn Ihrem Workflow Abnahmekriterien fehlen, ist der Judge-Schritt zu ungenau, um wirklich zu helfen.

So verbessern Sie das do-and-judge-Skill

Geben Sie dem Judge bessere Kriterien

Der größte Qualitätsgewinn entsteht durch stärkere Bewertungsangaben. Wenn Sie do-and-judge verwenden, beschreiben Sie konkret und beobachtbar, was „gut“ bedeutet: erforderliches Verhalten, verbotene Änderungen, Abdeckungsvorgaben, Formatierungsregeln oder Kompatibilitätsanforderungen. Je konkreter die Kriterien, desto geringer die Chance, dass der Judge ein schwaches Ergebnis abnickt.

Häufige Fehlerquellen reduzieren

Der häufigste Fehler ist ein unzureichend definierter Scope. Ist die Aufgabe zu breit, optimiert der Implementierungs-Agent möglicherweise das Falsche und der Judge erkennt das erst spät. Eine weitere Fehlerquelle sind versteckte Einschränkungen wie Abwärtskompatibilität, Namenskonventionen oder Umgebungsgrenzen; nennen Sie diese daher im Vorfeld, statt zu erwarten, dass der Retry-Loop sie herleitet.

Das erste Ergebnis iterativ verbessern

Wenn der erste Lauf das Ziel verfehlt, wiederholen Sie nicht einfach dieselbe Aufgabe. Geben Sie die konkreten Fehler des Judges zurück, schärfen Sie die Abnahmekriterien und entfernen Sie mehrdeutige Formulierungen. Für do-and-judge usage sollte der zweite Versuch enger gefasst und besser testbar sein als der erste.

Vor dem erneuten Lauf die Passung verbessern

Wenn Sie do-and-judge auf ein anderes Repository oder einen anderen Agent-Stack übertragen, gleichen Sie die Orchestrierungsregeln zuerst mit Ihren Tools ab. Prüfen Sie, ob Ihr Setup isolierte Implementierung, unabhängiges Judging und begrenzte Retries tatsächlich unterstützt; wenn nicht, vereinfachen Sie das Muster, statt es künstlich durchzuziehen.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

playwright-interactive

von openai

playwright-interactive ist eine Browser-Automatisierungs-Skill für dauerhafte Playwright-Sitzungen in lokalen Web- und Electron-Apps. Damit kannst du den UI-Zustand prüfen, Interaktionen erneut versuchen und funktionale oder visuelle QA durchführen, ohne die Toolchain neu zu starten. Ideal, wenn du einen praxisnahen Leitfaden für iteratives Debugging mit playwright-interactive suchst.

Browser Automation

Favoriten 0GitHub 0

huggingface-datasets

von huggingface

Nutze die Skill "huggingface-datasets" für Workflows mit der Hugging Face Dataset Viewer API, um Datensätze zu validieren, Splits aufzulösen, Zeilen vorzuschauen und zu paginieren, Text zu durchsuchen, Filter anzuwenden sowie Parquet-Links oder Statistiken abzurufen. Ein praktischer huggingface-datasets Leitfaden für die schreibgeschützte Erkundung von Datensätzen.

Web Scraping

Favoriten 0GitHub 10.4k

iterative-retrieval

von affaan-m

iterative-retrieval ist ein Workflow-Muster zur schrittweisen Verfeinerung der Kontextrecherche in agentischen Arbeitsabläufen. Es hilft Subagenten, zu viel oder zu wenig Kontext zu vermeiden, und ist damit nützlich für iterative-retrieval-Einsatzszenarien, Installationsentscheidungen und iterative-retrieval für Workflow-Automatisierung.

Workflow Automation

Favoriten 0GitHub 156.2k

data-scraper-agent

von affaan-m

data-scraper-agent hilft beim Aufbau einer wiederholbaren Public-Data-Pipeline für Web Scraping, Anreicherung und Speicherung. Es ist für das Monitoring von Jobs, Preisen, News, Repos, Sport und Listings nach Zeitplan mit GitHub Actions ausgelegt, mit Ausgaben nach Notion, Sheets oder Supabase. Am besten für laufendes Tracking, nicht für einmalige Extraktionen.

Web Scraping

Favoriten 0GitHub 156.1k

notion-meeting-intelligence

von openai

notion-meeting-intelligence hilft dabei, Notion-Kontext in besprechungsreife Agenden und Vorab-Lesestoffe zu verwandeln – mit Codex-Recherche für Entscheidungen, Status-Updates, Planung, Retros und die Vorbereitung von 1:1s. Besonders geeignet ist das für den notion-meeting-intelligence-Workflow zur Meeting-Vorbereitung, wenn Sie belastbare Unterlagen, klare Zeitfenster und auf Teilnehmende zugeschnittene Ausgaben benötigen.

Meeting Prep

Favoriten 0GitHub 18.6k

building-incident-response-playbook

von mukul975

building-incident-response-playbook hilft Security-Teams, wiederverwendbare Incident-Response-Playbooks mit klaren Phasen, Entscheidungsbäumen, Eskalationskriterien, RACI-Zuordnung und SOAR-tauglicher Struktur zu erstellen. Es ist für die Dokumentation von Incident-Response-Prozessen, Workflows zur Incident-Triage und auditfähige operative Reaktionspläne gedacht.

Incident Triage

Favoriten 0GitHub 6.1k

building-patch-tuesday-response-process

von mukul975

building-patch-tuesday-response-process hilft Teams dabei, einen wiederholbaren Microsoft Patch Tuesday-Prozess aufzubauen, um Advisories zu triagieren, Risiken zu priorisieren, Patches zu testen, Rollouts freizugeben und Compliance nachzuverfolgen. Nützlich für Security Operations, Vulnerability Management und building-patch-tuesday-response-process für Projektmanagement.

Project Management

Favoriten 0GitHub 6.1k

secure-workflow-guide

von trailofbits

secure-workflow-guide führt durch einen 5-stufigen Solidity-Security-Workflow: Slither-Triage, funktionsspezifische Checks, visuelle Prüfung, Notizen zu Security-Properties und manuelle Review. Die Skill ist für Smart-Contract-Teams, Auditoren und Entwickler gedacht, die vor Deployment oder Release einen wiederholbaren secure-workflow-guide benötigen.

Security Audit

Favoriten 0GitHub 4.9k

twitter-cli

von public-clis

twitter-cli ist ein Terminal-first-Twitter/X-Skill zum Lesen von Timelines, Lesezeichen, Suchergebnissen, Profilen und Tweet-Details, mit Posting und anderen Schreibaktionen nach der Authentifizierung. Nutzen Sie es für Social-Media-Recherche, Account-Monitoring und leichtgewichtiges Publishing direkt über die Kommandozeile.

Social Media

Favoriten 0GitHub 2.3k

azure-ai-contentunderstanding-py

von microsoft

azure-ai-contentunderstanding-py ist das Python-Skill für Azure AI Content Understanding. Es extrahiert strukturierte Inhalte aus Dokumenten, Bildern, Audio und Video für RAG-Workflows und Automatisierung. Nutzen Sie es, wenn Sie zuverlässige multimodale Extraktion, Azure-Authentifizierung und reproduzierbare, pipelinefähige Ausgaben benötigen.

RAG Workflows

Favoriten 0GitHub 2.2k

wp-performance

von WordPress

Nutze wp-performance, um WordPress-Performance im Backend zu untersuchen und zu verbessern – ganz ohne Browser-UI. Es unterstützt eine messungsorientierte Diagnose langsamer Frontend-Requests, Admin-Seiten, REST-Routen und WP-Cron und bietet Anleitung zu WP-CLI profile/doctor, Query Monitor über REST-Header, Server-Timing, Datenbankabfragen, Autoload-Optionen, Object Caching, Cron und entfernten HTTP-Aufrufen.

Performance Optimization

Favoriten 0GitHub 1.4k

wp-wpcli-and-ops

von WordPress

Das Skill wp-wpcli-and-ops unterstützt bei WordPress-Operationen mit WP-CLI: sicheres search-replace, db export/import, Plugin- und Theme-Aktionen, cron, Cache leeren, Zielauswahl für Multisite und wiederholbare Automatisierung für die Backend-Entwicklung.

Backend Development

Favoriten 0GitHub 1.4k

agents-sdk

von cloudflare

agents-sdk hilft dir, Cloudflare Workers Agents mit zustandsbehafteten Unterhaltungen, dauerhafter Ausführung, WebSocket- oder Streaming-Chat, MCP-Integration, geplanten Aufgaben und Browser-Automatisierung zu bauen. Dieser agents-sdk Skill konzentriert sich auf Installationsentscheidungen, Konfiguration und den praktischen Einsatz für bestehende oder neue Workers-Apps – inklusive Hinweise zu Multi-Agent-Systemen nur dort, wo sie zu den Cloudflare-Runtime-Einschränkungen passen.

Multi-Agent Systems

Favoriten 0GitHub 1.3k

reddit-ads

von alinaqi

reddit-ads-Skill für Reddit Ads API-Workflows: Kampagnenerstellung, Targeting, Conversion-Tracking und Anzeigenoptimierung. Installiere den reddit-ads-Leitfaden, um Account-Hierarchien, Budgets, Zielgruppen und API-basierte Optimierung mit weniger Rätselraten zu steuern.

Ad Optimization

Favoriten 0GitHub 611

existing-repo

von alinaqi

existing-repo hilft Agents dabei, eine bestehende Codebasis zu analysieren, den Stack und die Konventionen zu erkennen und Leitplanken zu setzen, ohne lokale Muster zu brechen. Verwende dieses existing-repo-Skill für Git-Workflows, Arbeiten an Repos beim ersten Einstieg, Wartung und Setup-Änderungen, bei denen erst verstehen und dann ändern besonders wichtig ist.

Git Workflows

Favoriten 0GitHub 607

composio

von ComposioHQ

Nutze Composio, um KI-Workflows über CLI oder SDK mit externen Apps zu verbinden. Dieses Composio-Skill ist auf Workflow-Automatisierung, App-Aktionen, Verbindungen pro Nutzer, Toolkit-Erkennung und einen praxisnahen Installations- und Nutzungsleitfaden ausgelegt, bevor du mit dem Aufbau beginnst.

Workflow Automation

Favoriten 0GitHub 48