agentic-eval

von github

agentic-eval ist eine GitHub Copilot Skill, die zeigt, wie sich Evaluierungsschleifen für KI-Ausgaben mit Reflection, rubric-basierter Bewertung und Evaluator-Optimizer-Mustern aufbauen lassen.

Stars27.8k

Favoriten0

Kommentare0

Hinzugefügt31. März 2026

KategorieModel Evaluation

Installationsbefehl

npx skills add github/awesome-copilot --skill agentic-eval

Kurationswert

Diese Skill erreicht 68/100. Damit ist sie für Verzeichnisnutzer geeignet, die wiederverwendbare Evaluierungsmuster suchen. Erwartet werden sollte jedoch eher ein konzeptlastiger Leitfaden als eine sofort einsatzbereite Skill mit ausführbaren Assets. Das Repository bietet genug Substanz, um zu verstehen, wann es sinnvoll ist, sie aufzurufen und welche Arten von Evaluator-Refiner-Schleifen unterstützt werden. Nutzer müssen die Muster aber weiterhin auf ihre eigenen Tools und Prompts übertragen.

68/100

Stärken

Hohe Auslösbarkeit durch Frontmatter und Beispiele: Self-Critique, Evaluator-Optimizer-Pipelines, rubric-basierte Beurteilung und Anwendungsfälle für iterative Qualitätsverbesserung werden ausdrücklich genannt.
Bietet echten Workflow-Nutzen durch mehrere dokumentierte Muster, darunter eine grundlegende Reflection-Schleife und weitere agentische Evaluierungsansätze statt nur einer Platzhalterbeschreibung.
Die progressive Struktur ist solide: Überblick, Hinweise zum sinnvollen Einsatz und Beispiele in Codeblöcken helfen Agents und Nutzern, die beabsichtigte Evaluierungsschleife schnell zu verstehen.

Hinweise

Die operative Klarheit ist durch fehlende Installationsanweisungen, Support-Dateien oder ausführbare Referenzen eingeschränkt; für die Einführung ist daher manuelle Anpassung nötig.
Die Skill wirkt eher musterorientiert als umgebungsspezifisch. Es gibt nur wenig Hinweise zu Einschränkungen, Fehlermodi oder dazu, wie man in der Praxis zwischen den Mustern wählt.

Copilot Testing Llm Ai Agents Workflow

Überblick

Überblick über den agentic-eval skill

Was agentic-eval leistet

Der agentic-eval skill ist ein kompakter Leitfaden, um Bewertungs- und Verbesserungsschleifen in AI-Workflows einzubauen, statt den ersten Entwurf einfach zu übernehmen. Die Kernidee ist einfach: ein erstes Ergebnis erzeugen, es anhand expliziter Kriterien bewerten und es dann in einer oder mehreren Überarbeitungsrunden verbessern. Wenn Sie an Codegenerierung, strukturierter Analyse, Berichten oder anderen qualitätssensiblen Aufgaben arbeiten, hilft agentic-eval, aus „einmal generieren“ ein belastbares „generieren, evaluieren, verbessern“ zu machen.

Für wen sich agentic-eval lohnt

Dieser Skill passt zu Teams und Einzelpersonen, die AI bereits für produktionsnahe Arbeit einsetzen und mehr Verlässlichkeit brauchen als ein einzelner Prompt liefern kann. Besonders nützlich ist er für:

Entwickler, die Coding-Agents um Selbstkritik ergänzen wollen
Teams, die Evaluator-Optimizer-Pipelines entwerfen
Nutzer, die rubric-basierte Review-Workflows aufbauen
alle, die Modellevaluation betreiben, bei der sich Output-Qualität gegen definierte Standards prüfen lässt

Der eigentliche Job-to-be-done

Die meisten Nutzer brauchen keine weitere allgemeine Prompt-Vorlage. Sie brauchen einen wiederholbaren Weg, um:

festzulegen, was „gut“ bedeutet,
eine Antwort gegen diesen Maßstab zu bewerten,
anhand konkreter Lücken zu überarbeiten,
nach ausreichender Qualität oder einer festen Zahl von Iterationen zu stoppen.

Genau hier ist agentic-eval for Model Evaluation am nützlichsten: Der Skill liefert ein leichtgewichtiges Muster für kontrollierte Verbesserungsschleifen.

Was diesen Skill unterscheidet

Der Wert von agentic-eval liegt nicht in seiner Breite, sondern in seinem Fokus. Das Repository konzentriert sich auf einige wenige, praxisnahe Evaluationsmuster statt auf ein großes Framework. Dadurch lässt sich der Skill schnell in bestehende Agent- oder Prompt-Workflows übernehmen. Die wichtigsten Unterscheidungsmerkmale sind:

explizite Reflexionsschleifen
Evaluator-Optimizer-Denke
gute Eignung für rubric-gesteuerte Outputs
direkte Anwendbarkeit auf testähnliche oder standardbasierte Überarbeitung

Wann agentic-eval besonders gut passt

Nutzen Sie den agentic-eval skill, wenn die Aufgabe überprüfbare Kriterien hat, zum Beispiel:

Tests bestehen
Format- oder Stilvorgaben einhalten
faktische Vollständigkeit anhand einer Rubrik verbessern
die Qualität der Begründung in Berichten oder Analysen schärfen
die Codequalität vor dem finalen Output anheben

Wenn Erfolg vage, stark subjektiv oder nicht einmal grob bewertbar ist, wird dieser Skill deutlich unzuverlässiger.

So verwenden Sie den agentic-eval skill

Installationskontext und Zugriffspfad

Das Repository-Signal zeigt nur eine einzelne SKILL.md, daher besteht agentic-eval install im Wesentlichen darin, den Skill Ihrer skill-fähigen Umgebung hinzuzufügen und die Skill-Datei dann direkt zu lesen. Wenn Sie den GitHub Copilot skills workflow nutzen, fügen Sie den Skill aus dem Repository github/awesome-copilot hinzu und öffnen Sie zuerst skills/agentic-eval/SKILL.md. Es gibt keine unterstützenden Skripte, Regeln oder Referenzdateien, die die eigentliche Arbeit übernehmen. Das Prompt-Design ist deshalb wichtiger als sonst.

Diese Datei zuerst lesen

Starten Sie mit:

SKILL.md

Da das Repo keine Helper-Assets enthält, ist der sinnvolle Leseweg kurz. Lesen Sie vor allem die Abschnitte zu:

Overview
When to Use
Pattern 1: Basic Reflection
Pattern 2: Evaluator-Optimizer

Diese Abschnitte bilden die eigentliche Umsetzungsoberfläche des Skills.

Welche Eingaben agentic-eval braucht

agentic-eval usage wird deutlich besser, wenn Sie von Anfang an vier Dinge mitgeben:

die zu erledigende Aufgabe
die Bewertungskriterien
die maximale Zahl der Überarbeitungsrunden
die Stop-Bedingung

Eine schwache Anfrage wäre: „Verbessere diese Antwort.“
Eine deutlich stärkere Anfrage wäre: „Erstelle einen Migrationsplan, bewerte ihn dann auf Vollständigkeit, Risikoabdeckung, Reihenfolge und Klarheit des Rollback-Plans. Überarbeite ihn bis zu 3-mal und gib die finale Version plus die wichtigsten Änderungen zurück.“

Ein grobes Ziel in einen nutzbaren Prompt verwandeln

Ein praxisnaher Prompt im Stil eines agentic-eval guide hat meist diese Form:

Task: was erzeugt werden muss
Context: Ausgangsfakten, Einschränkungen, Zielgruppe
Criteria: woran das Ergebnis gemessen wird
Evaluation mode: Selbstkritik oder separater Evaluator-Durchlauf
Iteration limit: meist 2 bis 4
Output contract: nur finale Antwort oder Kritik + Revisionshistorie

Beispielstruktur:

Task: „Write a design review memo for the API change.”
Context: “Audience is staff engineers; must mention backward compatibility risks.”
Criteria: “Accuracy, completeness, decision clarity, concrete risks, actionable recommendation.”
Loop: “Generate, evaluate against the rubric, revise, repeat up to 3 times.”
Output: “Return final memo and a short list of fixes made.”

Das Basic-Reflection-Muster in der Praxis mit agentic-eval

Das erste Muster in agentic-eval ist Basic Reflection: Dasselbe Modell kritisiert den eigenen Output und verbessert ihn anschließend. Das ist der einfachste Einstieg, weil es nur wenig operativen Mehraufwand verursacht.

Nutzen Sie dieses Muster, wenn:

die Aufgabe mittlere Relevanz hat
Sie schnell bessere Qualität brauchen
Sie keine mehreren Agents oder Modelle orchestrieren wollen

Am besten funktioniert es, wenn die Kritik konkret ist. Fordern Sie lieber eine Bewertung Kriterium für Kriterium oder das Auffinden klarer Lücken an statt eines pauschalen „prüf das mal“.

Das Evaluator-Optimizer-Muster in der Praxis

Das zweite Muster eignet sich besser für qualitätskritische Workflows. Ein Durchlauf erstellt den Entwurf, ein weiterer bewertet ihn, und ein anschließender Schritt überarbeitet ihn. Diese Trennung führt oft zu disziplinierteren Ergebnissen, weil Evaluation als eigener Arbeitsschritt behandelt wird.

Nutzen Sie es, wenn:

der Output eine Rubrik erfüllen muss
Sie eine klarere Audit-Spur dafür wollen, warum Überarbeitungen erfolgt sind
Sie wiederholt agentic-eval for Model Evaluation über viele Items hinweg einsetzen

Dieses Muster lässt sich außerdem leichter benchmarken, weil sich Entwurfsqualität, Kritikqualität und Endqualität getrennt vergleichen lassen.

Gute Kriterien entscheiden über das Ergebnis

Die größte Hürde bei der Einführung sind schwache Bewertungskriterien. Wenn Sie dem Modell nur unscharfe Maßstäbe geben, verstärkt die Schleife diese Unschärfe lediglich. Bevorzugen Sie Kriterien, die:

beobachtbar sind
spezifisch sind
zur Aufgabe passen
so wenige sind, dass sie konsistent anwendbar bleiben

Besser:

„Includes migration steps, risk analysis, rollback plan, and owner assignments”
Schlechter:
“Make it better and more professional”

Empfohlener Workflow für reale Aufgaben

Ein praxistauglicher Workflow für agentic-eval usage sieht so aus:

einmal aus Aufgabe und Kontext einen Entwurf erzeugen
ihn gegen eine kurze Rubrik bewerten
konkrete Mängel identifizieren, nicht bloß allgemeine Eindrücke
nur anhand dieser Mängel überarbeiten
bei erreichter Qualitätsschwelle oder Iterationslimit stoppen

So vermeiden Sie Endlosschleifen und halten Überarbeitungen an messbaren Problemen fest.

Wann normales Prompting ausreicht

Verwenden Sie den agentic-eval skill nicht für alles. Wenn die Aufgabe risikoarm ist, ist One-shot-Generierung meist günstiger und schneller. Einfaches Brainstorming, grobe Ideensammlung oder Wegwerf-Entwürfe brauchen oft keine iterative Evaluation. Den größten Mehrwert liefert der Skill dort, wo schlechte Ergebnisse echte Kosten verursachen.

Praktisches Prompt-Beispiel

Eine starke Invocation sieht so aus:

“Create a Python function for CSV import validation. Then evaluate your solution against these criteria: correctness, edge-case coverage, error handling, readability, and testability. List the top 3 issues, revise the code, and stop after 2 refinement rounds or when all criteria are satisfied.”

Warum das funktioniert:

der Artefakttyp ist klar
die Rubrik ist explizit
der Evaluations-Output ist begrenzt
die Stop-Regel verhindert unnötige Überiteration

FAQ zum agentic-eval skill

Ist agentic-eval gut für Einsteiger geeignet

Ja, wenn Sie die Grundlagen des Promptings bereits verstehen. Der Skill selbst ist konzeptionell einfach, aber gute Ergebnisse hängen davon ab, dass Sie brauchbare Kriterien formulieren. Einsteiger sollten mit Basic Reflection beginnen, bevor sie formellere Evaluator-Optimizer-Setups ausprobieren.

Was ist der wichtigste Vorteil gegenüber einem normalen Prompt

Ein normaler Prompt fordert eine einzige Antwort an. agentic-eval ergänzt eine Qualitätssicherungsschleife. Der praktische Gewinn sind nicht einfach „mehr Worte“, sondern ein besseres Erkennen von Auslassungen, schwacher Begründung oder Verletzungen von Vorgaben, bevor das finale Ergebnis ausgegeben wird.

Wann sollte ich agentic-eval nicht verwenden

Lassen Sie es weg, wenn:

die Aufgabe keine klaren Erfolgskriterien hat
Geschwindigkeit wichtiger ist als Qualität
der Output explorativ statt bewertbar ist
Sie nicht erkennen können, ob die Überarbeitung tatsächlich etwas verbessert hat

Ist agentic-eval nur für Code gedacht

Nein. Der Skill passt zu Code, Analysen, Berichten und anderen strukturierten Outputs. Die gemeinsame Voraussetzung ist Bewertbarkeit. Wenn Sie eine Rubrik definieren können, kann der agentic-eval skill in der Regel helfen.

Enthält agentic-eval Tooling oder Automatisierung

Nicht in diesem Repository-Stand. Der Skill ist guidance-first aufgebaut und bietet Muster und Beispiele in SKILL.md, nicht aber eine paketierte Library oder ein Script-Set. Sie werden die Schleife daher voraussichtlich in Ihren eigenen Agent, Ihre Prompt-Kette oder Ihre Orchestrierungsschicht einbauen.

Wie viele Iterationen sollte ich ausführen

Meist reichen 2 bis 3. Mehr Runden können bei komplexen Aufgaben helfen, erhöhen aber auch Drift, Kosten und die Gefahr selbstbestätigender Kritik. Definieren Sie besser eine Stop-Bedingung, statt davon auszugehen, dass mehr Schleifen automatisch bessere Qualität liefern.

So verbessern Sie den agentic-eval skill

Beginnen Sie damit, Ihre Rubrik zu schärfen

Der schnellste Weg zu besseren Ergebnissen mit agentic-eval ist fast immer eine bessere Bewertungsrubrik, nicht ein besserer Generierungs-Prompt. Eine kompakte Rubrik mit 4 bis 6 Dimensionen schlägt meist eine lange Checkliste. Formulieren Sie jede Dimension so handlungsnah, dass das Modell gezielt dagegen überarbeiten kann.

Geben Sie dem Evaluator die Quellvorgaben mit

Wenn der Output an Anforderungen ausgerichtet sein muss, gehören diese Anforderungen auch in den Evaluationsschritt. Zum Beispiel:

erforderliche Abschnitte
Policy-Vorgaben
Interface Contracts
Acceptance Tests
Anforderungen an Zielgruppe und Tonalität

Ohne diese Informationen optimiert der Evaluator leicht auf Plausibilität statt auf tatsächlichen Aufgabenerfolg.

Fordern Sie vor der Überarbeitung zuerst eine Fehlerdiagnose an

Ein häufiger Fehler ist, zu schnell von der Kritik zum Rewrite zu springen. Bessere Ergebnisse entstehen, wenn das Modell zuerst die Probleme mit dem größten Einfluss benennt. So konzentriert sich die Überarbeitung auf echte Lücken, statt alles neu zu formulieren.

Oberflächliches Eigenlob verhindern

Ein typischer Fehlmodus bei agentic-eval for Model Evaluation ist schwache Kritik wie „sieht insgesamt gut aus“. Wirken Sie dem entgegen, indem Sie Folgendes verlangen:

Bewertung Kriterium für Kriterium
explizit fehlende Elemente
Schweregrad-Ranking
Belege aus dem Entwurf

Das erzwingt ein nützlicheres Evaluationsverhalten.

Entwurfsqualität und Bewertungsqualität getrennt betrachten

Wenn die Ergebnisse weiterhin enttäuschen, prüfen Sie, ob das Problem eher bei:

einem schwachen ersten Entwurf
einer schwachen Kritik
mangelnder Disziplin in der Überarbeitung

Das ist wichtig, weil jeder Schritt andere Korrekturen braucht. Ein starker Evaluator kann fehlenden Quellkontext nicht retten, und ein guter Entwurf kann unter vagen Revisionsanweisungen trotzdem schlechter werden.

Nach dem ersten Lauf die Eingaben verbessern

Nach einem ersten Durchgang sollten Sie den Prompt anhand der beobachteten Schwächen nachschärfen:

fehlenden Kontext ergänzen
schwache Kriterien umschreiben
das Ausgabeformat enger fassen
widersprüchliche Anweisungen entfernen
die Iterationszahl senken, wenn Überarbeitungen abschweifen

Das beste Verhalten im Sinne eines agentic-eval guide entsteht meist nach ein oder zwei gezielten Prompt-Anpassungen auf Basis realer Fehlmuster.

Explizite Stop-Regeln verwenden

Um Qualität zu verbessern und Kosten unter Kontrolle zu halten, sollten Sie klar definieren, wann die Schleife endet:

alle Muss-Kriterien erfüllt
keine kritischen Probleme mehr offen
maximal 3 Runden erreicht

So vermeiden Sie Polierschleifen, die nur Formulierungen ändern, ohne den Inhalt zu verbessern.

Das Muster an die Tragweite der Aufgabe anpassen

Verwenden Sie Basic Reflection für leichtgewichtige Qualitätsverbesserung. Nutzen Sie Evaluator-Optimizer für Deliverables mit höherem Risiko, wiederkehrende Workflows oder benchmark-ähnliche Reviews. Wenn Sie das einfachere Muster wählen, wo es ausreicht, bleibt die Entscheidung für agentic-eval install leichter und der Workflow besser wartbar.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

evaluation-methodology

von wshobson

Die evaluation-methodology Skill erklärt das PluginEval-Scoring für Model Evaluation, einschließlich Ebenen, Rubriken, zusammengesetzter Bewertung, Badge-Schwellen und praxisnaher Hinweise zur Interpretation von Ergebnissen und zur Verbesserung schwacher Dimensionen.

Model Evaluation

Favoriten 0GitHub 32.6k

healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation

Favoriten 0GitHub 156.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

agent-eval

von affaan-m

agent-eval ist eine Skill zur direkten Bewertung von Coding-Agents anhand reproduzierbarer Aufgaben. Verglichen werden Erfolgsquote, Kosten, Zeit und Konsistenz. Mit der agent-eval Skill können Sie Claude Code, Aider, Codex oder einen anderen Agent in Ihrem eigenen Repo mit deutlich belastbareren Ergebnissen als bei ad hoc Prompts evaluieren.

Model Evaluation

Favoriten 0GitHub 156k

huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation

Favoriten 0GitHub 10.4k

huggingface-best

von huggingface

Die huggingface-best Skill hilft dir, das beste Modell für eine Aufgabe zu finden, indem sie Hugging Face-Benchmark-Leaderboards prüft und nach Gerätegrenzen sowie Modellgröße filtert. Nutze sie für Modell-Empfehlungen in Coding, Reasoning, Chat, OCR, RAG, Speech, Vision oder multimodalen Workflows, wenn du eine praktische Shortlist statt einer allgemeinen Modellliste brauchst.

Model Evaluation

Favoriten 0GitHub 10.4k

libafl

von trailofbits

Die libafl-Skill hilft Ihnen dabei, modulare Fuzzer mit LibAFL für eigene Targets, Mutationsstrategien und Security-Audit-Workflows zu planen und aufzubauen. Nutzen Sie diesen libafl-Leitfaden, um von den Target-Details zu einem praktikablen Harness, Feedback-Modell und Run-Plan zu kommen – mit weniger Annahmen.

Security Audit

Favoriten 0GitHub 5k

evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Skill Testing

Favoriten 0GitHub 0

judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems

Favoriten 0GitHub 982

gws-modelarmor

von googleworkspace

gws-modelarmor hilft dir, mit Google Model Armor im googleworkspace/cli-Ökosystem zu arbeiten. Damit kannst du Prompts bereinigen, Modellantworten bereinigen und Templates mit weniger Rätselraten als bei einem generischen Prompt erstellen. Die Skill ist auf wiederholbare, richtlinienbewusste Nutzung und Security-Audit-Workflows ausgelegt.

Security Audit

Favoriten 0GitHub 25.5k

analyzing-campaign-attribution-evidence

von mukul975

analyzing-campaign-attribution-evidence hilft Analysten dabei, Infrastruktur-Überschneidungen, ATT&CK-Konsistenz, Malware-Ähnlichkeiten, Zeitbezug und sprachliche Artefakte abzuwägen, um belastbare Kampagnenzuschreibungen vorzunehmen. Nutzen Sie diesen analyzing-campaign-attribution-evidence-Leitfaden für CTI, Incident-Analysen und Security-Audit-Reviews.

Security Audit

Favoriten 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

von mukul975

detecting-ai-model-prompt-injection-attacks ist eine Cybersecurity-Skill zum Prüfen untrusted Texts, bevor er ein LLM erreicht. Sie nutzt gestaffelte Regex-Prüfungen, heuristische Bewertung und DeBERTa-basierte Klassifikation, um direkte und indirekte Prompt-Injection-Angriffe zu erkennen. Nützlich für die Eingabevalidierung von Chatbots, die Dokumentenaufnahme und Threat Modeling.

Threat Modeling

Favoriten 0GitHub 0

llm-evaluation

von wshobson

Mit dem Skill llm-evaluation erstellen Sie wiederholbare Evaluationspläne für LLM-Apps, Prompts, RAG-Systeme und Modelländerungen – mit Metriken, menschlicher Bewertung, Benchmarking und Regressionsprüfungen.

Model Evaluation

Favoriten 0GitHub 32.6k

ai-prompt-engineering-safety-review

von github

ai-prompt-engineering-safety-review ist eine Skill zur Prompt-Prüfung, mit der LLM-Prompts vor dem Produktiveinsatz, vor Evaluationen oder vor kundennahen Anwendungen auf Sicherheit, Bias, Sicherheitslücken und Ausgabequalität überprüft werden.

Model Evaluation

Favoriten 0GitHub 27.8k

ml-pipeline-workflow

von wshobson

ml-pipeline-workflow ist ein praxisnaher Leitfaden für die Konzeption durchgängiger MLOps-Pipelines für Datenaufbereitung, Training, Validierung, Deployment und Monitoring – inklusive Orchestrierungsmustern für wiederholbare Workflow-Automatisierung.

Workflow Automation

Favoriten 0GitHub 0

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k