llm-evaluation

von wshobson

Mit dem Skill llm-evaluation erstellen Sie wiederholbare Evaluationspläne für LLM-Apps, Prompts, RAG-Systeme und Modelländerungen – mit Metriken, menschlicher Bewertung, Benchmarking und Regressionsprüfungen.

Stars32.6k

Favoriten0

Kommentare0

Hinzugefügt30. März 2026

KategorieModel Evaluation

Installationsbefehl

npx skills add wshobson/agents --skill llm-evaluation

Kurationswert

Dieser Skill erreicht 68/100. Damit ist er für Verzeichnisnutzer akzeptabel, die eine strukturierte Anleitung zur Evaluierung von LLM-Apps suchen. Sie sollten jedoch eher ein dokumentationslastiges Framework erwarten als einen stark operativen Skill mit ausführbaren Assets oder klaren Ausführungsschritten.

68/100

Stärken

Hohe Auslösbarkeit: Der Skill macht klar, wann er eingesetzt werden sollte, etwa für Regressionstests, Modell-/Prompt-Vergleiche und die Validierung in Produktion.
Substanzieller Workflow-Inhalt: Das Dokument deckt mehrere Evaluationsmodi ab, darunter automatisierte Metriken, menschliche Bewertung, Benchmarking und A/B-Tests, statt auf Platzhalterniveau zu bleiben.
Nützlicher konzeptioneller Hebel: Er bietet Agents eine wiederverwendbare Evaluations-Taxonomie für Textgenerierung, Klassifikation und RAG-Aufgaben, die strukturierter ist als ein generischer Prompt.

Hinweise

Die operative Klarheit ist durch fehlende Installations- und Ausführungshinweise, Skripte und referenzierte Unterstützungsdateien eingeschränkt; Agents müssen Implementierungsdetails daher weiterhin selbst ableiten.
Die Belege zeigen nur wenige explizite Einschränkungen oder Entscheidungsregeln, was die Auswahl von Metriken und die Durchführung in realen Projekten uneinheitlich machen kann.

Llm Testing Ai Metrics Reliability Workflow

Überblick

Überblick über die llm-evaluation-Skill

Die llm-evaluation-Skill ist ein praxisnahes Framework, um Evaluierungen für LLM-Apps, Prompts und Modelländerungen zu entwerfen. Sie eignet sich besonders für Builder, die mehr brauchen als „fühlt sich besser an“ und einen wiederholbaren Weg suchen, Qualität zu messen, Varianten zu vergleichen und Regressionen vor dem Release zu erkennen.

Für wen diese llm-evaluation-Skill gedacht ist

Diese llm-evaluation-Skill passt für Teams und Einzelentwickler, die an Folgendem arbeiten:

Prompt-Iterationen
Modellvergleichen
Qualitätsprüfungen für RAG
Klassifikations- oder Extraktionsaufgaben
Produktions-QA für LLM-Funktionen
Aufbau von Benchmarks für fortlaufende Releases

Wenn Sie die Frage beantworten wollen: „Hat diese Änderung das System tatsächlich verbessert?“, ist diese Skill eine sehr gute Wahl.

Welches Problem die Skill konkret löst

Die eigentliche Aufgabe besteht darin, vage Qualitätsbedenken in einen brauchbaren Evaluierungsplan zu übersetzen. Statt nach allgemeinem Test-Rat zu fragen, nutzen Sie llm-evaluation, um den passenden Evaluierungstyp zu wählen, Metriken festzulegen, menschliche Reviews dort einzubauen, wo Automatisierung schwach ist, und Vergleiche über die Zeit sauber zu strukturieren.

Was llm-evaluation von einem generischen Prompt unterscheidet

Ein generischer Prompt könnte vorschlagen: „Nutze BLEU, F1 und menschliches Review.“ Diese llm-evaluation skill ist hilfreicher, wenn Sie Evaluierungsmethoden auf die tatsächliche Form Ihrer Anwendung abbilden müssen:

Aufgaben zur Textgenerierung brauchen andere Metriken als Klassifikation
RAG-Systeme benötigen Retrieval-Metriken, nicht nur Urteile über die Ausgabe
manche Eigenschaften wie Hilfreichkeit oder Tonalität erfordern menschliche Bewertung
A/B-Tests und Regressionsprüfungen brauchen Baselines statt einmaliger Scores

Damit ist sie deutlich stärker auf Entscheidungen ausgerichtet als eine lockere Anfrage wie „Wie evaluiere ich mein LLM?“.

Was vor der Installation am wichtigsten ist

Bevor Sie llm-evaluation nutzen, sollten drei Dinge klar sein:

welche Aufgabe Sie evaluieren
was „gut“ für diese Aufgabe bedeutet
ob Sie automatisierte Metriken, menschliches Review oder beides brauchen

Wenn das noch unscharf ist, kann die Skill trotzdem helfen, aber die Ergebnisse bleiben eher auf hohem Niveau.

Zentrale Trade-offs und Grenzen

Diese Skill liefert Evaluierungsstrategie, aber keinen fertig verpackten Evaluation Runner. Sie hilft beim Design des Frameworks und bei der Auswahl geeigneter Methoden, aber Datensatz, Tooling und Ausführungsumgebung müssen Sie selbst bereitstellen. Wenn Sie ein vollständig automatisiertes Framework mit eingebauten Pipelines suchen, sollten Sie diese Skill eher als Planungsleitfaden denn als sofort einsetzbare Infrastruktur verstehen.

So verwenden Sie die llm-evaluation-Skill

So installieren Sie die llm-evaluation-Skill

Verwenden Sie den Standard-Installationsablauf für Skills:

npx skills add https://github.com/wshobson/agents --skill llm-evaluation

Nach der Installation rufen Sie die Skill auf, wenn Sie Hilfe beim Entwerfen oder Verbessern eines Evaluierungsplans für eine LLM-Anwendung benötigen.

Was Sie im Repository zuerst lesen sollten

Diese Skill ist ungewöhnlich in sich geschlossen. Starten Sie mit:

plugins/llm-application-dev/skills/llm-evaluation/SKILL.md

Da es keine offensichtlichen Helper-Skripte oder Resource-Dateien gibt, steckt der Großteil des Nutzens im schriftlich ausgearbeiteten Framework selbst. Lesen Sie zuerst die Abschnitte „When to Use This Skill“ und „Core Evaluation Types“.

Welche Eingaben die Skill braucht, um nützlich zu sein

Die Qualität der llm-evaluation usage hängt stark von den Eingaben ab, die Sie liefern. Geben Sie möglichst Folgendes an:

Ihren Anwendungstyp: Zusammenfassung, Chatbot, RAG, Extraktion, Klassifikation usw.
die Änderung, die evaluiert werden soll: neuer Prompt, Modellwechsel, Retrieval-Update, Policy-Änderung
Beispiel-Eingaben und erwartete Ausgaben
aktuelle Fehlermuster
Deployment-Einschränkungen: Geschwindigkeit, Kosten, Sicherheit, Review-Kapazität
ob Sie Offline-Benchmarking, menschliches Review oder Online-Testing benötigen

Ohne diesen Kontext bleibt die Skill sinnvollerweise generisch.

Wie Sie aus einem groben Ziel einen starken Prompt machen

Schwaches Ziel:

„Hilf mir, meine LLM-App zu evaluieren.“

Stärkeres Ziel:

„Use the llm-evaluation skill to design an evaluation plan for a customer-support RAG assistant. We are comparing two prompts and one retriever change. We need offline metrics for retrieval quality, human review dimensions for answer quality, and a regression checklist we can run before deployment.”

Diese stärkere Version sagt der Skill, welches System sich verändert, welche Art von Evaluierung gebraucht wird und welche Entscheidung die Evaluierung stützen soll.

Prompt-Vorlage für die llm-evaluation-Nutzung

Verwenden Sie eine Anfrage mit Elementen wie diesen:

Aufgabentyp
Systemarchitektur
Varianten, die verglichen werden
Größe und Quelle des Evaluierungsdatensatzes
zentrale Risiken
bevorzugte Metriken
akzeptable Trade-offs

Beispielstruktur:

“Use llm-evaluation for Model Evaluation of a RAG assistant. Recommend automated metrics, human evaluation criteria, and an A/B testing approach. We care most about factual accuracy, citation usefulness, and regression detection. Suggest a minimal first version and an expanded version.”

Den richtigen Evaluierungstyp wählen

Die Skill deckt mehrere Evaluierungsmodi ab. In der Praxis gilt:

nutzen Sie automatisierte Metriken für Wiederholbarkeit und Skalierung
nutzen Sie menschliche Evaluierung für subjektive oder nuancierte Qualitätsmerkmale
nutzen Sie Benchmarking, um Versionen über die Zeit zu vergleichen
nutzen Sie A/B-Tests, wenn echtes Nutzerverhalten relevant ist

Ein häufiger Fehler ist, sich zu stark auf nur eine Methode zu verlassen. Zum Beispiel nur auf BLEU bei generativen Aufgaben oder nur auf menschliches Review bei großen Regressionschecks.

Metrikauswahl nach Aufgabentyp

Der Aufgabentyp sollte die Metrik bestimmen:

Textgenerierung: BLEU, ROUGE, METEOR, BERTScore, Perplexity
Klassifikation: Accuracy, Precision, Recall, F1, Confusion Matrix, AUC-ROC
Retrieval / RAG: MRR, NDCG, Precision@K, Recall@K

Der praktische Kernpunkt: Erzwingen Sie keine Textgenerierungsmetriken für Retrieval-Probleme und umgekehrt. Der llm-evaluation guide ist am nützlichsten, wenn Sie die Metriken auf die tatsächlich getestete Systemschicht abstimmen.

Wann menschliche Evaluierung dazugehören sollte

Fügen Sie menschliches Review hinzu, wenn Ihre Erfolgskriterien Dinge wie diese umfassen:

faktische Genauigkeit bei offenen Antworten
Hilfreichkeit
Kohärenz
Tonalität
Befolgung von Anweisungen
Sicherheit oder Policy-Compliance

Menschliches Review ist besonders wichtig, wenn automatisierte Scores gut aussehen können, obwohl die tatsächlichen Antworten weiterhin schwach sind.

Ein praktischer Workflow, der Rätselraten reduziert

Ein guter erster Workflow für Nutzer nach der llm-evaluation install:

definieren Sie eine Aufgabe und ein Nutzerergebnis
sammeln Sie ein kleines, aber repräsentatives Testset
wählen Sie 2–4 automatisierte Metriken, die zur Aufgabe passen
definieren Sie 3–5 Dimensionen für menschliches Review
bewerten Sie ein Baseline-System
vergleichen Sie immer nur eine Änderung zur Zeit
dokumentieren Sie Fehler, nicht nur Durchschnittswerte

So bleibt die Evaluierung leichtgewichtig genug, um sie wirklich einzuführen, und zugleich methodisch solide.

Wobei die Skill am meisten hilft

Diese llm-evaluation skill ist besonders stark, wenn Sie Unterstützung brauchen bei:

der Auswahl von Evaluierungsmethoden
dem Aufbau eines Benchmarks
der Kombination aus menschlicher und automatisierter Bewertung
der Planung von Vergleichen zwischen Prompts oder Modellen
dem Aufbau von Sicherheit vor dem Deployment

Weniger nützlich ist sie, wenn Sie nur einen Einzeiler-Prompt brauchen, um „Outputs zu bewerten“, oder wenn Sie bereits ein ausgereiftes Evaluation Harness haben und nur noch Implementierungscode benötigen.

Häufiger Anwendungsfehler: Evaluieren ohne Baseline

Viele Teams fragen, ob Version B „gut“ ist. Die nützlichere Frage lautet, ob Version B bei den wichtigen Fällen besser ist als Version A. Bitten Sie die Skill in Ihrem Prompt darum, Folgendes festzulegen:

Baseline-Metriken
Vergleichsregeln
Pass/Fail-Schwellenwerte
Regressionskriterien

Dadurch wird llm-evaluation for Model Evaluation deutlich handlungsnäher.

FAQ zur llm-evaluation-Skill

Ist llm-evaluation gut für Einsteiger?

Ja, sofern Sie Ihren App-Typ und das angestrebte Verbesserungsziel bereits kennen. Die Skill erklärt die wichtigsten Evaluierungskategorien klar. Weniger einsteigerfreundlich ist sie, wenn Aufgabe, Datensatz oder Erfolgskriterien noch gar nicht definiert sind.

Brauche ich zuerst einen formalen Benchmark-Datensatz?

Nein, aber Sie brauchen Beispiele. Selbst ein kleines, kuratiertes Testset ist besser, als jedes Mal mit ad hoc formulierten Prompts zu evaluieren. Den größten Nutzen bringt die Skill, sobald Sie repräsentative Fälle und erwartetes Verhalten zeigen können.

Ist diese Skill nur für akademische Evaluierung gedacht?

Nein. Der Inhalt im Repository ist praxisnah: Modellvergleich, Prompt-Validierung, Regressionserkennung, Sicherheit vor dem Produktionseinsatz und A/B-Testing. Das ist für Produktteams relevant, nicht nur für Forschungs-Workflows.

Wann sollte ich llm-evaluation nicht verwenden?

Überspringen Sie llm-evaluation, wenn Ihr Bedarf rein implementierungsspezifisch ist, etwa beim Verdrahten eines bestimmten Evaluation SDK oder beim Ausführen eines konkreten Framework-Kommandos. Diese Skill dreht sich um Strategie und Design, nicht um eine schlüsselfertige Code-Integration.

Worin unterscheidet sich llm-evaluation davon, ein LLM sich selbst benoten zu lassen?

Selbstbewertung kann Teil eines Workflows sein, ist aber keine vollständige Evaluierungsstrategie. llm-evaluation hilft Ihnen, zweckmäßige Metriken, menschliches Urteilsvermögen, Baselines und Vergleiche zu kombinieren, damit Sie sich nicht auf ein einziges verrauschtes Signal verlassen.

Kann ich llm-evaluation für RAG-Systeme verwenden?

Ja. Tatsächlich passt die Skill hier besonders gut, weil sie Retrieval-Metriken wie MRR, NDCG, Precision@K und Recall@K explizit abdeckt. Das ist wichtig, weil viele schwache Evaluierungen nur den Antworttext bewerten und die Retrieval-Qualität ignorieren.

So verbessern Sie die llm-evaluation-Skill

Geben Sie der llm-evaluation-Skill Details auf Aufgabenebene, nicht nur eine allgemeine App-Beschreibung

Bessere Eingabe:

„Support-Chatbot, der Fragen zu Abrechnungen auf Basis einer Wissensdatenbank beantwortet“

Schlechtere Eingabe:

„AI assistant“

Je konkreter Sie die Aufgabe rahmen, desto besser kann die Skill passende Metriken und Review-Dimensionen empfehlen.

Trennen Sie Systemkomponenten in Ihrem Prompt

Für stärkere llm-evaluation usage sollten Sie die Skill bitten, Schichten getrennt zu evaluieren:

Retrieval-Qualität
Generierungsqualität
Klassifikationsgenauigkeit
Sicherheitsverhalten

So vermeiden Sie, dass mehrere Fehlerquellen in einem einzigen vagen Score verschwimmen.

Geben Sie echte Fehlerbeispiele an

Fügen Sie 5–10 schlechte Ausgaben hinzu und erklären Sie, warum sie fehlgeschlagen sind. Zum Beispiel:

halluzinierte Produkt-Policy
relevantes abgerufenes Dokument übersehen
inhaltlich richtige Antwort mit schlechtem Ton
Ablehnung, obwohl die Anfrage eigentlich unkritisch war

Das hilft der Skill, Evaluierungsdimensionen vorzuschlagen, die zu Ihren tatsächlichen Risiken passen.

Fragen Sie zuerst nach einer minimal tragfähigen Evaluierung

Starten Sie nicht direkt mit einem riesigen Framework. Fragen Sie nach:

dem kleinsten sinnvollen Benchmark
den wenigen Metriken, die sich wirklich zu tracken lohnen
der minimalen Rubrik für menschliches Review
einem einfachen Regressionsprozess

Das erleichtert die Einführung erheblich und verhindert Evaluierungspläne, die beeindruckend aussehen, aber nie tatsächlich genutzt werden.

Nutzen Sie Scorecards mit expliziten Kriterien

Wenn Sie menschliche Evaluierung anfordern, bitten Sie die Skill darum, Folgendes festzulegen:

Bewertungsdimensionen
Bewertungsskalen
Beispiele für Pass/Fail
Tie-Break-Regeln für mehrdeutige Fälle

Das reduziert Unterschiede zwischen Reviewern und macht wiederholte Evaluierungen verlässlicher.

Vergleichen Sie immer nur eine Änderung zur Zeit

Ein häufiger Fehler ist, Prompt, Modell, Retriever und Post-Processing gleichzeitig zu ändern. Dann kann die Evaluierung nicht erklären, was das Ergebnis verursacht hat. Bitten Sie llm-evaluation, Experimente so zu strukturieren, dass jeder Test nach Möglichkeit genau eine Variable isoliert.

Verfolgen Sie Regressionen, nicht nur durchschnittliche Verbesserungen

Durchschnittswerte können wichtige Verschlechterungen verdecken. Bitten Sie die Skill, Folgendes zu identifizieren:

Worst-Case-Kategorien
besonders risikoreiche Segmente
nutzerkritische Szenarien
sicherheitssensible Prompts

Das ist eine der größten praktischen Verbesserungen gegenüber oberflächlichen Evaluierungsplänen.

Iterieren Sie nach dem ersten Evaluierungslauf

Bringen Sie nach dem ersten Durchgang die Ergebnisse zurück und bitten Sie die Skill, Folgendes zu verfeinern:

welche Metriken verrauscht waren
welche menschlichen Dimensionen sich überschnitten
wo der Datensatz zu eng gefasst war
welche Fehlercluster neue Testfälle verdienen

Oft wird llm-evaluation erst in dieser zweiten Iteration wirklich wertvoll und nicht nur informativ.

Verbessern Sie llm-evaluation-Ausgaben mit entscheidungsorientierten Anfragen

Fragen Sie nicht nach einem breiten Überblick, sondern nach einem konkreten Entscheidungsartefakt:

„Create a release-gate evaluation plan“
„Design a prompt-comparison benchmark“
„Build a human review rubric for hallucination risk“
„Recommend metrics for RAG retrieval regression checks“

Entscheidungsorientierte Prompts liefern Ergebnisse, die Sie sofort verwenden können.

Kennen Sie die Grenze der Skill

llm-evaluation verbessert die Qualität Ihrer Planung, kann aber keine repräsentativen Daten, sorgfältige Annotationen oder disziplinierte Reviews ersetzen. Wenn Ihre Beispiele schwach sind oder Ihre Erfolgskriterien sich widersprechen, wird auch das Ergebnis schwach ausfallen. Der schnellste Weg, den Nutzen der Skill zu steigern, ist ein spezifischeres und realistischeres Evaluierungs-Briefing.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

evaluation-methodology

von wshobson

Die evaluation-methodology Skill erklärt das PluginEval-Scoring für Model Evaluation, einschließlich Ebenen, Rubriken, zusammengesetzter Bewertung, Badge-Schwellen und praxisnaher Hinweise zur Interpretation von Ergebnissen und zur Verbesserung schwacher Dimensionen.

Model Evaluation

Favoriten 0GitHub 32.6k

healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation

Favoriten 0GitHub 156.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

agent-eval

von affaan-m

agent-eval ist eine Skill zur direkten Bewertung von Coding-Agents anhand reproduzierbarer Aufgaben. Verglichen werden Erfolgsquote, Kosten, Zeit und Konsistenz. Mit der agent-eval Skill können Sie Claude Code, Aider, Codex oder einen anderen Agent in Ihrem eigenen Repo mit deutlich belastbareren Ergebnissen als bei ad hoc Prompts evaluieren.

Model Evaluation

Favoriten 0GitHub 156k

huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation

Favoriten 0GitHub 10.4k

huggingface-best

von huggingface

Die huggingface-best Skill hilft dir, das beste Modell für eine Aufgabe zu finden, indem sie Hugging Face-Benchmark-Leaderboards prüft und nach Gerätegrenzen sowie Modellgröße filtert. Nutze sie für Modell-Empfehlungen in Coding, Reasoning, Chat, OCR, RAG, Speech, Vision oder multimodalen Workflows, wenn du eine praktische Shortlist statt einer allgemeinen Modellliste brauchst.

Model Evaluation

Favoriten 0GitHub 10.4k

libafl

von trailofbits

Die libafl-Skill hilft Ihnen dabei, modulare Fuzzer mit LibAFL für eigene Targets, Mutationsstrategien und Security-Audit-Workflows zu planen und aufzubauen. Nutzen Sie diesen libafl-Leitfaden, um von den Target-Details zu einem praktikablen Harness, Feedback-Modell und Run-Plan zu kommen – mit weniger Annahmen.

Security Audit

Favoriten 0GitHub 5k

judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems

Favoriten 0GitHub 982

gws-modelarmor

von googleworkspace

gws-modelarmor hilft dir, mit Google Model Armor im googleworkspace/cli-Ökosystem zu arbeiten. Damit kannst du Prompts bereinigen, Modellantworten bereinigen und Templates mit weniger Rätselraten als bei einem generischen Prompt erstellen. Die Skill ist auf wiederholbare, richtlinienbewusste Nutzung und Security-Audit-Workflows ausgelegt.

Security Audit

Favoriten 0GitHub 25.5k

analyzing-campaign-attribution-evidence

von mukul975

analyzing-campaign-attribution-evidence hilft Analysten dabei, Infrastruktur-Überschneidungen, ATT&CK-Konsistenz, Malware-Ähnlichkeiten, Zeitbezug und sprachliche Artefakte abzuwägen, um belastbare Kampagnenzuschreibungen vorzunehmen. Nutzen Sie diesen analyzing-campaign-attribution-evidence-Leitfaden für CTI, Incident-Analysen und Security-Audit-Reviews.

Security Audit

Favoriten 0GitHub 6.1k

detecting-ai-model-prompt-injection-attacks

von mukul975

detecting-ai-model-prompt-injection-attacks ist eine Cybersecurity-Skill zum Prüfen untrusted Texts, bevor er ein LLM erreicht. Sie nutzt gestaffelte Regex-Prüfungen, heuristische Bewertung und DeBERTa-basierte Klassifikation, um direkte und indirekte Prompt-Injection-Angriffe zu erkennen. Nützlich für die Eingabevalidierung von Chatbots, die Dokumentenaufnahme und Threat Modeling.

Threat Modeling

Favoriten 0GitHub 0

ai-prompt-engineering-safety-review

von github

ai-prompt-engineering-safety-review ist eine Skill zur Prompt-Prüfung, mit der LLM-Prompts vor dem Produktiveinsatz, vor Evaluationen oder vor kundennahen Anwendungen auf Sicherheit, Bias, Sicherheitslücken und Ausgabequalität überprüft werden.

Model Evaluation

Favoriten 0GitHub 27.8k

agentic-eval

von github

agentic-eval ist eine GitHub Copilot Skill, die zeigt, wie sich Evaluierungsschleifen für KI-Ausgaben mit Reflection, rubric-basierter Bewertung und Evaluator-Optimizer-Mustern aufbauen lassen.

Model Evaluation

Favoriten 0GitHub 27.8k

ml-pipeline-workflow

von wshobson

ml-pipeline-workflow ist ein praxisnaher Leitfaden für die Konzeption durchgängiger MLOps-Pipelines für Datenaufbereitung, Training, Validierung, Deployment und Monitoring – inklusive Orchestrierungsmustern für wiederholbare Workflow-Automatisierung.

Workflow Automation

Favoriten 0GitHub 0

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k

create-colleague

von titanwings

create-colleague macht aus Dokumenten, Chats, E-Mails, Screenshots, Feishu- und DingTalk-Daten von Kolleg:innen ein bearbeitbares AI-Skill mit getrennten Ausgaben für Arbeitsweise und Persona sowie Update-Abläufen für die laufende Verfeinerung.

Skill Authoring

Favoriten 1GitHub 747