Evaluation

Evaluation taxonomy generated by the site skill importer.

19 Skills

healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation

Favoriten 0GitHub 156.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

continuous-agent-loop

von affaan-m

continuous-agent-loop unterstützt Agents dabei, wiederholbare autonome Schleifen mit Qualitäts-Gates, Evals, Recovery-Schritten und klaren Stop-Regeln auszuführen, damit Aufgaben verlässlich abgeschlossen werden.

Agent Orchestration

Favoriten 0GitHub 156.1k

self-eval

von alirezarezvani

self-eval ist eine promptbasierte Claude Code Skill für ehrliche Reviews nach erledigter Arbeit. Sie nutzt Zwei-Achsen-Scoring, Devil's-Advocate-Reasoning, Score-Persistenz und Anti-Inflationschecks, um die Qualität von KI-Arbeit nach Aufgaben, Code Reviews oder Arbeitssitzungen zu bewerten.

Model Evaluation

Favoriten 0GitHub 22.2k

prompt-governance

von alirezarezvani

prompt-governance ist ein Claude Skill zur Verwaltung von Produktions-Prompts als versionierte, geprüfte und getestete Assets. Er hilft bei der Planung von Prompt-Registries, Regressionstests, A/B-Experimenten, Eval-Pipelines, Release-Freigaben und Rollback-Workflows für KI-Funktionen.

Prompt Governance

Favoriten 0GitHub 22.2k

run

von alirezarezvani

run ist ein AgentHub-Orchestrierungs-Skill für Claude, der `/hub:run` auslöst, um eine Aufgabe zu initialisieren, Agents zu starten, Ergebnisse zu bewerten und den Gewinner zu mergen. Nutzen Sie ihn für messbare Code-Verbesserungen oder bewertete kreative Vergleiche mit klaren Parametern für task, agent, eval, metric, direction und template.

Agent Orchestration

Favoriten 0GitHub 22.1k

eval

von alirezarezvani

eval ordnet abgeschlossene AgentHub-agent-Ergebnisse nach konfigurierten Metriken, per LLM judge review oder mit einem hybriden Ansatz. Nutzen Sie den Skill mit /hub:eval, um Session-Branches, diffs und result posts zu vergleichen, bevor Sie einen Gewinner auswählen.

Model Evaluation

Favoriten 0GitHub 22.1k

context-degradation

von muratcankoylan

context-degradation ist eine praxisnahe Skill-Lösung zum Diagnostizieren von Kontextfehlern in langen Workflows, darunter lost-in-the-middle, poisoning, distraction, confusion und clash. Verwende es, um zu erkennen, wo der Kontext bricht, zu entscheiden, was zuerst geändert werden sollte, und einen wiederholbaren context-degradation-Leitfaden für Skill Authoring, Prompt-Platzierung und das Debugging produktiver Agenten anzuwenden.

Skill Authoring

Favoriten 0GitHub 15.6k

huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation

Favoriten 0GitHub 10.4k

azure-ai-projects-py

von microsoft

azure-ai-projects-py ist das Python-SDK für Azure AI Projects für Microsoft Foundry-Projektclients. Es eignet sich für Installation, Authentifizierung, Client-Setup, versionierte Agents mit PromptAgentDefinition, Evaluierungen, Verbindungen, Deployments, Datasets, Indexe und OpenAI-kompatienten Zugriff. Besonders geeignet für Backend-Workflows in Python.

Backend Development

Favoriten 0GitHub 2.2k

skill-optimizer

von mcollina

skill-optimizer hilft Autoren dabei, AI Skills für Aktivierung, Klarheit und modellübergreifende Zuverlässigkeit zu verbessern. Nutzen Sie es für Skill Authoring, wenn ein Skill zwar geschrieben, aber nicht zuverlässig befolgt wird, wenn Trigger schwach sind, Regressionen auftreten oder der Kontextverbrauch reduziert werden muss. Es unterstützt Benchmark-Zyklen, Release-Gates und eine präzisere Nutzungstreue.

Skill Authoring

Favoriten 0GitHub 1.8k

tree-of-thoughts

von NeoLabHQ

tree-of-thoughts ist ein Reasoning-Workflow-Skill, der Agenten dabei hilft, mehrere Ansätze zu erkunden, schwache Pfade zu verwerfen und eine bessere Antwort zu verdichten. Er ist nützlich für schwieriges Debugging, Planung, Architektur-Abwägungen und tree-of-thoughts für Agent Orchestration.

Agent Orchestration

Favoriten 0GitHub 982

judge

von NeoLabHQ

Judge ist eine zweiphasige Bewertungs-Skill, die zuerst einen Meta-Judge und dann einen Judge-Sub-Agenten startet, um Arbeiten mit isoliertem Kontext, Belegen und klaren Kriterien zu bewerten. Nutzen Sie sie für reine Report-Reviews von Code, Texten, Analysen oder Skill Authoring, wenn Sie einen belastbaren Judge-Leitfaden statt einer lockeren Meinung benötigen.

Skill Authoring

Favoriten 0GitHub 982

judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems

Favoriten 0GitHub 982

do-and-judge

von NeoLabHQ

Die do-and-judge Skill führt eine einzelne Aufgabe mit einem Implementierungsschritt durch einen Sub-Agenten, einem unabhängigen Judge und einer verifizierenden Wiederholung aus, bis das Ergebnis besteht oder die maximale Anzahl an Versuchen erreicht ist. Verwenden Sie do-and-judge für Workflow-Automatisierung, wenn Sie klare Akzeptanzkriterien, isolierte Ausführung und weniger Rätselraten als bei einem generischen Prompt brauchen.

Workflow Automation

Favoriten 0GitHub 982

do-competitively

von NeoLabHQ

do-competitively hilft dir, wichtige Aufgaben mit paralleler Kandidatengenerierung, rubrikbasierter Bewertung und evidenzgestützter Synthese zu lösen. Es eignet sich besonders für Workflow-Automatisierung und andere risikoreiche Anfragen, bei denen Qualität, Robustheit und der Umgang mit Zielkonflikten wichtiger sind als Geschwindigkeit.

Workflow Automation

Favoriten 0GitHub 982

scholar-evaluation

von K-Dense-AI

scholar-evaluation hilft dabei, wissenschaftliche Arbeiten und Forschungsleistungen mit einem strukturierten Bewertungssystem zu beurteilen – von Problemstellung und Methodik über Analyse und Schreibstil bis hin zur Publikationsreife. Geeignet für akademische Begutachtung, Überarbeitungsplanung und konsistentes Feedback zu Papers, Anträgen, Literaturübersichten und anderen wissenschaftlichen Entwürfen.

Academic Research

Favoriten 0GitHub 0

evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Skill Testing

Favoriten 0GitHub 0

critique

von NeoLabHQ

critique ist ein nur-berichtender Review-Skill, der mehrere spezialisierte Prüfer, Debatte und Konsens nutzt, um abgeschlossene Arbeit zu bewerten. Er hilft bei Code Review, Korrektheit, Qualität und übersehenen Problemen vor dem Merge. Installiere critique im Kontext von NeoLabHQ context-engineering-kit und verwende es mit Dateipfaden, Commits oder Kontext.

Code Review

Favoriten 0GitHub 0