Evaluation

Evaluation taxonomy generated by the site skill importer.

15 Skills
A
healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation
Favoriten 0GitHub 156.2k
A
eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation
Favoriten 0GitHub 156.1k
A
continuous-agent-loop

von affaan-m

continuous-agent-loop unterstützt Agents dabei, wiederholbare autonome Schleifen mit Qualitäts-Gates, Evals, Recovery-Schritten und klaren Stop-Regeln auszuführen, damit Aufgaben verlässlich abgeschlossen werden.

Agent Orchestration
Favoriten 0GitHub 156.1k
M
context-degradation

von muratcankoylan

context-degradation ist eine praxisnahe Skill-Lösung zum Diagnostizieren von Kontextfehlern in langen Workflows, darunter lost-in-the-middle, poisoning, distraction, confusion und clash. Verwende es, um zu erkennen, wo der Kontext bricht, zu entscheiden, was zuerst geändert werden sollte, und einen wiederholbaren context-degradation-Leitfaden für Skill Authoring, Prompt-Platzierung und das Debugging produktiver Agenten anzuwenden.

Skill Authoring
Favoriten 0GitHub 15.6k
H
huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Model Evaluation
Favoriten 0GitHub 10.4k
M
azure-ai-projects-py

von microsoft

azure-ai-projects-py ist das Python-SDK für Azure AI Projects für Microsoft Foundry-Projektclients. Es eignet sich für Installation, Authentifizierung, Client-Setup, versionierte Agents mit PromptAgentDefinition, Evaluierungen, Verbindungen, Deployments, Datasets, Indexe und OpenAI-kompatienten Zugriff. Besonders geeignet für Backend-Workflows in Python.

Backend Development
Favoriten 0GitHub 2.2k
M
skill-optimizer

von mcollina

skill-optimizer hilft Autoren dabei, AI Skills für Aktivierung, Klarheit und modellübergreifende Zuverlässigkeit zu verbessern. Nutzen Sie es für Skill Authoring, wenn ein Skill zwar geschrieben, aber nicht zuverlässig befolgt wird, wenn Trigger schwach sind, Regressionen auftreten oder der Kontextverbrauch reduziert werden muss. Es unterstützt Benchmark-Zyklen, Release-Gates und eine präzisere Nutzungstreue.

Skill Authoring
Favoriten 0GitHub 1.8k
N
tree-of-thoughts

von NeoLabHQ

tree-of-thoughts ist ein Reasoning-Workflow-Skill, der Agenten dabei hilft, mehrere Ansätze zu erkunden, schwache Pfade zu verwerfen und eine bessere Antwort zu verdichten. Er ist nützlich für schwieriges Debugging, Planung, Architektur-Abwägungen und tree-of-thoughts für Agent Orchestration.

Agent Orchestration
Favoriten 0GitHub 982
N
judge

von NeoLabHQ

Judge ist eine zweiphasige Bewertungs-Skill, die zuerst einen Meta-Judge und dann einen Judge-Sub-Agenten startet, um Arbeiten mit isoliertem Kontext, Belegen und klaren Kriterien zu bewerten. Nutzen Sie sie für reine Report-Reviews von Code, Texten, Analysen oder Skill Authoring, wenn Sie einen belastbaren Judge-Leitfaden statt einer lockeren Meinung benötigen.

Skill Authoring
Favoriten 0GitHub 982
N
judge-with-debate

von NeoLabHQ

judge-with-debate bewertet Lösungen durch strukturiertes Multi-Agenten-Debattieren – mit gemeinsamer Spezifikation, evidenzbasierten Gegenargumenten und bis zu 3 Runden, um zu einem Konsens zu gelangen. Das eignet sich besonders für Code-Reviews, rubrikbasierte Bewertungen und judge-with-debate in Workflows für Multi-Agent Systems.

Multi-Agent Systems
Favoriten 0GitHub 982
N
do-and-judge

von NeoLabHQ

Die do-and-judge Skill führt eine einzelne Aufgabe mit einem Implementierungsschritt durch einen Sub-Agenten, einem unabhängigen Judge und einer verifizierenden Wiederholung aus, bis das Ergebnis besteht oder die maximale Anzahl an Versuchen erreicht ist. Verwenden Sie do-and-judge für Workflow-Automatisierung, wenn Sie klare Akzeptanzkriterien, isolierte Ausführung und weniger Rätselraten als bei einem generischen Prompt brauchen.

Workflow Automation
Favoriten 0GitHub 982
N
do-competitively

von NeoLabHQ

do-competitively hilft dir, wichtige Aufgaben mit paralleler Kandidatengenerierung, rubrikbasierter Bewertung und evidenzgestützter Synthese zu lösen. Es eignet sich besonders für Workflow-Automatisierung und andere risikoreiche Anfragen, bei denen Qualität, Robustheit und der Umgang mit Zielkonflikten wichtiger sind als Geschwindigkeit.

Workflow Automation
Favoriten 0GitHub 982
K
scholar-evaluation

von K-Dense-AI

scholar-evaluation hilft dabei, wissenschaftliche Arbeiten und Forschungsleistungen mit einem strukturierten Bewertungssystem zu beurteilen – von Problemstellung und Methodik über Analyse und Schreibstil bis hin zur Publikationsreife. Geeignet für akademische Begutachtung, Überarbeitungsplanung und konsistentes Feedback zu Papers, Anträgen, Literaturübersichten und anderen wissenschaftlichen Entwürfen.

Academic Research
Favoriten 0GitHub 0
M
evaluation

von muratcankoylan

Die Evaluation-Skill hilft dir, Agent-Evaluierungen für nicht-deterministische Systeme zu entwerfen und auszuführen. Verwende sie für die Planung der Evaluation-Installation, Rubriken, Regressionstests, Quality Gates und Evaluationen für Skill Testing. Sie eignet sich für LLM-as-judge-Workflows, mehrdimensionale Bewertungen und den praktischen Einsatz von Evaluationen, wenn reproduzierbare Ergebnisse gefragt sind.

Skill Testing
Favoriten 0GitHub 0
N
critique

von NeoLabHQ

critique ist ein nur-berichtender Review-Skill, der mehrere spezialisierte Prüfer, Debatte und Konsens nutzt, um abgeschlossene Arbeit zu bewerten. Er hilft bei Code Review, Korrektheit, Qualität und übersehenen Problemen vor dem Merge. Installiere critique im Kontext von NeoLabHQ context-engineering-kit und verwende es mit Dateipfaden, Commits oder Kontext.

Code Review
Favoriten 0GitHub 0
Evaluation