huggingface-community-evals

von huggingface

huggingface-community-evals hilft dir, Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval zu evaluieren. Nutze es für die Auswahl des Backends, Smoke Tests und einen praxisnahen Einstieg in vLLM, Transformers oder accelerate. Nicht gedacht für HF Jobs-Orchestrierung, model-card-PRs, das Veröffentlichen von .eval_results oder community-evals-Automatisierung.

Stars10.4k

Favoriten0

Kommentare0

Hinzugefügt4. Mai 2026

KategorieModel Evaluation

Installationsbefehl

npx skills add huggingface/skills --skill huggingface-community-evals

Kurationswert

Dieses Skill erreicht 78/100 und ist damit eine solide Wahl für Nutzer, die Modelle aus dem Hugging Face Hub lokal mit inspect-ai oder lighteval evaluieren möchten. Das Repository liefert genug Details zu Workflows, Backend-Optionen und Abgrenzungen, damit Directory-Nutzer den Installationsnutzen ohne großes Rätselraten einschätzen können, auch wenn es stärker spezialisiert ist als ein allgemeines Evaluierungs-Skill.

78/100

Stärken

Grenzt den Anwendungsfall klar ein: lokale Hub-Modell-Evaluation mit inspect-ai/lighteval, einschließlich der Backend-Wahl zwischen vLLM, Transformers und accelerate.
Bietet lauffähige Skripte mit konkreten Einstiegspunkten in `scripts/` für inspect_ai- und lighteval-Läufe, wodurch weniger Setup-Raten nötig ist.
Enthält Nutzungsbeispiele und klare Nicht-Ziele, damit Agents dieses Skill nicht mit Jobs-Orchestrierung oder community-evals-Veröffentlichung verwechseln.

Hinweise

Kein End-to-End-Workflow für community-evals: Er endet vor der Veröffentlichung von `.eval_results`, der PR-Erstellung und der entfernten HF Jobs-Orchestrierung.
Der Installationsnutzen ist geringer für Nutzer, die nur gehostete/remote Evaluation oder Publishing-Automatisierung brauchen, da sich das Skill auf lokale Läufe auf eigener Hardware konzentriert.

Huggingface Evaluation MCP Llm Vllm Transformers Accelerate Developer Audience

Überblick

Überblick über das Skill `huggingface-community-evals`

huggingface-community-evals ist ein praktisches Skill, um Hugging Face Hub Model Evaluations lokal auf eigener Hardware auszuführen. Es eignet sich besonders für alle, die Modelle schnell und reproduzierbar mit inspect-ai oder lighteval vergleichen müssen — vor allem dann, wenn die eigentliche Entscheidung lautet, welches Backend verwendet werden soll: vllm, Transformers oder accelerate.

Nutze das huggingface-community-evals Skill, wenn du einen lokalen Evaluierungs-Workflow brauchst, der näher an einem echten Run liegt als ein einmaliger Prompt. Es hilft bei Smoke Tests, der Task-Auswahl und dem Fallback zwischen Backends, ist aber nicht das richtige Skill für Hugging Face Jobs Orchestrierung, Änderungen an Model Cards, das Veröffentlichen von .eval_results oder Community-Evals-Automatisierung.

Wofür dieses Skill gedacht ist

Der Fokus von huggingface-community-evals liegt auf der Ausführung von Evaluierungen, nicht auf der Veröffentlichung. Es hilft dir, von einer Hub Model ID auszugehen, einen Evaluator auszuwählen und den kleinsten sinnvollen Test zu starten, bevor du skalierst. Das macht es nützlich für Modellauswahl, Backend-Validierung und das Gegenprüfen eines Kandidatenmodells auf der eigenen Maschine.

Wer es verwenden sollte

Nutze das huggingface-community-evals Skill, wenn du dein Zielmodell oder eine Shortlist bereits kennst und Fragen beantworten willst wie: „Läuft das lokal?“, „Soll ich vLLM oder Transformers verwenden?“ oder „Verhält sich diese Task auf einer kleinen Stichprobe wie erwartet?“ Wenn du Remote-Orchestrierung oder Publishing brauchst, ist dieses Skill ein Übergabepunkt, nicht das Endziel.

Was die Einführung erschwert

Die größten Hürden sind eine passende Umgebung und ein sauberes Scope-Verständnis. Du brauchst ein funktionierendes Python- bzw. uv-Setup, ein gültiges HF_TOKEN und für GPU-Pfade eine Maschine, die das Modell tatsächlich aufnehmen kann. Wenn du einen One-Command-Flow für die Veröffentlichung einer Community Eval erwartest, wird sich dieses Skill unvollständig anfühlen, weil es bewusst vor der Publishing-Schicht stoppt.

So verwendest du das Skill `huggingface-community-evals`

Installation und Einstieg über die richtigen Dateien

Installiere das huggingface-community-evals Skill mit:

npx skills add huggingface/skills --skill huggingface-community-evals

Lies danach zuerst SKILL.md, anschließend examples/USAGE_EXAMPLES.md und die drei Skripte in scripts/. Diese Dateien zeigen die vorgesehenen Ausführungspfade und sind deutlich hilfreicher, als nur vom Repo-Namen zu raten.

Aus einem groben Ziel einen nutzbaren Prompt machen

Eine gute Anfrage für huggingface-community-evals sollte diese Punkte enthalten: Modell-ID, Evaluator, Task, Stichprobengröße und Backend-Präferenz. Bitte zum Beispiel um „einen lokalen inspect-ai Smoke Test auf meta-llama/Llama-3.2-1B mit mmlu, limit=10, über den Inference-Provider-Pfad“ oder um „einen lighteval-Run auf meta-llama/Llama-3.2-3B-Instruct mit leaderboard|gsm8k|5 auf lokaler GPU“.

Diese Detailtiefe ist wichtig, weil die Skripte je nach Inference Provider, vllm oder Transformers/accelerate unterschiedliche Ausführungspfade nehmen. Vage Anfragen führen oft zur falschen Skriptwahl oder zu einer Konfiguration, die erst nach dem Start scheitert.

Das passende Skript für das Backend auswählen

Verwende scripts/inspect_eval_uv.py für inspect-ai-Runs gegen Inference Provider, scripts/inspect_vllm_uv.py für lokale GPU-inspect-ai-Runs und scripts/lighteval_vllm_uv.py für lokale GPU-lighteval-Runs. Wenn dein Modell mit vllm nicht stabil läuft, wechsle lieber zu Transformers oder accelerate, statt den schnelleren Pfad mit Gewalt zu erzwingen.

Wichtige praktische Setup-Details

Setze HF_TOKEN vor dem Start und prüfe bei lokalen Runs mit nvidia-smi, ob die GPU sichtbar ist. Behandle examples/.env.example nicht nur als Beispiel, sondern als Setup-Checkliste, weil Authentifizierung und Umgebungsvariablen die ersten typischen Fehlerquellen in diesem Workflow sind.

FAQ zum Skill `huggingface-community-evals`

Ist `huggingface-community-evals` nur für Model Evaluation gedacht?

Ja. Das huggingface-community-evals Skill ist ausdrücklich für Evaluierungsdurchläufe auf Hugging Face Hub Modellen gedacht, besonders wenn du lokale Ausführung und Orientierung bei der Backend-Wahl brauchst. Es ist nicht dafür gedacht, Community-Evals-Publikationen zu erzeugen oder Model-Metadaten zu bearbeiten.

Muss `inspect-ai` oder `lighteval` schon installiert sein?

Nein, die Skripte des Skills sind dafür ausgelegt, über uv zu installieren und auszuführen. Du brauchst aber eine funktionierende Python-Umgebung und die passende Hardware für das gewählte Backend. Wenn du nicht weißt, welchen Evaluator du nehmen sollst, starte mit dem, der zu deinem bestehenden Benchmark-Stack passt, statt mitten im Prozess die Werkzeuge zu wechseln.

Ist das besser als ein generischer Prompt?

Meistens ja, weil der Leitfaden zu huggingface-community-evals konkrete Skriptpfade, Backend-Optionen und klare Grenzen des Scopes liefert. Ein generischer Prompt sagt dir vielleicht nur, du sollst „ein Modell evaluieren“, aber dieses Skill hilft dir vorher zu entscheiden, ob du Inference Provider, lokales vllm oder ein Transformers-Fallback verwenden solltest, bevor du Zeit mit einem fehlerhaften Setup verlierst.

Wann sollte ich es nicht verwenden?

Verwende huggingface-community-evals nicht, wenn dein Ziel HF Jobs Orchestrierung, Model-Card-PRs, .eval_results-Publishing oder eine komplette Community-Evals-Automatisierung ist. In diesen Fällen ist dieses Skill nur der lokale Evaluierungsschritt, und ein anderer Workflow muss den Rest übernehmen.

So verbesserst du das Skill `huggingface-community-evals`

Modell-, Backend- und Task-Details von Anfang an angeben

Die besten Eingaben für huggingface-community-evals nennen das exakte Hub-Modell, den Ziel-Benchmark und das Backend, das du zuerst testen willst. Zum Beispiel ist „meta-llama/Llama-3.2-8B-Instruct auf gsm8k mit inspect-ai über vllm, limit=20 und Fallback auf Transformers bei knappem Speicher ausführen“ deutlich besser als „dieses Modell testen“.

Erst mit kleinen Läufen den Pfad validieren

Beginne mit einem Smoke Test, bevor du einen vollständigen Benchmark startest. Ein kleines limit hilft dabei, Auth-Probleme, Tokenizer-Mismatches, Chat-Template-Probleme oder nicht unterstützte Modellfunktionen zu finden, bevor du Zeit in eine lange Evaluierung steckst. Das ist bei huggingface-community-evals besonders nützlich, weil die Backend-Wahl das Verhalten stärker verändern kann, als viele erwarten.

Die Einschränkungen nennen, die die Ausgabequalität beeinflussen

Erwähne GPU-Speicher, ob das Modell trust_remote_code braucht und ob du Chat-Formatting oder einen einfachen Completion-Pfad benötigst. Für lighteval solltest du die genaue Task-String angeben, die du willst, zum Beispiel leaderboard|mmlu|5, weil das Task-Format beeinflusst, wie der Run geparst und ausgeführt wird.

Das erste Ergebnis iterativ verbessern statt alles neu zu starten

Wenn der erste Run fehlschlägt, schärfe die Eingabe nach, statt den gesamten Plan zu ersetzen. Gute Folgeanweisungen sind etwa: „von vllm auf hf backend wechseln“, „limit reduzieren“, „ein kleineres Modell verwenden“ oder „die Task-Liste auf genau einen Benchmark begrenzen“. Genau diese Art von Iteration bringt dir mit dem huggingface-community-evals Skill am schnellsten Nutzen, ohne den Run unnötig aufzublähen.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

evaluation-methodology

von wshobson

Die evaluation-methodology Skill erklärt das PluginEval-Scoring für Model Evaluation, einschließlich Ebenen, Rubriken, zusammengesetzter Bewertung, Badge-Schwellen und praxisnaher Hinweise zur Interpretation von Ergebnissen und zur Verbesserung schwacher Dimensionen.

Model Evaluation

Favoriten 0GitHub 32.6k

healthcare-eval-harness

von affaan-m

healthcare-eval-harness ist ein Evaluierungs-Harness für Patientensicherheit bei Healthcare-App-Deployments. Er hilft Teams dabei, vor der Freigabe die Genauigkeit von CDSS, PHI-Offenlegung, Datenintegrität, das Verhalten klinischer Workflows und die Einhaltung von Integrationsvorgaben zu überprüfen. Kritische Fehler blockieren das Deployment, wodurch sich healthcare-eval-harness gut als Sicherheitsschranke für Model Evaluation und CI eignet.

Model Evaluation

Favoriten 0GitHub 156.2k

eval-harness

von affaan-m

Das eval-harness Skill ist ein formaler Evaluierungsrahmen für Claude Code-Sitzungen und eval-getriebene Entwicklung. Es hilft dir dabei, Pass/Fail-Kriterien zu definieren, Capability- und Regression-Evals aufzubauen und die Zuverlässigkeit von Agents vor dem Ausrollen von Prompt- oder Workflow-Änderungen zu messen.

Model Evaluation

Favoriten 0GitHub 156.1k

agent-eval

von affaan-m

agent-eval ist eine Skill zur direkten Bewertung von Coding-Agents anhand reproduzierbarer Aufgaben. Verglichen werden Erfolgsquote, Kosten, Zeit und Konsistenz. Mit der agent-eval Skill können Sie Claude Code, Aider, Codex oder einen anderen Agent in Ihrem eigenen Repo mit deutlich belastbareren Ergebnissen als bei ad hoc Prompts evaluieren.

Model Evaluation

Favoriten 0GitHub 156k

huggingface-best

von huggingface

Die huggingface-best Skill hilft dir, das beste Modell für eine Aufgabe zu finden, indem sie Hugging Face-Benchmark-Leaderboards prüft und nach Gerätegrenzen sowie Modellgröße filtert. Nutze sie für Modell-Empfehlungen in Coding, Reasoning, Chat, OCR, RAG, Speech, Vision oder multimodalen Workflows, wenn du eine praktische Shortlist statt einer allgemeinen Modellliste brauchst.

Model Evaluation

Favoriten 0GitHub 10.4k

libafl

von trailofbits

Die libafl-Skill hilft Ihnen dabei, modulare Fuzzer mit LibAFL für eigene Targets, Mutationsstrategien und Security-Audit-Workflows zu planen und aufzubauen. Nutzen Sie diesen libafl-Leitfaden, um von den Target-Details zu einem praktikablen Harness, Feedback-Modell und Run-Plan zu kommen – mit weniger Annahmen.

Security Audit

Favoriten 0GitHub 5k

gws-modelarmor

von googleworkspace

gws-modelarmor hilft dir, mit Google Model Armor im googleworkspace/cli-Ökosystem zu arbeiten. Damit kannst du Prompts bereinigen, Modellantworten bereinigen und Templates mit weniger Rätselraten als bei einem generischen Prompt erstellen. Die Skill ist auf wiederholbare, richtlinienbewusste Nutzung und Security-Audit-Workflows ausgelegt.

Security Audit

Favoriten 0GitHub 25.5k

llm-evaluation

von wshobson

Mit dem Skill llm-evaluation erstellen Sie wiederholbare Evaluationspläne für LLM-Apps, Prompts, RAG-Systeme und Modelländerungen – mit Metriken, menschlicher Bewertung, Benchmarking und Regressionsprüfungen.

Model Evaluation

Favoriten 0GitHub 32.6k

ai-prompt-engineering-safety-review

von github

ai-prompt-engineering-safety-review ist eine Skill zur Prompt-Prüfung, mit der LLM-Prompts vor dem Produktiveinsatz, vor Evaluationen oder vor kundennahen Anwendungen auf Sicherheit, Bias, Sicherheitslücken und Ausgabequalität überprüft werden.

Model Evaluation

Favoriten 0GitHub 27.8k

agentic-eval

von github

agentic-eval ist eine GitHub Copilot Skill, die zeigt, wie sich Evaluierungsschleifen für KI-Ausgaben mit Reflection, rubric-basierter Bewertung und Evaluator-Optimizer-Mustern aufbauen lassen.

Model Evaluation

Favoriten 0GitHub 27.8k

ml-pipeline-workflow

von wshobson

ml-pipeline-workflow ist ein praxisnaher Leitfaden für die Konzeption durchgängiger MLOps-Pipelines für Datenaufbereitung, Training, Validierung, Deployment und Monitoring – inklusive Orchestrierungsmustern für wiederholbare Workflow-Automatisierung.

Workflow Automation

Favoriten 0GitHub 0

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k

create-colleague

von titanwings

create-colleague macht aus Dokumenten, Chats, E-Mails, Screenshots, Feishu- und DingTalk-Daten von Kolleg:innen ein bearbeitbares AI-Skill mit getrennten Ausgaben für Arbeitsweise und Persona sowie Update-Abläufen für die laufende Verfeinerung.

Skill Authoring

Favoriten 1GitHub 747

hyperframes

von heygen-com

hyperframes ist eine Workflow-Skill zum Erstellen von HTML-basierten Videokompositionen in HyperFrames. Nutze sie für Title Cards, Overlays, Untertitel, Voiceovers, audio-reactive Motion und Szenenübergänge, wenn du strukturierte, code-first hyperframes für Videoediting brauchst. Der Fokus liegt stärker auf Layout, Timing und Animation als auf allgemeinen Prompt-only-Videoanfragen.

Video Editing

Favoriten 0GitHub 2.7k

skill-creator

von anthropics

skill-creator ist eine Meta-Skill zur Skill-Erstellung: neue Skills entwerfen, bestehende `SKILL.md` überarbeiten, Evals ausführen, Varianten vergleichen und Trigger-Beschreibungen mit Repo-Skripten und Review-Tools verbessern.

Skill Authoring

Favoriten 2GitHub 105.1k

claude-api

von anthropics

claude-api ist ein praxisnahes Skill für Installation und Nutzung der Claude API und der Anthropic SDKs. Es hilft Entwicklern, den passenden SDK- oder HTTP-Weg zu wählen, sprachspezifische Doku zu finden und Streaming, Tool Use, Dateien, Batches und Fehlerbehandlung sicher umzusetzen.

API Development

Favoriten 0GitHub 105k

huggingface-community-evals

Überblick über das Skill huggingface-community-evals

Wofür dieses Skill gedacht ist

Wer es verwenden sollte

Was die Einführung erschwert

So verwendest du das Skill huggingface-community-evals

Installation und Einstieg über die richtigen Dateien

Aus einem groben Ziel einen nutzbaren Prompt machen

Das passende Skript für das Backend auswählen

Wichtige praktische Setup-Details

FAQ zum Skill huggingface-community-evals

Ist huggingface-community-evals nur für Model Evaluation gedacht?

Muss inspect-ai oder lighteval schon installiert sein?

Ist das besser als ein generischer Prompt?

Wann sollte ich es nicht verwenden?

So verbesserst du das Skill huggingface-community-evals

Modell-, Backend- und Task-Details von Anfang an angeben

Erst mit kleinen Läufen den Pfad validieren

Die Einschränkungen nennen, die die Ausgabequalität beeinflussen

Das erste Ergebnis iterativ verbessern statt alles neu zu starten

Bewertungen & Rezensionen

Überblick über das Skill `huggingface-community-evals`

So verwendest du das Skill `huggingface-community-evals`

FAQ zum Skill `huggingface-community-evals`

Ist `huggingface-community-evals` nur für Model Evaluation gedacht?

Muss `inspect-ai` oder `lighteval` schon installiert sein?

So verbesserst du das Skill `huggingface-community-evals`