optimize-for-gpu

von K-Dense-AI

optimize-for-gpu hilft dabei, CPU-gebundenes Python mit der passenden Bibliothekswahl in NVIDIA-GPU-Code zu überführen. Geeignet für Arrays, DataFrames, ML-Pipelines, Graphanalyse, Bildverarbeitung, Geodaten, Vektorsuche und eigene Kernel. Das Skill unterstützt bei Entscheidungen rund um CuPy, cuDF, cuML, cuGraph, cuCIM, cuVS, KvikIO, Numba CUDA und Warp und liefert praxisnahe Hinweise zur Nutzung von optimize-for-gpu sowie zur Migration.

Stars21.3k

Favoriten0

Kommentare0

Hinzugefügt14. Mai 2026

KategoriePerformance Optimization

Installationsbefehl

npx skills add K-Dense-AI/claude-scientific-skills --skill optimize-for-gpu

Kurationswert

Dieses Skill erreicht 76/100 und ist damit ein solider Kandidat für Nutzer, die einen echten GPU-Beschleunigungs-Workflow statt eines generischen Prompts suchen. Der Frontmatter-Trigger ist eindeutig, der Inhalt umfangreich, und das Repository enthält fokussierte Referenzdokumente für mehrere NVIDIA-Python-Bibliotheken. So können Nutzer im Verzeichnis eine fundierte Installationsentscheidung treffen. Die wichtigste Einschränkung: Es wirkt stärker auf geführte manuelle Nutzung als auf automatisches Triggern optimiert, bietet aber dennoch genug operativen Mehrwert für eine Listung.

76/100

Stärken

Klare Trigger-Abdeckung für CUDA/GPU-Beschleunigung sowie gängige Python-Workloads wie NumPy, pandas, scikit-learn, NetworkX und Geodaten-/Bild-Pipelines.
Großer, strukturierter Skill-Text mit vielen Überschriften und ohne Platzhalter, was auf echten Workflow-Inhalt statt auf ein Demo-Gerüst hindeutet.
Zwölf bibliotheksbezogene Referenzen (CuPy, cuDF, cuML, cuGraph, cuSpatial, cuVS, cuCIM usw.) liefern konkrete Umsetzungsdetails und verringern Rätselraten.

Hinweise

Kein Installationsbefehl in SKILL.md, daher müssen Nutzer die Einrichtungsschritte möglicherweise aus den Referenzen ableiten.
Die Repository-Belege zeigen Referenzen, aber keine Skripte oder Ressourcen-Assets; einige Workflows stützen sich daher eher auf beschreibende Anleitung als auf ausführbare Automatisierung.

Gpu Python Scientific Machine Learning Data Analysis Cupy Numba

Überblick

Überblick über die `optimize-for-gpu`-Skill

Was `optimize-for-gpu` macht

Die optimize-for-gpu-Skill hilft dir dabei, Python-Code, der an der CPU hängt, auf NVIDIA-GPU-Code umzustellen — und zwar mit der passenden Bibliothekswahl statt mit einer pauschalen „nimm einfach CUDA“-Antwort. Sie richtet sich an Leser, die praktische optimize-for-gpu for Performance Optimization für Arrays, DataFrames, ML-Pipelines, Graph-Workloads, Bildverarbeitung, Geodatenanalyse oder eigene Kernel brauchen.

Typische Einsatzszenarien

Nutze die optimize-for-gpu-Skill, wenn du NumPy-, pandas-, scikit-learn-, NetworkX-, scikit-image-, GeoPandas- oder Faiss-ähnliche Workflows beschleunigen willst oder bereits weißt, dass das Problem stark genug parallelisierbar ist, um von GPU-Ausführung zu profitieren. Besonders hilfreich ist sie, wenn die zentrale Frage lautet, ob CuPy, cuDF, cuML, cuGraph, cuCIM, cuVS, KvikIO, Numba CUDA oder Warp die richtige Wahl ist.

Was sie unterscheidet

Der Hauptnutzen von optimize-for-gpu liegt in der Bibliotheksauswahl und Migrationsberatung. Statt einen einzelnen Stack vorzuschreiben, hilft sie dir, die Form der Workload mit dem passenden Tool abzugleichen. Das ist wichtig, weil die falsche GPU-Bibliothek Reibung, Konvertierungsaufwand oder nicht unterstützte Funktionen mit sich bringen kann.

So verwendest du die `optimize-for-gpu`-Skill

Installieren und die Skill prüfen

Für optimize-for-gpu install fügst du die Skill zuerst deiner Umgebung hinzu und liest dann die Quelldateien, in denen ihre Entscheidungsregeln definiert sind. Beginne mit SKILL.md und öffne anschließend die passenden Referenzseiten in references/ für die Bibliothek, die du voraussichtlich verwenden wirst.

Ein grobes Ziel in einen brauchbaren Prompt übersetzen

Für eine starke optimize-for-gpu usage solltest du dem Modell Folgendes geben: den aktuellen Code, die Datensatzgröße, das GPU-Modell, eine bevorzugte Zielbibliothek, falls es eine gibt, und den Engpass, den du beseitigen willst. Ein schwacher Prompt ist „mach das schneller“; ein stärkerer lautet etwa: „optimiere diese pandas-Groupby-Pipeline für eine NVIDIA-GPU, behalte die Ausgabe exakt gleich und minimiere Host-Device-Transfers.“

Zuerst die richtigen Repo-Dateien lesen

Wenn du entscheiden willst, ob die optimize-for-gpu-Skill zu deinem Fall passt, sieh dir SKILL.md, references/cupy.md, references/cudf.md und die bibliotheksspezifische Anleitung an, die deiner Workload am nächsten kommt, etwa references/cuml.md oder references/cugraph.md. Dieser kurze Weg zeigt die wichtigen Einschränkungen meist schneller als ein vollständiger Repo-Scan.

Einen Workflow nutzen, der schlechte Fits vermeidet

Ein guter optimize-for-gpu guide-Workflow ist: den Hot Loop identifizieren, ihn auf eine GPU-freundliche Abstraktion abbilden, die Kosten für Datenübertragungen prüfen und dann zwischen Drop-in-Replacement und eigenem Kernel entscheiden. Wenn der Code auf unregelmäßiger Python-Control-Flow-Logik, winzigen Datensätzen oder nicht unterstützten Drittanbieter-Erweiterungen basiert, sollte die Skill dich eher zu einem teilweisen GPU-Pfad oder zu einer Nicht-GPU-Lösung führen.

Häufige Fragen zur `optimize-for-gpu`-Skill

Ist `optimize-for-gpu` besser als ein normaler Prompt?

Meist ja, wenn es um Bibliothekswahl, Migrationsstrategie oder GPU-Beschränkungen geht. Ein normaler Prompt schlägt vielleicht allgemein CUDA vor; die optimize-for-gpu skill ist nützlicher, wenn du einen konkreten Weg durch CuPy, RAPIDS, Numba CUDA oder Warp brauchst.

Brauche ich GPU-Erfahrung, um sie zu nutzen?

Nein. Die Skill eignet sich auch für Einsteiger, wenn sie Code und Ziele klar beschreiben können. Die wichtigste Voraussetzung ist, zu erklären, was der Code tut, was langsam ist und was unverändert bleiben muss, damit die Empfehlung einen sicheren Migrationspfad wählen kann.

Wann sollte ich sie nicht verwenden?

Nutze optimize-for-gpu nicht, wenn die Workload klein ist, die Latenz vor allem von I/O oder Serialisierung bestimmt wird oder der Code stark von nicht unterstütztem CPU-only-Python-Verhalten abhängt. In solchen Fällen soll die Skill dir helfen, eine irreführende GPU-Umschreibung zu vermeiden, statt sie zu erzwingen.

Wie unterscheidet sie sich im NVIDIA-Stack?

optimize-for-gpu ist eine Skill für Entscheidung und Migration, kein Wrapper um nur eine Bibliothek. Sie ist besonders wertvoll, wenn du vor dem Coden Optionen wie CuPy für Array-Mathematik, cuDF für tabellarische Daten, cuML für ML oder cuGraph für Graph-Analysen vergleichen musst.

So verbesserst du die `optimize-for-gpu`-Skill

Beschreibe die Form der Workload, nicht nur das Ziel

Die besten optimize-for-gpu-Ergebnisse entstehen mit Eingaben, die das Rechenmuster sichtbar machen: Array-Größen, Anzahl der DataFrame-Zeilen, Graphdichte, Bilddimensionen, Batchgrößen und ob der Code überwiegend vektorisiert oder schleifenlastig ist. Dieser Kontext entscheidet darüber, ob ein GPU-Pfad schnell genug ist, um den Port zu rechtfertigen.

Nenne die echte Einschränkung früh

Wenn dir exakte numerische Übereinstimmung, geringer Speicherverbrauch, Skalierung über mehrere GPUs oder minimale Codeänderungen am wichtigsten sind, sag das gleich zu Beginn. Die optimize-for-gpu-Skill kann je nach Priorität unterschiedliche Kompromisse eingehen — ob Geschwindigkeit, Kompatibilität oder Umfang des Umbaus im Vordergrund steht.

Gib die erste Ausgabe zur Iteration zurück

Nach dem ersten Durchlauf kannst du den überarbeiteten Code oder die empfohlene Bibliothekswahl zurückgeben und nach dem nächsten Engpass fragen: Transfers, Kernel-Fusion, Präzision oder Batchgrößen. Das ist der schnellste Weg, die optimize-for-gpu usage zu verbessern, weil die nächste Antwort sich auf den tatsächlichen limitierenden Faktor konzentrieren kann, statt den gesamten Migrationsplan zu wiederholen.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

vercel-react-best-practices

von vercel-labs

vercel-react-best-practices ist ein Vercel-Engineering-Skill, der KI-Agenten mit priorisierten Regeln zu Waterfalls, Bundle-Größe und Rendering hilft, React- und Next.js-Performance zu optimieren.

Frontend Development

Favoriten 0GitHub 24k

performance-optimization

von addyosmani

Die performance-optimization Skill hilft dir, zuerst zu messen, den eigentlichen Engpass zu finden, ihn zu beheben und die Ergebnisse zu überprüfen. Nutze sie, wenn Leistungsanforderungen bestehen, du eine Regression vermutest oder Core Web Vitals, Ladezeiten oder Interaktionslatenz verbessert werden müssen.

Performance Optimization

Favoriten 0GitHub 18.7k

supabase-postgres-best-practices

von supabase

supabase-postgres-best-practices ist eine Skill für die Optimierung von Supabase Postgres – für Query-Tuning, Indexing, Schema-Design, RLS-Performance, Locking und Verbindungsmanagement.

Database Engineering

Favoriten 0GitHub 1.7k

wp-performance

von WordPress

Nutze wp-performance, um WordPress-Performance im Backend zu untersuchen und zu verbessern – ganz ohne Browser-UI. Es unterstützt eine messungsorientierte Diagnose langsamer Frontend-Requests, Admin-Seiten, REST-Routen und WP-Cron und bietet Anleitung zu WP-CLI profile/doctor, Query Monitor über REST-Header, Server-Timing, Datenbankabfragen, Autoload-Optionen, Object Caching, Cron und entfernten HTTP-Aufrufen.

Performance Optimization

Favoriten 0GitHub 1.4k

web-perf

von cloudflare

web-perf analysiert Web-Performance mit Chrome DevTools MCP. Es misst Core Web Vitals, ladebezogene Probleme anhand von Traces, renderblockierende Ressourcen, Layoutverschiebungen, Caching-Probleme und Lücken bei der Barrierefreiheit. Verwende das web-perf Skill für Performance-Optimierung, das Debugging langsamer Seiten und evidenzbasierte Web-Performance-Workflows, die auf aktuellen Docs und Live-Traces beruhen.

Performance Optimization

Favoriten 0GitHub 1.3k

react-native-best-practices

von callstackincubator

react-native-best-practices ist ein praxisnaher React-Native-Leitfaden zur Performance-Optimierung bei langsamem Start, ausgelassenen Frames, teuren Renderings, Memory Leaks, aufgeblähten Bundles und ruckeligen Animationen. Nutze ihn, wenn du belegbare Lösungen für Hermes, Bridge-Overhead, FlashList, native Module oder die Analyse einer Regression in einem Release brauchst.

Performance Optimization

Favoriten 0GitHub 1.3k

swift-nio

von Joannis

swift-nio ist eine Skill für die SwiftNIO-Backend-Entwicklung und deckt Server, Clients, Pipelines, Buffers, Codecs und event-loop-sicheren Async-Code ab. Verwenden Sie sie für Fragen zur Nutzung von swift-nio, zum Parsen von Protokollen, für TCP-/UDP-Dienste, die NIOAsyncChannel-Integration und zum Debuggen von blockierender Arbeit auf einem EventLoop. Es ist ein praxisnaher swift-nio-Leitfaden für die richtige Architektur und Implementierung.

Backend Development

Favoriten 0GitHub 0

audit-website

von squirrelscan

Die Skill audit-website nutzt die `squirrel` CLI, um Websites und Webapps anhand von über 230 Regeln in den Bereichen SEO, Technik, Inhalte, Performance, Sicherheit, Links und Site-Health zu prüfen und anschließend umsetzbare, LLM-taugliche Reports bereitzustellen.

UX Audit

Favoriten 0GitHub 68

autoresearch

von github

autoresearch ist ein autonomer Experimentierzyklus für Coding-Aufgaben mit messbaren Ergebnissen. Die Skill hilft Entwicklerinnen und Entwicklern dabei, Ziel, Ausgangsbasis, Metrik und Umfang festzulegen und anschließend über Codeänderungen, Tests sowie Behalten-oder-Zurücksetzen-Entscheidungen mit git-gestützten Checkpoints zu iterieren.

Workflow Automation

Favoriten 0GitHub 0

godot-gdscript-patterns

von wshobson

godot-gdscript-patterns unterstützt Nutzer von Godot 4 dabei, GDScript mit besserer Szenenstruktur, Signals, Zustandsmaschinen, Autoloads und Async-Loading-Mustern zu erstellen und zu prüfen. Ideal, um bewährte Godot-Architektur in Gameplay-Systeme, UI-Abläufe und wartbaren Projektcode zu übernehmen.

Frontend Development

Favoriten 0GitHub 32.5k

pytorch-patterns

von affaan-m

pytorch-patterns hilft dir, PyTorch-Code mit geräteunabhängigen Mustern, reproduzierbaren Experimenten und explizitem Tensor-Handling zu schreiben, zu prüfen und zu debuggen. Nutze den pytorch-patterns Skill für sauberere Training-Loops, Modell-Refactorings und praxisnahe PyTorch-Hinweise.

Code Editing

Favoriten 0GitHub 156.2k

nextjs-turbopack

von affaan-m

Das nextjs-turbopack Skill hilft dir, Turbopack in Next.js 16+ für schnellere lokale Entwicklung, HMR und Entscheidungen rund um den Bundler einzusetzen. Nutze es als praxisnahen nextjs-turbopack Leitfaden für Installation, Nutzung und die Frage, wann du in Frontend-Development-Workflows wieder zu webpack wechseln solltest.

Frontend Development

Favoriten 0GitHub 156.2k

jpa-patterns

von affaan-m

jpa-patterns ist ein praxisnaher Leitfaden zu JPA/Hibernate für die Spring-Boot-Backend-Entwicklung. Er behandelt Entity-Design, Beziehungen, Query-Tuning, Transaktionen, Auditing, Pagination und Pooling, um ORM-Fehler zu reduzieren und die Persistenzleistung zu verbessern.

Backend Development

Favoriten 0GitHub 156.2k

rust-async-patterns

von wshobson

rust-async-patterns ist ein praxisnaher Skill für asynchrones Rust mit Tokio und behandelt Tasks, Channels, Streams, Timeouts, Cancellation, Tracing und Error Handling für die Backend-Entwicklung.

Backend Development

Favoriten 0GitHub 32.6k

go-concurrency-patterns

von wshobson

go-concurrency-patterns unterstützt dich dabei, idiomatische Go-Concurrency für Worker-Pools, Pipelines, Channels, Sync-Primitiven und kontextbasierte Cancellation anzuwenden. Nutze die Hinweise aus SKILL.md, um sicherere Backend-Services zu entwerfen, Race Conditions zu debuggen und das Verhalten beim Graceful Shutdown zu verbessern.

Backend Development

Favoriten 0GitHub 32.6k

async-python-patterns

von wshobson

async-python-patterns ist ein praxisnaher Leitfaden zur Auswahl sicherer asyncio-Muster für I/O-lastige Python-Systeme. Er hilft dabei, den Installationskontext zu verstehen, den Einsatz zu prüfen, das Blockieren des Event Loops zu vermeiden und Async-APIs, Worker, Scraper und Backend-Services mit begrenzter Parallelität, Cancellation sowie den richtigen Sync-vs-Async-Abwägungen zu entwerfen.

Backend Development

Favoriten 0GitHub 32.6k

optimize-for-gpu

Überblick über die optimize-for-gpu-Skill

Was optimize-for-gpu macht

Typische Einsatzszenarien

Was sie unterscheidet

So verwendest du die optimize-for-gpu-Skill

Installieren und die Skill prüfen

Ein grobes Ziel in einen brauchbaren Prompt übersetzen

Zuerst die richtigen Repo-Dateien lesen

Einen Workflow nutzen, der schlechte Fits vermeidet

Häufige Fragen zur optimize-for-gpu-Skill

Ist optimize-for-gpu besser als ein normaler Prompt?

Brauche ich GPU-Erfahrung, um sie zu nutzen?

Wann sollte ich sie nicht verwenden?

Wie unterscheidet sie sich im NVIDIA-Stack?

So verbesserst du die optimize-for-gpu-Skill

Beschreibe die Form der Workload, nicht nur das Ziel

Nenne die echte Einschränkung früh

Gib die erste Ausgabe zur Iteration zurück

Bewertungen & Rezensionen

Überblick über die `optimize-for-gpu`-Skill

Was `optimize-for-gpu` macht

So verwendest du die `optimize-for-gpu`-Skill

Häufige Fragen zur `optimize-for-gpu`-Skill

Ist `optimize-for-gpu` besser als ein normaler Prompt?

So verbesserst du die `optimize-for-gpu`-Skill