spark-optimization

par wshobson

spark-optimization est un guide pratique pour diagnostiquer les jobs Apache Spark lents grâce au partitionnement, au shuffle, au skew, au caching et au réglage mémoire. Utilisez-le pour installer la skill depuis wshobson/agents, consulter SKILL.md et appliquer des correctifs fondés sur des indices concrets issus de Spark UI, des paramètres du cluster et des schémas de requêtes.

Étoiles32.6k

Favoris0

Commentaires0

Ajouté30 mars 2026

CatégoriePerformance Optimization

Commande d’installation

npx skills add wshobson/agents --skill spark-optimization

Score éditorial

Cette skill obtient un score de 78/100, ce qui en fait une fiche solide dans l’annuaire pour les utilisateurs recherchant un guide d’optimisation des performances Spark qu’un agent peut invoquer avec un niveau de confiance raisonnable. Les éléments visibles dans le dépôt montrent un contenu réellement orienté exploitation autour du partitionnement, du caching, de la réduction du shuffle, du réglage mémoire et du débogage des jobs lents, ce qui devrait permettre aux agents d’aller plus loin qu’un prompt générique. Sa principale limite est qu’il s’agit uniquement de documentation, sans scripts associés, références ni structure d’installation/exécution, donc il faut surtout en attendre des recommandations actionnables plutôt qu’une boîte à outils d’optimisation exécutable.

78/100

Points forts

Bonne déclenchabilité : la description et la section « When to Use » couvrent clairement les jobs lents, le réglage mémoire, le partitionnement, le skew et les scénarios de montée en charge.
Contenu de workflow substantiel : le long SKILL.md comprend des blocs de code de démarrage rapide ainsi que des sujets d’optimisation concrets comme le shuffle, la sérialisation, la mémoire et la stratégie de partitionnement.
Bon levier pour les agents : la skill regroupe en un seul endroit des pratiques d’optimisation Spark issues de la production, ce qui réduit les approximations par rapport à un prompt générique sur la performance.

Points de vigilance

Skill purement documentaire : aucun script, référence, ressource ni commande d’installation n’est fourni, donc l’exécution dépend de la capacité de l’agent à traduire les recommandations dans l’environnement de l’utilisateur.
Les signaux de validation pratique restent limités : les éléments structurels montrent peu de contraintes explicites et peu d’indices pratiques, ce qui peut rendre certains choix d’optimisation en cas limites moins bien étayés.

Python Data Engineering Data Pipelines Performance Sql

Vue d’ensemble

Vue d’ensemble de la compétence spark-optimization

À quoi sert spark-optimization

La compétence spark-optimization est un guide ciblé pour diagnostiquer et améliorer les performances des jobs Apache Spark. Elle est particulièrement utile quand un pipeline fonctionne déjà sur le plan fonctionnel, mais s’exécute trop lentement, génère beaucoup de spills, effectue trop de shuffle, souffre de skew ou devient coûteux à grande échelle. Au lieu de donner des conseils génériques du type « rendre Spark plus rapide », elle structure l’optimisation autour du modèle d’exécution : jobs, stages, tasks, partitions, mémoire et comportement du shuffle.

À qui s’adresse cette compétence spark-optimization

Cette compétence convient aux data engineers, analytics engineers, équipes platform et utilisateurs d’agents qui ont besoin d’une aide concrète pour le tuning de performances sur Spark SQL ou PySpark. Elle est particulièrement utile si vous pouvez fournir un minimum de contexte sur la charge, par exemple les patterns de jointure, la taille des données, le nombre de partitions, les paramètres des executors ou des symptômes observés dans la Spark UI. Si vous débutez, elle peut quand même aider, mais elle donne le meilleur d’elle-même lorsqu’elle s’appuie sur des détails réels de job plutôt que sur une demande vague.

Le vrai besoin métier derrière l’usage

La plupart des utilisateurs ne cherchent pas à « optimiser Spark » de manière abstraite. Ils essaient plutôt de répondre à des questions comme :

Pourquoi ce stage de jointure est-il bien plus lent que les autres ?
Pourquoi les executors spillent-ils ou tombent-ils en OOM ?
Pourquoi ce pipeline est-il devenu plus lent après une hausse du volume de données ?
Faut-il repartition, mettre en cache, utiliser broadcast ou modifier les paramètres executor ?
Comment réduire le coût du shuffle sans changer la logique métier ?

La valeur de la compétence spark-optimization vient du fait qu’elle reformule ces sujets comme des problèmes de performance qu’on peut diagnostiquer, et pas simplement comme des questions de style de code.

Ce qui la distingue d’un prompt générique

Un prompt générique de modèle a souvent tendance à empiler tous les conseils classiques de tuning Spark en une seule fois. La spark-optimization skill est mieux adaptée à un workflow plus resserré : comprendre d’abord le comportement d’exécution, puis choisir le bon levier. Ses points distinctifs les plus forts sont l’accent mis sur la stratégie de partitionnement, la réduction du shuffle, le tuning mémoire et le modèle d’exécution Spark qui permet d’expliquer pourquoi un changement devrait aider.

Comment utiliser la compétence spark-optimization

Contexte d’installation de spark-optimization

Cette compétence se trouve dans le dépôt wshobson/agents, à l’emplacement :

plugins/data-engineering/skills/spark-optimization

Si votre exécuteur de compétences prend en charge les installations directes depuis GitHub, un schéma courant est :

npx skills add https://github.com/wshobson/agents --skill spark-optimization

Si votre environnement utilise un autre installateur, ajoutez la compétence depuis ce dépôt et sélectionnez le slug spark-optimization. Les éléments visibles du dépôt ne montrent que SKILL.md ; attendez-vous donc à un usage centré sur la documentation, et non sur des scripts utilitaires ou des fichiers de référence.

Commencez par lire ce fichier

Commencez par :

plugins/data-engineering/skills/spark-optimization/SKILL.md

Comme cette compétence n’expose pas de scripts de support, de règles ou de références visibles, l’essentiel de la valeur vient d’une lecture attentive du cadre principal d’optimisation. N’attendez pas d’automatisation qui inspecte votre Spark UI ou votre cluster à votre place ; c’est à vous d’apporter les faits d’exécution.

Les entrées nécessaires pour que la compétence fonctionne bien

La qualité d’usage de spark-optimization dépend fortement du niveau de détail fourni. Parmi les entrées utiles :

API Spark utilisée : PySpark DataFrame, Spark SQL, Scala Spark, streaming, batch
Taille des données : nombre de lignes, nombre de fichiers, taille des partitions, dynamique de croissance
Topologie du cluster : mémoire executor, cœurs, nombre d’executors, comportement d’autoscaling
Symptômes : tasks déséquilibrées, shuffle read long, spills, OOM, stragglers, pauses GC
Structure de requête : jointures, agrégations, UDF, fonctions de fenêtre, repartitioning
Format de stockage : Parquet, Delta, Iceberg, CSV, JSON
Observations Spark UI : IDs de stages lents, volume de shuffle, répartition des tasks, taille des entrées
Configuration actuelle : spark.sql.shuffle.partitions, seuils de broadcast, serializer

Sans ces informations, le modèle retombera sur des suggestions génériques.

Transformer un objectif vague en prompt solide

Prompt faible :

Optimize my Spark job.

Prompt plus solide :

Use the spark-optimization skill to diagnose a slow PySpark batch job. It reads 1.2 TB of Parquet, joins a 1.2 TB fact table with a 20 MB dimension table and a 40 GB history table, then aggregates by customer and day. The slowest stage shows high shuffle read and a few tasks run 10x longer than others. Cluster: 20 executors, 8 cores each, 32 GB memory each. Current spark.sql.shuffle.partitions=200. Suggest likely bottlenecks, code-level fixes, and config changes in priority order, with tradeoffs.

Ce prompt donne à la compétence suffisamment d’éléments pour raisonner sur les broadcast joins, le skew, le dimensionnement des partitions et la pression du shuffle.

Un workflow pratique avec spark-optimization

Un bon workflow est le suivant :

Décrivez la charge et le symptôme.
Partagez les caractéristiques du stage lent depuis la Spark UI.
Demandez un classement des goulets d’étranglement, pas juste une liste de conseils de tuning.
Demandez des changements par couches :
- changements de requête/code
- changements de partitionnement
- changements de stratégie de jointure
- changements mémoire/configuration
Appliquez d’abord la correction la plus petite avec le plus haut niveau de confiance.
Relancez puis comparez le comportement au niveau des stages.

Cela permet de garder le spark-optimization guide ancré dans des résultats mesurables, plutôt que dans du tuning appliqué par réflexe.

Les points forts de la compétence

Le texte du dépôt met clairement l’accent sur les sujets suivants :

stratégie de partitionnement
choix de cache
optimisation du shuffle
tuning mémoire
passage à l’échelle des pipelines Spark
réduction du skew des données

En pratique, cela signifie que la compétence est surtout utile pour le travail de performance en batch, quand la structure des stages et les mouvements de données sont les principaux facteurs de coût.

Ce qu’il faut demander explicitement

Demandez à la compétence des sorties faciles à exploiter, par exemple :

un tableau d’hypothèses de goulets d’étranglement
des changements de configuration recommandés avec l’effet attendu
les points de skew probables et les vérifications à faire
si un broadcast join est pertinent ou non
si repartition ou coalesce est le plus adapté
des recommandations de cache ou persist avec justification
les anti-patterns dans vos transformations

C’est bien plus utile que de demander une simple « liste de bonnes pratiques ».

Les sujets du dépôt à cibler en priorité

D’après la source visible, les meilleurs axes à invoquer dans vos prompts sont :

modèle d’exécution Spark
facteurs clés de performance
minimisation du shuffle
gestion du skew des données
choix de sérialisation
réduction de la pression mémoire
bon dimensionnement des partitions

Ce sont les concepts autour desquels la compétence est explicitement structurée ; vous avez donc plus de chances d’obtenir une réponse alignée en les nommant clairement.

Modèle de prompt pratique pour spark-optimization en Performance Optimization

Utilisez un prompt de ce type :

Use the spark-optimization skill for Performance Optimization. Analyze this Spark job for shuffle, skew, memory, and partition issues. Here is the job summary: [pipeline description]. Here are the slow stages and Spark UI symptoms: [details]. Here is current cluster config: [details]. Here is a simplified code excerpt: [code]. Recommend the top 3 changes by expected impact, explain why each helps in Spark’s execution model, and note any tradeoffs or validation steps.

Cette formulation produit en général une réponse bien plus exploitable pour décider que « improve performance ».

FAQ sur la compétence spark-optimization

spark-optimization est-il utile sans données Spark UI ?

Oui, mais les résultats sont moins fiables. La compétence peut quand même raisonner à partir de la structure du code, des tailles de jointure, de l’organisation des fichiers et des paramètres du cluster. En revanche, si vous voulez des recommandations solides sur le skew, les points chauds de shuffle ou la pression mémoire, les éléments issus de la Spark UI améliorent nettement la qualité de la réponse.

Cette compétence spark-optimization convient-elle aux débutants ?

Oui, si vous maîtrisez déjà les notions de base de Spark. La compétence explique l’optimisation à travers les jobs, stages, tasks, partitions et le comportement du shuffle, ce qui aide les profils intermédiaires à progresser vite. Les débutants complets peuvent toutefois avoir besoin d’une introduction générale à Spark avant que les recommandations deviennent vraiment actionnables.

Quand ne faut-il pas utiliser spark-optimization ?

N’utilisez pas spark-optimization comme outil principal si le problème vient en réalité de :

logique métier incorrecte
mauvaise qualité des données source
échecs d’orchestration
incidents sur la couche de stockage
goulets d’étranglement non liés à Spark, en dehors du moteur

C’est aussi un mauvais choix si vous ne pouvez partager aucun fait d’exécution et cherchez seulement une checklist générique de tuning.

En quoi est-ce différent des conseils Spark classiques ?

Les prompts ordinaires produisent souvent des conseils très larges comme « mettre davantage en cache », « augmenter le nombre de partitions » ou « utiliser des broadcast joins ». La décision d’installation de spark-optimization vaut le coup si vous cherchez un workflow centré sur le diagnostic du levier à actionner en premier, et sur la raison de ce choix, à partir des concepts d’exécution Spark plutôt que d’astuces isolées.

La compétence remplace-t-elle les benchmarks ?

Non. Elle améliore la qualité de vos hypothèses et des changements recommandés, mais vous devez toujours tester avant et après. L’optimisation Spark dépend fortement de la charge, et certains changements qui améliorent un stage peuvent en dégrader un autre.

Comment améliorer l’usage de la compétence spark-optimization

Donnez des symptômes, pas seulement des objectifs

Le moyen le plus rapide d’améliorer l’usage de spark-optimization est de remplacer les objectifs abstraits par des symptômes précis :

« le stage 14 a 2 tasks qui tournent 12 minutes alors que les autres finissent en 40 secondes »
« le shuffle read est de 600 GB après un groupBy »
« les executors spillent sur disque pendant un sortMergeJoin »
« le job est devenu plus lent après être passé de 200 GB à 900 GB d’entrée quotidienne »

Ces indices permettent à la compétence de relier directement le problème à des causes de skew, de partitionnement, de mémoire ou de shuffle.

Incluez la forme du code qui crée le goulet d’étranglement

Vous n’avez pas besoin de coller tout votre projet. Un petit extrait montrant :

les jointures
les agrégations
les appels à repartition
l’usage de cache ou persist
les UDF Python
les lectures et écritures de fichiers

suffit généralement. Les problèmes de performance Spark se lisent souvent dans la forme des transformations, pas seulement dans la configuration.

Demandez des recommandations classées par priorité

Un mode d’échec fréquent consiste à recevoir dix suggestions sans aucun ordre. Demandez à la compétence de classer les corrections selon :

impact attendu sur les performances
effort d’implémentation
risque opérationnel

Cela force une réponse plus nette et facilite l’adoption.

Demandez des étapes de validation après chaque recommandation

Un bon usage du spark-optimization guide inclut la vérification. Demandez à la compétence comment confirmer que chaque correction a fonctionné, par exemple via :

réduction du shuffle read/write
durées de tasks plus homogènes
moins de spills
temps GC plus faible
moins de stages
meilleur équilibre des partitions d’entrée

Cela évite le « tuning à l’intuition ».

Donnez vos contraintes pour obtenir des conseils réalistes

Mentionnez des contraintes comme :

impossible d’augmenter la taille du cluster
impossible de réécrire en Scala
obligation de conserver le format de table actuel
objectif de latence fixe
mémoire limitée pour les broadcast joins
seuls des changements de configuration sont autorisés ce sprint

La compétence donnera des conseils beaucoup plus exploitables si elle sait clairement ce qui est hors périmètre.

Itérez après la première réponse de spark-optimization

Après un premier passage, revenez avec :

ce qui a changé
ce qui s’est amélioré
ce qui s’est dégradé
les observations Spark UI mises à jour

C’est là que la compétence devient vraiment utile. L’optimisation Spark est itérative ; la meilleure étape suivante dépend souvent des effets de bord du changement précédent.

Surveillez les erreurs de cadrage les plus fréquentes

Les résultats les moins bons apparaissent le plus souvent quand les utilisateurs :

demandent une optimisation sans aucun détail sur la charge
ignorent le skew et se concentrent uniquement sur la mémoire executor
mettent en cache de gros jeux de données sans preuve de réutilisation
changent le nombre de partitions à l’aveugle
considèrent chaque jointure comme candidate au broadcast
optimisent la configuration avant de corriger les transformations coûteuses

Si vous voulez de meilleurs résultats, faites raisonner la compétence à partir de faits, pas de préférences génériques.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

vercel-react-best-practices

par vercel-labs

vercel-react-best-practices est un skill Vercel Engineering qui aide les agents IA à optimiser les performances React et Next.js avec des règles prioritaires pour les waterfalls, la taille des bundles et le rendu.

Frontend Development

Favoris 0GitHub 24k

performance-optimization

par addyosmani

La skill performance-optimization vous aide à mesurer d’abord, à repérer le véritable goulot d’étranglement, à le corriger, puis à vérifier les résultats. Utilisez-la lorsqu’il existe des exigences de performance, que vous soupçonnez une régression, ou que les Core Web Vitals, les temps de chargement ou la latence d’interaction doivent être améliorés.

Performance Optimization

Favoris 0GitHub 18.7k

supabase-postgres-best-practices

par supabase

supabase-postgres-best-practices est un skill d’optimisation Supabase Postgres dédié au tuning des requêtes, à l’indexation, à la conception de schéma, aux performances RLS, au verrouillage et à la gestion des connexions.

Database Engineering

Favoris 0GitHub 1.7k

wp-performance

par WordPress

Utilisez wp-performance pour analyser et améliorer les performances WordPress depuis le backend, sans interface navigateur. L’outil prend en charge un diagnostic fondé sur la mesure pour les requêtes frontend lentes, les pages d’administration, les routes REST et WP-Cron, avec des conseils sur WP-CLI profile/doctor, Query Monitor via des en-têtes REST, Server-Timing, les requêtes base de données, les options autoloadées, le cache objet, le cron et les appels HTTP distants.

Performance Optimization

Favoris 0GitHub 1.4k

web-perf

par cloudflare

web-perf analyse les performances web avec Chrome DevTools MCP. Il mesure les Core Web Vitals, les problèmes de chargement détectés à partir des traces, les ressources bloquant le rendu, les décalages de mise en page, les problèmes de cache et les lacunes d’accessibilité. Utilisez le skill web-perf pour l’optimisation des performances, le débogage des pages lentes et des workflows de guide web-perf fondés sur des preuves, qui s’appuient sur la documentation à jour et des traces en direct.

Performance Optimization

Favoris 0GitHub 1.3k

react-native-best-practices

par callstackincubator

react-native-best-practices est un guide pratique d’optimisation des performances React Native pour les démarrages lents, les images perdues, les rendus lourds, les fuites mémoire, l’encombrement du bundle et les à-coups d’animation. Utilisez-le quand vous avez besoin de correctifs étayés par des preuves pour Hermes, la surcharge du bridge, FlashList, les modules natifs ou l’analyse d’une régression après publication.

Performance Optimization

Favoris 0GitHub 1.3k

swift-nio

par Joannis

swift-nio est une skill pour le développement backend avec SwiftNIO, couvrant les serveurs, les clients, les pipelines, les buffers, les codecs et le code async sûr pour les EventLoop. Utilisez-la pour les questions d’usage de swift-nio, l’analyse de protocoles, les services TCP/UDP, l’intégration de NIOAsyncChannel et le débogage des tâches bloquantes sur un EventLoop. C’est un guide pratique swift-nio pour une architecture et une implémentation correctes.

Backend Development

Favoris 0GitHub 0

audit-website

par squirrelscan

La skill audit-website s’appuie sur le CLI `squirrel` pour auditer des sites web et webapps selon plus de 230 règles couvrant le SEO, la technique, le contenu, les performances, la sécurité, les liens et l’état général du site, puis fournit des rapports exploitables et prêts pour les LLM.

UX Audit

Favoris 0GitHub 68

autoresearch

par github

autoresearch est une boucle d’expérimentation autonome pour les tâches de développement avec des résultats mesurables. Elle aide les développeurs à définir un objectif, une base de référence, une métrique et un périmètre, puis à itérer via des modifications de code, des tests et des décisions de conservation ou d’annulation en s’appuyant sur des points de contrôle gérés par git.

Workflow Automation

Favoris 0GitHub 0

godot-gdscript-patterns

par wshobson

godot-gdscript-patterns aide les utilisateurs de Godot 4 à générer et relire du GDScript avec une meilleure structure de scènes, des signaux bien organisés, des machines à états, des autoloads et des patterns de chargement asynchrone. Utilisez cette skill pour intégrer une architecture Godot éprouvée dans vos systèmes de gameplay, vos flux d’interface et un code de projet plus maintenable.

Frontend Development

Favoris 0GitHub 32.5k

pytorch-patterns

par affaan-m

pytorch-patterns vous aide à écrire, relire et déboguer du code PyTorch avec des modèles indépendants du périphérique, des expériences reproductibles et une gestion explicite des tenseurs. Utilisez le skill pytorch-patterns pour des boucles d’entraînement plus propres, des refactorings de modèles et des conseils pratiques PyTorch.

Code Editing

Favoris 0GitHub 156.2k

nextjs-turbopack

par affaan-m

La compétence nextjs-turbopack vous aide à utiliser Turbopack dans Next.js 16+ pour accélérer le développement local, le HMR et les arbitrages liés au bundler. Servez-vous-en comme guide pratique nextjs-turbopack pour l’installation, l’utilisation et les cas où il vaut mieux revenir à webpack dans des workflows de Frontend Development.

Frontend Development

Favoris 0GitHub 156.2k

jpa-patterns

par affaan-m

jpa-patterns est un guide pratique JPA/Hibernate pour le développement backend avec Spring Boot. Il couvre la conception des entités, les relations, l’optimisation des requêtes, les transactions, l’audit, la pagination et le pooling afin de réduire les erreurs ORM et d’améliorer les performances de la persistance.

Backend Development

Favoris 0GitHub 156.2k

rust-async-patterns

par wshobson

rust-async-patterns est une skill pratique pour le Rust asynchrone avec Tokio. Elle couvre les tâches, canaux, flux, timeouts, annulation, tracing et gestion des erreurs pour le développement backend.

Backend Development

Favoris 0GitHub 32.6k

go-concurrency-patterns

par wshobson

go-concurrency-patterns vous aide à appliquer les idiomes de concurrence en Go pour les worker pools, pipelines, channels, primitives de synchronisation et annulation via context. Servez-vous-en pour concevoir des services backend plus sûrs, diagnostiquer les race conditions et améliorer le graceful shutdown grâce aux recommandations de `SKILL.md`.

Backend Development

Favoris 0GitHub 32.6k

async-python-patterns

par wshobson

async-python-patterns est un guide pratique pour choisir des patterns asyncio sûrs dans des systèmes Python orientés I/O. Utilisez-le pour comprendre le contexte d’installation, évaluer les usages, éviter de bloquer la boucle d’événements et concevoir des API async, des workers, des scrapers et des services backend avec une concurrence bornée, l’annulation des tâches et des arbitrages clairs entre sync et async.

Backend Development

Favoris 0GitHub 32.6k