dummy-dataset

par phuryn

dummy-dataset génère des données de test réalistes au format CSV, JSON, SQL ou script Python. Il est utile pour créer des jeux de données fictifs, des démonstrations, du remplissage initial de bases de données, des tests QA et du nettoyage de données, en vous permettant de définir les colonnes, le nombre de lignes et des contraintes pour obtenir des exemples crédibles.

Étoiles11.1k

Favoris0

Commentaires0

Ajouté12 mai 2026

CatégorieData Cleaning

Commande d’installation

npx skills add phuryn/pm-skills --skill dummy-dataset

Score éditorial

Ce skill obtient 68/100, ce qui le rend publiable, mais avec des réserves à afficher clairement. Les utilisateurs du répertoire y trouvent un objectif explicite, des arguments exploitables et un workflow de génération étape par étape, ce qui aide un agent à l’utiliser avec moins d’approximations qu’un prompt générique. En revanche, il semble se limiter à un seul fichier SKILL.md, sans scripts ni ressources d’appui, donc la confiance d’adoption reste moyenne plutôt que forte.

68/100

Points forts

Déclencheur et cas d’usage clairs : générer des jeux de données factices réalistes pour les tests, les démonstrations et le développement.
La structure opérationnelle est explicite, avec des arguments nommés pour le produit, le type de jeu de données, le nombre de lignes, les colonnes, le format et les contraintes.
Le workflow étape par étape et les formats de sortie (CSV, JSON, SQL, script Python) donnent aux agents un chemin d’exécution concret.

Points de vigilance

Les éléments observables du dépôt ne montrent ni scripts d’appui, ni références, ni ressources, ce qui limite la fiabilité et la profondeur à la seule description du prompt.
Des signaux d’expérimentation ou de phase de test indiquent qu’il convient surtout aux tâches de données d’exemple, pas aux workflows de génération de données de niveau production.

Dataset CSV Json Sql Python

Vue d’ensemble

Aperçu du skill dummy-dataset

Ce que fait dummy-dataset

Le skill dummy-dataset vous aide à générer rapidement des données de test réalistes : CSV, JSON, SQL, ou un script Python capable de produire ces données plus tard. Il est particulièrement adapté si vous avez besoin d’échantillons crédibles pour l’assurance qualité, des démos, des données de départ ou un prototype de pipeline — pas seulement de remplissage aléatoire. La vraie valeur du skill dummy-dataset, c’est qu’il vous permet de décrire le domaine, les colonnes, le nombre de lignes et les contraintes, afin que le résultat soit exploitable au lieu d’avoir l’air manifestement synthétique.

Quand ce skill est le bon choix

Utilisez dummy-dataset pour le nettoyage de données, les tests produit, des maquettes analytiques, la validation de formulaires et l’amorçage de base de données lorsque vous avez besoin de données cohérentes d’un champ à l’autre. C’est un très bon choix si vous tenez aux relations entre dates, catégories, identifiants ou plages de valeurs réalistes. Il est moins utile si vous n’avez besoin que d’exemples isolés ou si votre tâche repose sur un schéma réel déjà disponible en production.

Ce qui le distingue

Contrairement à un prompt générique, le skill dummy-dataset est pensé dès le départ pour le format de sortie et les contraintes. C’est essentiel quand vous avez besoin de données que vous pouvez réellement importer ou exécuter, pas seulement lire. La vraie question est de savoir si vous voulez des fichiers directement exploitables ou un script de génération reproductible ; ce skill prend en charge les deux.

Comment utiliser le skill dummy-dataset

Installer dummy-dataset

Installez le skill dummy-dataset dans votre environnement de skills avec :

npx skills add phuryn/pm-skills --skill dummy-dataset

Après l’installation, ouvrez d’abord le fichier du skill pour comprendre les entrées attendues et les styles de sortie avant de l’utiliser dans un workflow plus large.

Lire d’abord les bons fichiers

Commencez par SKILL.md, puis consultez README.md, AGENTS.md, metadata.json, ainsi que les dossiers rules/, resources/, references/ ou scripts/ s’ils existent dans votre environnement. Pour ce dépôt, SKILL.md est la source de référence principale, car le skill est compact et ne dépend pas de fichiers d’appui. Si vous utilisez dummy-dataset dans un vrai workflow, lisez le modèle de génération et les sections d’exemples avant de demander la sortie finale.

Donner un prompt que le skill peut exécuter

Une bonne demande pour dummy-dataset doit inclure l’objectif du jeu de données, les champs, le nombre de lignes, le format et les contraintes. Par exemple : « Génère un dummy-dataset de 500 lignes pour une application de facturation SaaS avec les colonnes customer_id, plan, signup_date, churned et MRR au format CSV ; garde des identifiants uniques, des dates dans les 18 derniers mois et une valeur de churned cohérente avec le statut d’abonnement. » C’est bien mieux que « fais des données d’exemple », parce que cela donne au skill assez de structure pour garder un dataset plausible.

Meilleur workflow pour obtenir une bonne qualité de sortie

Utilisez le skill en deux temps : d’abord, définissez la spécification du jeu de données, puis affinez la sortie après vérification du réalisme des champs et des contraintes. Si vous avez besoin de dummy-dataset pour le nettoyage de données, demandez volontairement des cas limites, comme des valeurs manquantes, des doublons, des e-mails mal formés ou des formats de date incohérents. Si vous avez besoin d’un script, précisez d’emblée le langage et le contexte d’exécution pour que la sortie corresponde à vos outils.

FAQ du skill dummy-dataset

dummy-dataset est-il adapté à des données de test proches du réel ?

Oui, si vous avez besoin d’enregistrements factices crédibles avec une structure contrôlée. Le skill dummy-dataset est utile lorsque les outils en aval dépendent de la cohérence des champs, mais il s’agit toujours de données synthétiques : il ne faut donc pas les traiter comme des données réelles d’utilisateurs ni comme un modèle statistique de votre activité.

Faut-il savoir programmer pour l’utiliser ?

Non. Les débutants peuvent utiliser dummy-dataset en décrivant le jeu de données en langage courant et en précisant le format souhaité. Des entrées plus précises améliorent les résultats, mais vous n’avez pas besoin d’écrire du code sauf si vous voulez un script Python ou une sortie SQL d’insertions.

Quand ne faut-il pas utiliser ce skill ?

N’utilisez pas dummy-dataset si vous avez besoin d’anonymiser des données réelles, de générer des données synthétiques conformes à des exigences légales, ou de reproduire à l’identique un schéma de production avec des contraintes sensibles. Dans ces cas-là, un pipeline de données dédié ou un outil tenant compte de la confidentialité sera souvent mieux adapté qu’un guide dummy-dataset piloté par prompt.

Est-ce meilleur qu’un prompt classique ?

En général oui, parce que le skill dummy-dataset vous pousse à définir ensemble les colonnes, les règles métier et le format de sortie. Un prompt classique oublie souvent l’un de ces éléments, ce qui produit des données qui paraissent correctes au premier coup d’œil mais échouent à l’import, aux tests ou à la validation.

Comment améliorer le skill dummy-dataset

Fournir une spécification de jeu de données plus précise

Le plus gros gain de qualité vient d’une description du domaine en termes de champs et de règles, pas seulement d’un thème. Au lieu de « génère des données clients », demandez des champs concrets comme customer_id, segment, signup_date, lifetime_value et status, avec des règles telles que « lifetime_value doit varier selon le segment » ou « signup_date ne peut pas être dans le futur ». Cela rend le skill dummy-dataset beaucoup plus fiable.

Ajouter les contraintes qui comptent en aval

Si vous prévoyez de nettoyer, valider ou importer les données, indiquez ce qui doit être vrai après génération. Mentionnez l’unicité, les taux de valeurs nulles, les plages de dates, les énumérations autorisées, les relations de type clé étrangère et les exigences de format. Pour dummy-dataset pour le nettoyage de données, demandez volontairement des erreurs contrôlées afin que le jeu de données mette réellement votre logique de nettoyage à l’épreuve.

Itérer à partir des défauts, pas des préférences

Après la première sortie, concentrez vos corrections sur ce qui a cassé le workflow : mauvais noms de colonnes, plages irréalistes, cas limites absents ou format difficile à charger. Demandez ensuite une version corrigée de dummy-dataset avec une ou deux modifications précises, au lieu de reformuler toute la demande. Cela garde la sortie pratique et évite de trop l’ajuster à des détails cosmétiques.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

lamindb

par K-Dense-AI

Le skill lamindb vous aide à travailler avec LaminDB, un framework open source pour les données biologiques, conçu pour rendre les données interrogeables, traçables, reproductibles et conformes aux principes FAIR. Utilisez-le pour lamindb dans l’analyse de données, la curation des métadonnées, l’annotation fondée sur des ontologies, la validation de schéma et les workflows sensibles à la lignée des données dans les notebooks et les pipelines.

Data Analysis

Favoris 0GitHub 0

exploratory-data-analysis

par K-Dense-AI

Le skill exploratory-data-analysis transforme des fichiers scientifiques en rapports d’EDA adaptés au format. Il détecte le type de fichier, résume la structure et la qualité, extrait les métadonnées clés et suggère les analyses à poursuivre. Utilisez-le pour l’exploratory-data-analysis dans l’analyse de données, en chimie, bioinformatique, microscopie, spectroscopie, protéomique, métabolomique et d’autres formats de fichiers scientifiques.

Data Analysis

Favoris 0GitHub 0

read-file

par duckdb

read-file aide un agent à lire et inspecter des fichiers CSV, JSON, Parquet, Avro, Excel, SQLite, des fichiers spatiaux ou des URL distantes avec DuckDB. Utilisez-le pour prévisualiser des lignes, vérifier le schéma, profiler les données et répondre à la question : qu’y a-t-il dans ce fichier ? Il est surtout adapté à l’usage de read-file sur de vrais artefacts de données, pas sur du code source.

Office Documents

Favoris 0GitHub 443

data-quality-frameworks

par wshobson

La skill data-quality-frameworks aide les équipes à concevoir la validation des données en production avec les tests dbt, Great Expectations et les data contracts. Utilisez-la pour choisir les bons contrôles, les organiser selon une pyramide de tests et structurer des workflows de qualité des données compatibles CI/CD pour le Data Cleaning et la fiabilité des pipelines.

Data Cleaning

Favoris 0GitHub 32.6k

data-analyst

par Shubhamsaboo

data-analyst est une skill GitHub minimaliste qui oriente les agents vers SQL, pandas et l’analyse statistique de base pour l’exploration de données. Elle convient surtout aux utilisateurs qui veulent obtenir, depuis une seule couche de prompt SKILL.md, des requêtes, des transformations et des interprétations appuyées par du code.

Data Analysis

Favoris 0GitHub 104.2k

frontend-design

par anthropics

frontend-design transforme des idées d’interface floues en UIs distinctives, prêtes pour la prod, avec du vrai code frontend, une direction esthétique claire et moins de style IA générique.

UI Design

Favoris 1GitHub 105.2k

create-colleague

par titanwings

create-colleague transforme des documents de collègues, chats, e-mails, captures d’écran, ainsi que des données Feishu et DingTalk, en un skill IA modifiable avec des sorties séparées pour le travail et le persona, ainsi que des flux de mise à jour pour l’améliorer dans la durée.

Skill Authoring

Favoris 1GitHub 747

hyperframes

par heygen-com

hyperframes est un skill de workflow pour créer des compositions vidéo en HTML dans HyperFrames. Utilisez-le pour les cartes de titre, les superpositions, les sous-titres, les voix off, les mouvements réactifs à l'audio et les transitions de scène lorsque vous avez besoin de hyperframes structurés, pensés d'abord en code, pour le montage vidéo. Il privilégie les choix de mise en page, de timing et d'animation plutôt que de simples requêtes vidéo génériques basées sur du prompt.

Video Editing

Favoris 0GitHub 2.7k

kreuzberg

par kreuzberg-dev

La compétence kreuzberg vous aide à installer et utiliser Kreuzberg pour l’extraction de documents dans plus de 91 formats, dont les PDF, fichiers Office, images, HTML, e-mails et archives. Elle couvre les workflows Python, Node.js/TypeScript, Rust et CLI pour l’OCR, les tableaux, les métadonnées, le traitement par lots et des conseils pratiques d’analyse.

PDF Processing

Favoris 0GitHub 0

skill-creator

par anthropics

skill-creator est une méta-skill de création de skills pour rédiger de nouvelles skills, réviser des fichiers SKILL.md, lancer des évaluations, comparer des variantes et améliorer les descriptions de déclenchement avec les scripts du dépôt et des outils de revue.

Skill Authoring

Favoris 2GitHub 105.1k

azure-identity-py

par microsoft

azure-identity-py aide à configurer l’authentification Azure en Python avec Microsoft Entra ID. Utilisez-le pour choisir entre `DefaultAzureCredential`, l’identité managée ou l’authentification par principal de service, configurer les variables d’environnement et résoudre les problèmes de contrôle d’accès et de chaîne d’identifiants. Les conseils d’installation, les schémas d’utilisation et les notes de configuration pratiques s’appuient sur le fichier de skill du dépôt.

Access Control

Favoris 0GitHub 2.2k

claude-api

par anthropics

claude-api est une skill pratique pour installer et utiliser l’API Claude et les SDK Anthropic. Elle aide à choisir le bon SDK ou l’option HTTP brute, à repérer la documentation adaptée à chaque langage et à implémenter le streaming, l’usage d’outils, les fichiers, les batchs et la gestion des erreurs avec moins d’incertitude.

API Development

Favoris 0GitHub 105k

wrangler

par cloudflare

Le skill wrangler vous aide à trouver les bonnes commandes CLI, les bons schémas de configuration et les étapes de déploiement pour Cloudflare Workers. Utilisez-le pour l’usage de wrangler, les vérifications d’installation de wrangler et un guide pratique de wrangler lors de la création ou de la mise en ligne de Workers pour le développement backend.

Backend Development

Favoris 0GitHub 1.3k

clickhouse-best-practices

par ClickHouse

clickhouse-best-practices est un skill de bonnes pratiques ClickHouse pour l’ingénierie des bases de données. Il guide la conception du schéma, l’optimisation des requêtes, la stratégie d’insertion et la connexion des agents avec des recommandations fondées sur des règles, afin de faciliter le déclenchement, la revue et la citation de l’usage de clickhouse-best-practices dans les workflows ClickHouse.

Database Engineering

Favoris 0GitHub 412

clickhouse-architecture-advisor

par ClickHouse

clickhouse-architecture-advisor aide à concevoir des workloads ClickHouse avec des décisions adaptées à la charge pour l’ingestion, le partitionnement, les jointures, les dictionnaires, les upserts et la pré-agrégation. Il est particulièrement utile pour le Backend Development, l’observabilité, le SIEM, l’analytics produit, la télémétrie IoT et les pipelines financiers. Le skill qualifie les recommandations comme official, derived ou field.

Backend Development

Favoris 0GitHub 412

figma-generate-library

par figma

figma-generate-library vous aide à créer ou mettre à jour un design system Figma à partir d’une base de code, avec un workflow structuré pour les tokens, les bibliothèques de composants, la documentation et le thème clair/sombre. Utilisez le skill figma-generate-library lorsque vous cherchez un guide عملي pour les Design Systems, et non un simple mockup ponctuel. Il complète figma-use pour les appels à l’API du Plugin.

Design Systems

Favoris 0GitHub 0