data-scraper-agent

par affaan-m

data-scraper-agent aide à mettre en place un pipeline de données publiques reproductible pour le web scraping, l’enrichissement et le stockage. Il est conçu pour suivre des jobs, des prix, des actualités, des repos, des résultats sportifs et des annonces selon un planning, via GitHub Actions, avec des sorties vers Notion, Sheets ou Supabase. Idéal pour un suivi continu, pas pour des extractions ponctuelles.

Étoiles156.1k

Favoris0

Commentaires0

Ajouté15 avr. 2026

CatégorieWeb Scraping

Commande d’installation

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Score éditorial

Cette skill obtient 84/100, ce qui en fait une bonne candidate pour le répertoire : les utilisateurs disposent d’un workflow de collecte de données clairement activable, d’assez de détails opérationnels pour comprendre rapidement la pile et l’objectif, et d’indications concrètes au-delà d’un simple prompt générique. Elle peut aider les agents à exécuter des tâches de surveillance de données publiques avec moins d’hésitation, tout en nécessitant une vérification d’adéquation au site cible et au système de stockage.

84/100

Points forts

Des consignes d’activation explicites couvrent les demandes courantes de surveillance de données publiques comme le scraping, le suivi et la collecte planifiée.
Le cadrage du workflow met clairement en évidence le pipeline COLLECT → ENRICH → STORE, ce qui aide les agents à exécuter la tâche avec moins d’ambiguïté.
Un contenu substantiel sans marqueurs de remplacement, avec des références concrètes à la pile (Python, Gemini Flash, GitHub Actions, Notion/Sheets/Supabase).

Points de vigilance

Aucune commande d’installation ni fichier d’assistance n’est présent, donc la configuration et l’intégration peuvent nécessiter une interprétation manuelle à partir de SKILL.md seul.
La skill est volontairement large, donc les cas limites comme les mesures anti-bot propres à un site ou les sources de données atypiques ne sont pas détaillés de manière approfondie dans l’extrait.

Python Google Notion Supabase Playwright Github Actions

Vue d’ensemble

Aperçu du skill `data-scraper-agent`

Ce que fait `data-scraper-agent`

Le skill data-scraper-agent vous aide à créer un pipeline automatisé qui collecte des données publiques, les enrichit avec un LLM, puis stocke le résultat pour un suivi continu. Il convient particulièrement aux tâches de data-scraper-agent for Web Scraping lorsque l’objectif n’est pas un simple scraping ponctuel, mais un agent reproductible qui vérifie en continu des sources comme des sites d’offres d’emploi, des pages de tarifs, des flux d’actualité, des dépôts GitHub, des résultats sportifs et des annonces.

Qui devrait l’installer

Installez le skill data-scraper-agent si vous cherchez un moyen peu coûteux de surveiller des sources publiques selon un calendrier, sans gérer votre propre serveur. Il convient aux utilisateurs qui veulent des alertes, des enregistrements structurés ou un suivi de tendances plutôt qu’un scraping au cas par cas. Il est moins pertinent si vous n’avez besoin que d’une extraction manuelle unique, ou si le site cible est privé, protégé par connexion, ou fortement protégé contre les bots.

En quoi il se distingue

La principale valeur du data-scraper-agent skill tient au workflow, pas seulement au scraper. Le skill met l’accent sur une boucle en trois étapes : collecter, enrichir, stocker. Cela facilite la transformation de pages brutes en données exploitables, la classification des résultats et le maintien du système via GitHub Actions. Le compromis concret est que la qualité dépend du caractère public de la source et du fait de donner à l’agent un schéma clair ainsi que des règles de filtrage précises.

Comment utiliser le skill `data-scraper-agent`

Installer et examiner le skill

Utilisez la commande data-scraper-agent install dans votre workflow Claude Code :
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Après l’installation, lisez d’abord SKILL.md, puis consultez le reste du contexte du skill dans le repo s’il est présent. Même si ce skill est autonome, la meilleure façon d’utiliser data-scraper-agent usage consiste à vérifier le chemin d’exécution, le format de sortie et les hypothèses éventuelles avant de lui faire construire quelque chose pour une cible réelle.

Transformer une demande floue en brief exploitable

Une invite faible comme « scrape ce site » n’apporte pas assez de structure. Une bonne invite indique au skill quelle source surveiller, quels champs collecter, à quelle fréquence lancer l’agent et où les résultats doivent être déposés. Par exemple : « Construis un data-scraper-agent pour des offres d’emploi publiques en ingénierie logicielle sur deux sites, collecte le titre/l’entreprise/la localisation/le salaire/la date de publication, déduplique par URL, enrichis avec l’ancienneté du poste et stocke les résultats hebdomadaires dans Google Sheets. »

Ce qu’il faut préciser pour obtenir de meilleurs résultats

Le skill fonctionne mieux lorsque vous fournissez la source publique, le schéma attendu et la logique de décision. Indiquez si le site est statique ou rendu en JavaScript, à quel point les données doivent être fraîches et ce qui doit compter comme un enregistrement nouveau ou modifié. Si vous omettez ces détails, l’agent peut récupérer trop de données, manquer des champs importants ou produire des enregistrements difficiles à comparer dans le temps.

Fichiers et concepts à lire en premier

Commencez par SKILL.md et concentrez-vous sur les sections qui expliquent l’activation, l’architecture en trois couches et la pile gratuite. Ces parties indiquent quand le skill est le bon choix et comment câbler le pipeline. Si vous l’adaptez à un nouveau repo, cherchez les exemples concrets de configuration de planification, de choix de stockage et de règles d’enrichissement avant de modifier les prompts.

FAQ du skill `data-scraper-agent`

Est-ce réservé aux pages web ?

Non. Le data-scraper-agent guide sert pour toute source publique que l’agent peut atteindre, y compris les API, les flux et les pages qui peuvent nécessiter un rendu dans le navigateur. Pour des pages HTML simples, un scraping HTTP de base suffit souvent. Pour des sites dynamiques, il faut parfois une approche fondée sur le navigateur, ce qui augmente la complexité de configuration.

Faut-il savoir coder pour l’utiliser ?

Un minimum d’aisance avec le prompting aide, mais il s’agit toujours d’un skill orienté construction. Les débutants peuvent l’utiliser s’ils savent décrire clairement la source et le résultat attendu. Si vous ne pouvez pas définir les champs, le planning ou la destination, le résultat risque d’être trop flou pour être déployé de manière fiable.

En quoi est-ce différent d’une invite classique ?

Une invite classique produit généralement un scraper ou un résumé ponctuel. Le skill data-scraper-agent est conçu pour créer un système reproductible avec collecte, enrichissement, stockage et exécutions planifiées. Il est donc plus adapté lorsque vous devez conserver des données dans le temps, et pas seulement les extraire une fois.

Quand ne faut-il pas l’utiliser ?

N’utilisez pas data-scraper-agent si la source exige une connexion, applique des limites de débit strictes, bloque l’automatisation ou contient des données hautement sensibles. C’est aussi un mauvais choix si vous avez seulement besoin d’un export manuel rapide ou si la source change tellement souvent qu’une simple invite serait plus facile à maintenir qu’un agent.

Comment améliorer le skill `data-scraper-agent`

Définir des sources plus précises

Les meilleurs résultats avec data-scraper-agent viennent de la nomination d’URL exactes, de motifs précis et de limites de périmètre claires. Dites quelles pages comptent, lesquelles ne comptent pas, et ce que l’agent doit ignorer. Par exemple : « Surveiller uniquement les pages d’annonces pour des postes backend à distance aux États-Unis ; exclure les stages, les publications sponsorisées et les reposts en double. » Ce type de brief réduit les faux positifs et aide l’agent à rester stable.

Définir les règles d’enrichissement et de stockage

Si vous voulez une sortie utile, indiquez au skill ce que le LLM doit inférer et ce qui doit rester littéral. Servez-vous de l’enrichissement pour la classification, le scoring de priorité ou de courts résumés, mais conservez exacts les champs source comme le prix, le titre et l’URL. Précisez aussi le format de destination dès le départ : Notion pour des workflows de relecture, Sheets pour une analyse légère, Supabase pour des requêtes structurées.

Vérifier la première exécution pour repérer les modes d’échec

Les problèmes les plus courants sont les doublons, les champs manquants sur les pages dynamiques et un enrichissement trop agressif qui modifie le sens de la source. Après la première exécution, inspectez quelques enregistrements et resserrez l’invite autour de la déduplication, des sélecteurs et des champs source acceptés. Si la sortie est bruitée, réduisez le périmètre avant d’ajouter davantage d’automatisation.

Itérer en fonction de ce que vous suivez réellement

Servez-vous de la première version pour valider la boucle de surveillance, puis améliorez data-scraper-agent selon les signaux qui comptent le plus pour vous : fraîcheur, complétude ou qualité de classification. Si la fraîcheur est prioritaire, affinez le planning. Si la complétude est prioritaire, ajustez les règles d’extraction. Si la prise de décision est prioritaire, améliorez l’invite d’enrichissement pour que l’agent explique pourquoi chaque élément a été inclus.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

huggingface-datasets

par huggingface

Utilisez le skill huggingface-datasets pour les workflows de l’API Hugging Face Dataset Viewer afin de valider des datasets, résoudre les splits, prévisualiser et paginer les lignes, rechercher du texte, appliquer des filtres, et récupérer des liens Parquet ou des statistiques. C’est un guide pratique huggingface-datasets pour explorer des datasets en lecture seule.

Web Scraping

Favoris 0GitHub 10.4k

baoyu-url-to-markdown

par JimLiu

baoyu-url-to-markdown convertit des URL en direct en Markdown via le CLI embarqué baoyu-fetch, avec Chrome CDP, des adaptateurs par site et un mode de repli générique. Vérifiez les exigences d’exécution avec Bun, la configuration initiale de `EXTEND.md`, ainsi que l’usage pour X, YouTube, Hacker News et les pages rendues.

Format Conversion

Favoris 0GitHub 13.2k

x-twitter-scraper

par Xquik-dev

Utilisez x-twitter-scraper pour récupérer des données X (Twitter) et exécuter des actions soumises à confirmation via Xquik. L’outil prend en charge la recherche de tweets, la consultation d’utilisateurs, l’extraction de followers, le téléchargement de médias, les monitors, les webhooks, MCP et les actions d’écriture. Idéal pour des recherches de type web scraping avec une clé API, sans avoir à utiliser des identifiants de connexion X.

Web Scraping

Favoris 0GitHub 71

exa-search

par K-Dense-AI

exa-search est un skill de recherche web propulsé par Exa, conçu pour trouver des informations à jour et extraire du contenu depuis des URLs. Utilisez-le pour la recherche web, la découverte de sources, l’extraction d’articles et de PDF, ainsi que pour des recherches techniques ou scientifiques grâce à une récupération sémantique, un filtrage de type académique et des indications claires d’installation et d’utilisation.

Web Research

Favoris 0GitHub 0

browser-use

par browser-use

browser-use est une skill d’automatisation de navigateur qui permet d’ouvrir des pages, d’inspecter l’état, de cliquer sur des éléments indexés, de saisir du texte dans des champs, de prendre des captures d’écran et de réutiliser une session de navigateur persistante. Utilisez-la pour le remplissage fiable de formulaires, la navigation et les workflows en mode connecté avec la CLI browser-use.

Browser Automation

Favoris 0GitHub 84.9k

remote-browser

par browser-use

remote-browser aide les agents isolés en sandbox à piloter un navigateur headless pour l’automatisation du navigateur. Utilisez-le pour ouvrir des pages, inspecter l’état, cliquer sur des éléments indexés, saisir du texte, prendre des captures d’écran et se connecter à des applications locales ou à des sessions de navigateur compatibles CDP.

Browser Automation

Favoris 0GitHub 84.9k

firecrawl

par firecrawl

Skill firecrawl pour installer, authentifier et utiliser le CLI officiel Firecrawl pour le scraping web, la recherche, le crawl et l’interaction avec les pages. Découvrez la configuration, `firecrawl --status`, la connexion, l’écriture sécurisée des fichiers dans `.firecrawl/` et des usages concrets appuyés par le repo.

Web Scraping

Favoris 0GitHub 234

firecrawl-search

par firecrawl

firecrawl-search est une skill de recherche web conçue pour trouver des sources, effectuer des recherches structurées et, si besoin, extraire le contenu complet de pages au format JSON avec Firecrawl CLI.

Web Research

Favoris 0GitHub 234

parallel-web

par K-Dense-AI

parallel-web est une skill de recherche et d’extraction web propulsée par parallel-cli. Elle vous aide à rechercher sur le web, extraire le contenu d’URL, enrichir des données à partir de sources et mener des recherches approfondies en privilégiant les sources académiques et scientifiques. Utilisez-la pour l’usage de parallel-web, la recherche web, les citations et les workflows fondés sur les preuves.

Web Research

Favoris 0GitHub 0

geomaster

par K-Dense-AI

geomaster est une compétence de science géospatiale pour les workflows GIS, de télédétection, d’analyse spatiale et d’observation de la Terre. Utilisez-la pour des tâches d’analyse de données comme les opérations raster et vectorielles, le traitement d’imagerie satellite, les métriques spatiales et la planification de workflows. Le guide geomaster vous aide à installer, inspecter et appliquer la compétence avec moins d’hésitation.

Data Analysis

Favoris 0GitHub 0

asc-aso-audit

par rudrankriyam

asc-aso-audit vous aide à réaliser un audit ASO hors ligne sur les métadonnées App Store canoniques dans `./metadata`, puis à faire ressortir les écarts de mots-clés avec Astro MCP. Utilisez la compétence asc-aso-audit après `asc metadata pull` pour passer en revue `subtitle`, `keywords`, `description` et `whatsNew` avec moins de suppositions.

Data Analysis

Favoris 0GitHub 0

ffuf-web-fuzzing

par jthack

ffuf-web-fuzzing est une compétence pratique pour découvrir du contenu web caché, tester des routes et des paramètres, et fuzzifier des cibles authentifiées avec des requêtes brutes, un auto-calibrage et l’analyse des résultats. Elle convient aux testeurs en sécurité qui ont besoin d’un guide ffuf-web-fuzzing reproductible pour les tests d’intrusion et les workflows d’audit de sécurité.

Security Audit

Favoris 0GitHub 0

web-to-markdown

par softaworks

web-to-markdown est un skill de conversion de format qui transforme des pages web en direct en Markdown propre via le CLI local `web2md`, en s’appuyant sur un navigateur de la famille Chromium pour les pages rendues en JS, les parcours interactifs et la conversion par lots d’URL. Il ne s’exécute que lorsqu’il est explicitement invoqué par son nom.

Format Conversion

Favoris 0GitHub 1.3k

firecrawl-agent

par firecrawl

firecrawl-agent aide à extraire du JSON structuré depuis des sites web complexes à plusieurs pages. Découvrez dans quels cas l’utiliser, comment lancer l’agent Firecrawl CLI, ajouter des schémas, définir des URL de départ et enregistrer les résultats pour l’extraction de tarifs, de catalogues produits et de données de type annuaire.

Web Scraping

Favoris 0GitHub 234

firecrawl-map

par firecrawl

firecrawl-map aide les agents à découvrir et lister les URL d’un site, avec des options de filtrage par recherche, de limitation, de sortie JSON, de modes sitemap et de contrôle des sous-domaines avant un scraping ou un crawl plus approfondi.

Web Scraping

Favoris 0GitHub 234

firecrawl-crawl

par firecrawl

firecrawl-crawl aide les agents à extraire en masse le contenu d’un site web ou d’une section de documentation grâce à des filtres de chemin, des limites de profondeur, des plafonds de pages, un mode d’attente et des vérifications de statut de tâche.

Web Scraping

Favoris 0GitHub 234

data-scraper-agent

Aperçu du skill data-scraper-agent

Ce que fait data-scraper-agent

Qui devrait l’installer

En quoi il se distingue

Comment utiliser le skill data-scraper-agent

Installer et examiner le skill

Transformer une demande floue en brief exploitable

Ce qu’il faut préciser pour obtenir de meilleurs résultats

Fichiers et concepts à lire en premier

FAQ du skill data-scraper-agent

Est-ce réservé aux pages web ?

Faut-il savoir coder pour l’utiliser ?

En quoi est-ce différent d’une invite classique ?

Quand ne faut-il pas l’utiliser ?

Comment améliorer le skill data-scraper-agent

Définir des sources plus précises

Définir les règles d’enrichissement et de stockage

Vérifier la première exécution pour repérer les modes d’échec

Itérer en fonction de ce que vous suivez réellement

Notes et avis

Aperçu du skill `data-scraper-agent`

Ce que fait `data-scraper-agent`

Comment utiliser le skill `data-scraper-agent`

FAQ du skill `data-scraper-agent`

Comment améliorer le skill `data-scraper-agent`