data-scraper-agent

por affaan-m

data-scraper-agent ayuda a crear un pipeline repetible de datos públicos para web scraping, enriquecimiento y almacenamiento. Está pensado para supervisar trabajos, precios, noticias, repositorios, deportes y listados en un horario definido usando GitHub Actions, con salidas a Notion, Sheets o Supabase. Es ideal para el seguimiento continuo, no para extracciones puntuales.

Estrellas156.1k

Favoritos0

Comentarios0

Agregado15 abr 2026

CategoríaWeb Scraping

Comando de instalación

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Puntuación editorial

Esta skill obtiene 84/100, lo que la convierte en una buena candidata para el directorio: ofrece un flujo de trabajo de scraping de datos claramente activable, suficiente detalle operativo para entender rápido la pila y el propósito, y orientación real más allá de un prompt genérico. Debería ayudar a los agentes a ejecutar tareas de monitorización de datos públicos con menos improvisación, aunque conviene verificar que encaje con el sitio objetivo y la configuración de almacenamiento concretos.

84/100

Puntos fuertes

La guía de activación es explícita y cubre solicitudes habituales de monitorización de datos públicos, como scraping, seguimiento y recopilación programada.
La estructura del flujo de trabajo está bien definida y muestra el pipeline completo COLLECT → ENRICH → STORE, lo que ayuda a ejecutar con menos ambigüedad.
El contenido es sustantivo y no tiene marcadores de relleno, además de incluir referencias concretas a la pila (Python, Gemini Flash, GitHub Actions, Notion/Sheets/Supabase).

Puntos a tener en cuenta

No hay comando de instalación ni archivos de soporte, así que la configuración e integración pueden requerir interpretar manualmente solo `SKILL.md`.
La skill es amplia por diseño, por lo que casos límite como medidas anti-bot específicas del sitio o fuentes de datos poco comunes no están operacionalizados en detalle en el extracto.

Python Google Notion Supabase Playwright Github Actions

Resumen

Descripción general de la skill `data-scraper-agent`

Qué hace `data-scraper-agent`

La skill data-scraper-agent te ayuda a crear un pipeline automatizado que recopila datos públicos, los enriquece con un LLM y guarda la salida para hacer seguimiento continuo. Es ideal para tareas de data-scraper-agent for Web Scraping cuando el objetivo no es un scrape puntual, sino un agente repetible que siga revisando fuentes como portales de empleo, páginas de precios, feeds de noticias, repositorios de GitHub, resultados deportivos y listados.

Quién debería instalarla

Instala la skill data-scraper-agent si necesitas una forma de bajo costo de monitorizar fuentes públicas con una programación periódica, sin mantener tu propio servidor. Encaja con usuarios que buscan alertas, registros estructurados o seguimiento de tendencias más que scraping ocasional. Es menos útil si solo necesitas una extracción manual única o si el sitio de destino es privado, exige inicio de sesión o tiene una protección anti-bot muy fuerte.

Por qué es diferente

El valor principal de esta data-scraper-agent skill está en el flujo de trabajo, no solo en el scraper. Se centra en un ciclo de tres pasos: recopilar, enriquecer y guardar. Eso facilita convertir páginas en bruto en datos utilizables, clasificar resultados y mantener el sistema en marcha mediante GitHub Actions. La contrapartida práctica es que la calidad depende de que la fuente sea pública y de que le des al agente reglas claras de esquema y filtrado.

Cómo usar la skill `data-scraper-agent`

Instalar e inspeccionar la skill

Usa el comando data-scraper-agent install en tu flujo de trabajo de Claude Code:
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Después de la instalación, lee primero SKILL.md y luego revisa el resto del contexto de la skill en el repo, si existe. Aunque esta skill sea autosuficiente, la mejor forma de usar data-scraper-agent usage es confirmar la ruta de ejecución, el formato de salida y cualquier supuesto antes de pedirle que construya algo contra un objetivo real.

Convertir una solicitud vaga en un brief útil

Un prompt débil como “scrape this site” no aporta suficiente estructura. Un prompt sólido le dice a la skill qué fuente debe monitorizar, qué campos debe recoger, con qué frecuencia debe ejecutarse y dónde deben acabar los resultados. Por ejemplo: “Build a data-scraper-agent for public software engineering jobs on two boards, collect title/company/location/salary/posted date, dedupe by URL, enrich with role seniority, and store weekly results in Google Sheets.”

Qué especificar para obtener mejor salida

La skill funciona mejor cuando aportas la fuente pública, el esquema deseado y la lógica de decisión. Incluye si el sitio es estático o renderizado con JS, cuán frescos deben ser los datos y qué cuenta como un registro nuevo o modificado. Si omites esos detalles, el agente puede extraer demasiado, pasar por alto campos importantes o producir registros difíciles de comparar con el tiempo.

Archivos y conceptos que conviene leer primero

Empieza por SKILL.md y céntrate en las secciones que explican la activación, la arquitectura de tres capas y el stack gratuito. Esas partes te dicen cuándo esta skill encaja realmente y cómo conectar el pipeline. Si la vas a adaptar a un repo nuevo, busca primero los ejemplos concretos de configuración de programación, opciones de almacenamiento y reglas de enriquecimiento antes de modificar los prompts.

Preguntas frecuentes sobre la skill `data-scraper-agent`

¿Solo sirve para páginas web?

No. La data-scraper-agent guide sirve para cualquier fuente pública a la que el agente pueda acceder, incluidas APIs, feeds y páginas que quizá requieran renderizado en navegador. Para páginas HTML simples, suele bastar con un scraping HTTP básico. Para sitios dinámicos, puede hacer falta un enfoque basado en navegador, lo que aumenta la complejidad de la configuración.

¿Necesito experiencia en programación para usarla?

Ayuda tener una comodidad básica con el prompting, pero sigue siendo una skill orientada a construcción. Los principiantes pueden usarla si saben describir con claridad la fuente y la salida deseada. Si no puedes definir los campos, la programación o el destino, el resultado probablemente será demasiado vago para desplegarse con fiabilidad.

¿En qué se diferencia de un prompt normal?

Un prompt normal suele generar un scraper o un resumen de una sola vez. La skill data-scraper-agent está pensada para crear un sistema repetible con recopilación, enriquecimiento, almacenamiento y ejecuciones programadas. Eso la hace más adecuada cuando te importa mantener datos a lo largo del tiempo, no solo extraerlos una vez.

¿Cuándo no debería usarla?

No uses data-scraper-agent si la fuente requiere inicio de sesión, tiene límites de tasa estrictos, bloquea la automatización o los datos son muy sensibles. Tampoco es una buena opción cuando solo necesitas una exportación manual rápida o cuando la fuente cambia tan a menudo que mantener un agente sería más complicado que resolverlo con un prompt simple.

Cómo mejorar la skill `data-scraper-agent`

Define mejor las fuentes

Los mejores resultados de data-scraper-agent se obtienen cuando se nombran URLs exactas, patrones y límites de alcance. Indica qué páginas importan, cuáles no y qué debe ignorar el agente. Por ejemplo: “monitor only the listing pages for remote backend roles in the US; exclude internships, sponsored posts, and duplicate reposts.” Ese tipo de brief reduce los falsos positivos y ayuda a que el agente se mantenga estable.

Define las reglas de enriquecimiento y almacenamiento

Si quieres una salida útil, dile a la skill qué debe inferir el LLM y qué debe permanecer literal. Usa el enriquecimiento para clasificación, puntuación de prioridad o resúmenes breves, pero mantén exactos los campos de origen como precio, título y URL. También especifica por adelantado el formato de destino: Notion para flujos de revisión, Sheets para análisis ligero, Supabase para consultas estructuradas.

Revisa la primera ejecución para detectar fallos

Los problemas más comunes son registros duplicados, campos faltantes en páginas dinámicas y un enriquecimiento demasiado agresivo que cambia el sentido de la fuente. Después de la primera ejecución, inspecciona algunos registros y afina el prompt en torno a la deduplicación, los selectores y los campos de origen aceptados. Si la salida está llena de ruido, reduce el alcance antes de añadir más automatización.

Itera en función de lo que realmente sigues

Usa la primera versión para validar el bucle de monitorización y, después, mejora data-scraper-agent según las señales que más te importen: frescura, completitud o calidad de clasificación. Si lo importante es la frescura, ajusta la programación. Si lo importante es la completitud, revisa las reglas de extracción. Si lo importante es la toma de decisiones, mejora el prompt de enriquecimiento para que el agente explique por qué incluyó cada elemento.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

huggingface-datasets

por huggingface

Usa la skill huggingface-datasets para flujos de trabajo con la API de Dataset Viewer de Hugging Face: validar datasets, resolver splits, previsualizar y paginar filas, buscar texto, aplicar filtros y obtener enlaces de parquet o estadísticas. Es una guía práctica de huggingface-datasets para exploración de datasets en modo solo lectura.

Web Scraping

Favoritos 0GitHub 10.4k

baoyu-url-to-markdown

por JimLiu

baoyu-url-to-markdown convierte URLs activas a Markdown con un CLI baoyu-fetch incluido en el repositorio, usando Chrome CDP, adaptadores de sitio y una alternativa genérica. Revisa los requisitos de Bun, la configuración inicial de EXTEND.md y el uso para X, YouTube, Hacker News y páginas renderizadas.

Format Conversion

Favoritos 0GitHub 13.2k

x-twitter-scraper

por Xquik-dev

Usa x-twitter-scraper para obtener datos de X (Twitter) y acciones con verificación a través de Xquik. Admite búsqueda de tweets, consulta de usuarios, extracción de seguidores, descarga de medios, monitores, webhooks, MCP y acciones de escritura. Es ideal para investigación estilo web scraping con una API key, no para secretos de inicio de sesión de X.

Web Scraping

Favoritos 0GitHub 71

exa-search

por K-Dense-AI

exa-search es una skill de investigación web impulsada por Exa para encontrar información actual y extraer contenido de URLs. Úsala para búsquedas, descubrimiento de fuentes, extracción de artículos y PDF, e investigación técnica o científica con recuperación semántica, filtrado al estilo académico y una guía clara de instalación y uso.

Web Research

Favoritos 0GitHub 0

browser-use

por browser-use

browser-use es una skill de automatización del navegador para abrir páginas, inspeccionar el estado, hacer clic en elementos indexados, escribir en campos, tomar capturas y reutilizar una sesión persistente del navegador. Úsala para completar formularios con fiabilidad, navegar por sitios y ejecutar flujos con sesión iniciada mediante la CLI de browser-use.

Browser Automation

Favoritos 0GitHub 84.9k

remote-browser

por browser-use

remote-browser ayuda a los agentes en entornos aislados a controlar un navegador sin interfaz para Browser Automation. Úsalo para abrir páginas, inspeccionar el estado, hacer clic en elementos indexados, introducir texto, tomar capturas de pantalla y conectarte a apps locales o a sesiones de navegador compatibles con CDP.

Browser Automation

Favoritos 0GitHub 84.9k

firecrawl

por firecrawl

Skill de firecrawl para instalar, autenticarse y usar la CLI oficial de Firecrawl para scraping web, búsqueda, rastreo e interacción con páginas. Aprende la configuración, `firecrawl --status`, el inicio de sesión, la salida segura de archivos en `.firecrawl/` y patrones de uso prácticos respaldados por el repositorio.

Web Scraping

Favoritos 0GitHub 234

firecrawl-search

por firecrawl

firecrawl-search es una skill de investigación web para encontrar fuentes, realizar búsquedas estructuradas y, opcionalmente, extraer el contenido completo de páginas como JSON con Firecrawl CLI.

Web Research

Favoritos 0GitHub 234

parallel-web

por K-Dense-AI

parallel-web es una skill de investigación y extracción web impulsada por parallel-cli. Ayuda a buscar en la web, extraer contenido de URLs, enriquecer datos a partir de fuentes y realizar investigaciones más profundas, con prioridad para fuentes académicas y científicas. Úsala para el uso de parallel-web, la investigación web, las citas y flujos de trabajo basados en evidencia.

Web Research

Favoritos 0GitHub 0

geomaster

por K-Dense-AI

geomaster es una skill de ciencia geoespacial para flujos de trabajo de SIG, teledetección, análisis espacial y observación de la Tierra. Úsala en tareas de análisis de datos como operaciones raster y vectoriales, procesamiento de imágenes satelitales, métricas espaciales y planificación de flujos de trabajo. La guía de geomaster te ayuda a instalar, revisar y aplicar la skill con menos conjeturas.

Data Analysis

Favoritos 0GitHub 0

asc-aso-audit

por rudrankriyam

asc-aso-audit te ayuda a ejecutar una auditoría ASO offline sobre los metadatos canónicos de App Store en `./metadata`, y luego a detectar brechas de palabras clave con Astro MCP. Usa la skill asc-aso-audit después de `asc metadata pull` para revisar `subtitle`, `keywords`, `description` y `whatsNew` con menos margen de error.

Data Analysis

Favoritos 0GitHub 0

ffuf-web-fuzzing

por jthack

ffuf-web-fuzzing es una habilidad práctica para descubrir contenido web oculto, probar rutas y parámetros, y hacer fuzzing de objetivos autenticados con solicitudes en bruto, auto-calibración y análisis de resultados. Encaja con testers de seguridad que necesitan una guía repetible de ffuf-web-fuzzing para pruebas de penetración y flujos de trabajo de auditoría de seguridad.

Security Audit

Favoritos 0GitHub 0

web-to-markdown

por softaworks

web-to-markdown es una skill de conversión de formato que transforma páginas web en vivo en Markdown limpio mediante el CLI local `web2md`, usando un navegador de la familia Chromium para páginas renderizadas con JS, flujos interactivos y conversión por lotes de URLs. Solo se ejecuta cuando se invoca explícitamente por nombre.

Format Conversion

Favoritos 0GitHub 1.3k

firecrawl-agent

por firecrawl

firecrawl-agent ayuda a extraer JSON estructurado de sitios web complejos y de varias páginas. Descubre cuándo conviene usarlo, cómo ejecutar el agente de Firecrawl CLI, añadir esquemas, definir URLs iniciales y guardar resultados para extraer precios, productos y datos tipo directorio.

Web Scraping

Favoritos 0GitHub 234

firecrawl-map

por firecrawl

firecrawl-map ayuda a los agentes a descubrir y listar URLs de un sitio, con opciones de filtrado por búsqueda, límites, salida en JSON, modos de sitemap y control de subdominios antes de hacer scraping o crawling más profundos.

Web Scraping

Favoritos 0GitHub 234

firecrawl-crawl

por firecrawl

firecrawl-crawl ayuda a los agentes a extraer contenido de forma masiva de un sitio web o una sección de documentación, con filtros de rutas, límites de profundidad, topes de páginas, modo de espera y comprobaciones del estado del trabajo.

Web Scraping

Favoritos 0GitHub 234

data-scraper-agent

Descripción general de la skill data-scraper-agent

Qué hace data-scraper-agent

Quién debería instalarla

Por qué es diferente

Cómo usar la skill data-scraper-agent

Instalar e inspeccionar la skill

Convertir una solicitud vaga en un brief útil

Qué especificar para obtener mejor salida

Archivos y conceptos que conviene leer primero

Preguntas frecuentes sobre la skill data-scraper-agent

¿Solo sirve para páginas web?

¿Necesito experiencia en programación para usarla?

¿En qué se diferencia de un prompt normal?

¿Cuándo no debería usarla?

Cómo mejorar la skill data-scraper-agent

Define mejor las fuentes

Define las reglas de enriquecimiento y almacenamiento

Revisa la primera ejecución para detectar fallos

Itera en función de lo que realmente sigues

Calificaciones y reseñas

Descripción general de la skill `data-scraper-agent`

Qué hace `data-scraper-agent`

Cómo usar la skill `data-scraper-agent`

Preguntas frecuentes sobre la skill `data-scraper-agent`

Cómo mejorar la skill `data-scraper-agent`