Web Scraping

Explora agent skills de Web Scraping en Procesamiento de Datos y compara workflows, herramientas y casos de uso relacionados.

23 skills

data-scraper-agent

por affaan-m

data-scraper-agent ayuda a crear un pipeline repetible de datos públicos para web scraping, enriquecimiento y almacenamiento. Está pensado para supervisar trabajos, precios, noticias, repositorios, deportes y listados en un horario definido usando GitHub Actions, con salidas a Notion, Sheets o Supabase. Es ideal para el seguimiento continuo, no para extracciones puntuales.

Web Scraping

Favoritos 0GitHub 156.1k

remote-browser

por browser-use

remote-browser ayuda a los agentes en entornos aislados a controlar un navegador sin interfaz para Browser Automation. Úsalo para abrir páginas, inspeccionar el estado, hacer clic en elementos indexados, introducir texto, tomar capturas de pantalla y conectarte a apps locales o a sesiones de navegador compatibles con CDP.

Browser Automation

Favoritos 0GitHub 84.9k

browser-use

por browser-use

browser-use es una skill de automatización del navegador para abrir páginas, inspeccionar el estado, hacer clic en elementos indexados, escribir en campos, tomar capturas y reutilizar una sesión persistente del navegador. Úsala para completar formularios con fiabilidad, navegar por sitios y ejecutar flujos con sesión iniciada mediante la CLI de browser-use.

Browser Automation

Favoritos 0GitHub 84.9k

baoyu-url-to-markdown

por JimLiu

baoyu-url-to-markdown convierte URLs activas a Markdown con un CLI baoyu-fetch incluido en el repositorio, usando Chrome CDP, adaptadores de sitio y una alternativa genérica. Revisa los requisitos de Bun, la configuración inicial de EXTEND.md y el uso para X, YouTube, Hacker News y páginas renderizadas.

Format Conversion

Favoritos 0GitHub 13.2k

huggingface-datasets

por huggingface

Usa la skill huggingface-datasets para flujos de trabajo con la API de Dataset Viewer de Hugging Face: validar datasets, resolver splits, previsualizar y paginar filas, buscar texto, aplicar filtros y obtener enlaces de parquet o estadísticas. Es una guía práctica de huggingface-datasets para exploración de datasets en modo solo lectura.

Web Scraping

Favoritos 0GitHub 10.4k

burpsuite-project-parser

por trailofbits

burpsuite-project-parser busca y extrae datos de archivos de proyecto de Burp Suite (.burp) usando Burp Suite Professional y la extensión burpsuite-project-file-parser. Úsalo para hallazgos de auditoría de seguridad, historial de proxy, entradas del mapa del sitio y búsquedas con expresiones regulares en el tráfico HTTP capturado.

Security Audit

Favoritos 0GitHub 5k

web-to-markdown

por softaworks

web-to-markdown es una skill de conversión de formato que transforma páginas web en vivo en Markdown limpio mediante el CLI local `web2md`, usando un navegador de la familia Chromium para páginas renderizadas con JS, flujos interactivos y conversión por lotes de URLs. Solo se ejecuta cuando se invoca explícitamente por nombre.

Format Conversion

Favoritos 0GitHub 1.3k

query

por duckdb

La skill query ejecuta consultas DuckDB sobre una base de datos adjunta o directamente sobre archivos. Acepta SQL o preguntas en lenguaje natural, admite modos de sesión y ad hoc, y resulta útil para análisis de datos, comprobaciones rápidas y trabajo iterativo de consultas con DuckDB Friendly SQL.

Data Analysis

Favoritos 0GitHub 443

firecrawl-agent

por firecrawl

firecrawl-agent ayuda a extraer JSON estructurado de sitios web complejos y de varias páginas. Descubre cuándo conviene usarlo, cómo ejecutar el agente de Firecrawl CLI, añadir esquemas, definir URLs iniciales y guardar resultados para extraer precios, productos y datos tipo directorio.

Web Scraping

Favoritos 0GitHub 234

firecrawl-browser

por firecrawl

firecrawl-browser es una skill de Firecrawl para automatización web interactiva. Está obsoleta como comando de navegador independiente y ahora orienta a usar primero firecrawl scrape y luego firecrawl interact para clics, formularios, flujos de inicio de sesión, paginación y páginas con mucho JavaScript.

Browser Automation

Favoritos 0GitHub 234

firecrawl

por firecrawl

Skill de firecrawl para instalar, autenticarse y usar la CLI oficial de Firecrawl para scraping web, búsqueda, rastreo e interacción con páginas. Aprende la configuración, `firecrawl --status`, el inicio de sesión, la salida segura de archivos en `.firecrawl/` y patrones de uso prácticos respaldados por el repositorio.

Web Scraping

Favoritos 0GitHub 234

firecrawl-crawl

por firecrawl

firecrawl-crawl ayuda a los agentes a extraer contenido de forma masiva de un sitio web o una sección de documentación, con filtros de rutas, límites de profundidad, topes de páginas, modo de espera y comprobaciones del estado del trabajo.

Web Scraping

Favoritos 0GitHub 234

firecrawl-download

por firecrawl

firecrawl-download te ayuda a descargar un sitio o una sección de documentación en archivos locales organizados dentro de `.firecrawl/`. Combina mapeo del sitio y scraping, admite markdown, enlaces y capturas de pantalla, y resulta útil para copias offline de documentación, captura masiva de páginas y flujos prácticos de Web Scraping.

Web Scraping

Favoritos 0GitHub 234

firecrawl-search

por firecrawl

firecrawl-search es una skill de investigación web para encontrar fuentes, realizar búsquedas estructuradas y, opcionalmente, extraer el contenido completo de páginas como JSON con Firecrawl CLI.

Web Research

Favoritos 0GitHub 234

firecrawl-map

por firecrawl

firecrawl-map ayuda a los agentes a descubrir y listar URLs de un sitio, con opciones de filtrado por búsqueda, límites, salida en JSON, modos de sitemap y control de subdominios antes de hacer scraping o crawling más profundos.

Web Scraping

Favoritos 0GitHub 234

firecrawl-scrape

por firecrawl

firecrawl-scrape ayuda a extraer contenido limpio y apto para LLM desde URLs conocidas, incluidas páginas renderizadas con JS. Úsalo para obtener markdown, enlaces o respuestas específicas de una página con Firecrawl CLI o `npx firecrawl`.

Web Scraping

Favoritos 0GitHub 234

x-twitter-scraper

por Xquik-dev

Usa x-twitter-scraper para obtener datos de X (Twitter) y acciones con verificación a través de Xquik. Admite búsqueda de tweets, consulta de usuarios, extracción de seguidores, descarga de medios, monitores, webhooks, MCP y acciones de escritura. Es ideal para investigación estilo web scraping con una API key, no para secretos de inicio de sesión de X.

Web Scraping

Favoritos 0GitHub 71

parallel-web

por K-Dense-AI

parallel-web es una skill de investigación y extracción web impulsada por parallel-cli. Ayuda a buscar en la web, extraer contenido de URLs, enriquecer datos a partir de fuentes y realizar investigaciones más profundas, con prioridad para fuentes académicas y científicas. Úsala para el uso de parallel-web, la investigación web, las citas y flujos de trabajo basados en evidencia.

Web Research

Favoritos 0GitHub 0

geomaster

por K-Dense-AI

geomaster es una skill de ciencia geoespacial para flujos de trabajo de SIG, teledetección, análisis espacial y observación de la Tierra. Úsala en tareas de análisis de datos como operaciones raster y vectoriales, procesamiento de imágenes satelitales, métricas espaciales y planificación de flujos de trabajo. La guía de geomaster te ayuda a instalar, revisar y aplicar la skill con menos conjeturas.

Data Analysis

Favoritos 0GitHub 0

exa-search

por K-Dense-AI

exa-search es una skill de investigación web impulsada por Exa para encontrar información actual y extraer contenido de URLs. Úsala para búsquedas, descubrimiento de fuentes, extracción de artículos y PDF, e investigación técnica o científica con recuperación semántica, filtrado al estilo académico y una guía clara de instalación y uso.

Web Research

Favoritos 0GitHub 0

asc-aso-audit

por rudrankriyam

asc-aso-audit te ayuda a ejecutar una auditoría ASO offline sobre los metadatos canónicos de App Store en `./metadata`, y luego a detectar brechas de palabras clave con Astro MCP. Usa la skill asc-aso-audit después de `asc metadata pull` para revisar `subtitle`, `keywords`, `description` y `whatsNew` con menos margen de error.

Data Analysis

Favoritos 0GitHub 0

ffuf-web-fuzzing

por jthack

ffuf-web-fuzzing es una habilidad práctica para descubrir contenido web oculto, probar rutas y parámetros, y hacer fuzzing de objetivos autenticados con solicitudes en bruto, auto-calibración y análisis de resultados. Encaja con testers de seguridad que necesitan una guía repetible de ffuf-web-fuzzing para pruebas de penetración y flujos de trabajo de auditoría de seguridad.

Security Audit

Favoritos 0GitHub 0

twitter

por ReScienceLab

La skill de twitter recupera datos en vivo de Twitter/X a través de twitterapi.io, incluidos perfiles de usuario, tweets, respuestas, seguidores, seguidos, comunidades, Spaces, tendencias y resultados de búsqueda. Úsala para obtener datos verificados de Twitter, investigar cuentas y comprobar información en redes sociales, en lugar de adivinar a partir de prompts.

Social Media

Favoritos 0GitHub 0