firecrawl-crawl

por firecrawl

firecrawl-crawl ayuda a los agentes a extraer contenido de forma masiva de un sitio web o una sección de documentación, con filtros de rutas, límites de profundidad, topes de páginas, modo de espera y comprobaciones del estado del trabajo.

Estrellas234

Favoritos0

Comentarios0

Agregado31 mar 2026

CategoríaWeb Scraping

Comando de instalación

npx skills add firecrawl/cli --skill firecrawl-crawl

Puntuación editorial

Esta skill obtiene una puntuación de 74/100, lo que indica que es apta para figurar en el directorio y probablemente útil para agentes que necesitan extraer contenido de un sitio completo o de una sección concreta. Aun así, quienes consulten el directorio deberían esperar una guía bastante centrada en comandos, más que un paquete de flujos de trabajo con soporte profundo. La evidencia del repositorio muestra señales de activación claras y ejemplos prácticos de CLI para rastreos con límites, profundidad y filtros de rutas, lo que ofrece a los agentes una guía de ejecución más fiable que un prompt genérico.

74/100

Puntos fuertes

Alta capacidad de activación: la descripción menciona de forma explícita intenciones de rastreo como "get all the pages", "/docs" y "bulk extract".
Útil a nivel operativo: SKILL.md incluye ejemplos concretos de `firecrawl crawl` para rastrear secciones, limitar la profundidad y comprobar un trabajo de rastreo en ejecución.
Buen rendimiento para un flujo común en agentes: documenta controles clave como `--include-paths`, `--limit`, `--max-depth`, `--wait` y `--progress` para tareas de extracción masiva.

Puntos a tener en cuenta

Contexto limitado para decidir la instalación: no hay ningún comando de instalación en SKILL.md ni archivos de soporte, referencias o metadatos que ayuden a evaluar los requisitos de configuración.
La profundidad del flujo parece moderada: las señales estructurales muestran ejemplos de flujo de trabajo, pero hay poca evidencia sobre restricciones, manejo de casos límite o guía de solución de problemas.

Scraping Websites Website Cli Firecrawl Workflow

Resumen

Visión general de firecrawl-crawl skill

Qué hace firecrawl-crawl

La skill firecrawl-crawl está pensada para la extracción masiva de sitios web, no para hacer scraping de una sola página. Ayuda a un agente a rastrear un sitio o una sección concreta, seguir enlaces y devolver contenido de muchas páginas en un solo trabajo. Si tu objetivo es “obtener todas las páginas de documentación”, “extraer todo lo que hay bajo /docs” o “rastrear este centro de ayuda hasta una profundidad de 3”, esta es la herramienta adecuada.

Quién debería usar firecrawl-crawl

El mejor encaje para firecrawl-crawl es cualquier persona que necesite recopilar contenido de varias páginas para análisis de documentación, migraciones, indexación, QA, investigación o ingestión de conocimiento. Resulta especialmente útil cuando un prompt normal sería demasiado manual porque el contenido objetivo se reparte en decenas de páginas enlazadas dentro del mismo dominio.

La necesidad real que resuelve

Los usuarios adoptan firecrawl-crawl cuando necesitan cobertura, no solo precisión sobre una URL. El trabajo principal consiste en definir con claridad el límite del rastreo para que la herramienta recopile las páginas correctas sin perder tiempo en secciones irrelevantes, duplicados o en todo el sitio público.

Qué diferencia a esta skill

Sus principales diferenciales son controles de rastreo realmente prácticos: filtrado por rutas, límites de profundidad, límites de páginas, gestión asíncrona de trabajos y comportamiento opcional de espera/progreso. Eso hace que firecrawl-crawl for Web Scraping sea una opción más operativa que una instrucción genérica del tipo “haz scraping de este sitio”.

Cuándo esta skill encaja especialmente bien

Usa la firecrawl-crawl skill cuando:

necesites muchas páginas de un mismo sitio
las páginas puedan descubrirse mediante enlaces internos
quieras acotar el alcance con rutas como /docs, /blog o similares
necesites un comando de rastreo repetible en lugar de prompts improvisados

Cuándo no conviene usarla

No empieces con firecrawl-crawl si solo necesitas una página, si antes necesitas un inventario de URLs o si todavía no tienes claro qué sección importa. En esos casos, normalmente es mejor empezar con pasos más simples de búsqueda, scrape o map antes de pasar a crawl.

Cómo usar firecrawl-crawl skill

Contexto de instalación de firecrawl-crawl

Esta skill forma parte del conjunto de skills de firecrawl/cli y está pensada para invocarse a través de las herramientas CLI de Firecrawl. Si tu entorno admite Skills, el patrón práctico de instalación es:

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

También necesitas tener disponible Firecrawl CLI para que el agente pueda ejecutar comandos como firecrawl crawl o npx firecrawl crawl.

Lee primero este archivo

Empieza por skills/firecrawl-crawl/SKILL.md. En esta skill, ese archivo concentra gran parte del valor operativo: cuándo usarla, comandos de inicio rápido y las opciones clave que controlan el alcance del rastreo y el comportamiento en tiempo de ejecución.

Patrones de comando principales

El repositorio muestra tres patrones clave de firecrawl-crawl usage:

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

Estos cubren la mayoría de los flujos reales: rastreo acotado de una sección, rastreo más amplio del sitio con control de profundidad y consulta de un trabajo ya existente.

Entradas que más importan

Para obtener buenos resultados con firecrawl-crawl, proporciona:

una URL inicial limpia
la sección del sitio que te interesa, si aplica
un límite de páginas razonable con --limit
un límite de profundidad con --max-depth cuando el sitio sea amplio
si quieres finalización síncrona mediante --wait
una ruta de salida para poder revisar fácilmente los resultados después

La mayor palanca de calidad es el alcance del rastreo. Un buen límite suele importar más que cualquier procesamiento posterior.

Cómo convertir una petición imprecisa en un prompt sólido

Petición débil:

“Rastrea este sitio web y saca todo.”

Petición más sólida:

“Usa firecrawl-crawl en https://example.com, restringe a /docs, limita a 50 páginas, espera a que termine, guarda la salida en .firecrawl/crawl.json y resume las principales páginas de configuración del producto después de la extracción.”

Por qué funciona:

menciona la skill
da una URL de inicio
restringe la ruta
limita coste y tiempo de ejecución
indica qué debe ocurrir después de que termine el crawl

Mejor flujo para la primera ejecución

Una guía práctica de firecrawl-crawl guide para el primer uso:

Elige la URL inicial más acotada que siga siendo útil.
Añade --include-paths si solo necesitas una sección.
Configura --limit de forma conservadora en la primera pasada.
Añade --max-depth si el sitio tiene muchas ramas.
Usa --wait en ejecuciones simples, o lanza el trabajo y consulta el estado más tarde en crawls más grandes.
Guarda la salida con -o para poder revisar qué se recopiló realmente.

Esta secuencia reduce rastreos desperdiciados y facilita refinar los límites después del primer resultado.

Controles de alcance que evitan malos rastreos

Las opciones más importantes que expone la skill son:

--include-paths para mantener el crawl dentro de la sección correcta
--limit <n> para evitar que el número de páginas se dispare
--max-depth <n> para frenar una exploración demasiado profunda
--wait para bloquear hasta la finalización
--progress para inspeccionar el avance mientras se espera

Si omites estas opciones, un crawl puede ampliarse más de lo esperado muy rápido, especialmente en sitios de documentación con changelogs, enlaces al blog o navegación muy interconectada.

Modo asíncrono vs modo de espera

Usa --wait cuando quieras resolverlo en un solo paso de trabajo y el crawl deba terminar en ese momento. Omítelo cuando el rastreo pueda tardar más y prefieras un flujo basado en trabajos. El repositorio admite explícitamente consultar el estado más adelante con firecrawl crawl <job-id>, algo útil para trabajos grandes o para flujos de agente que separan el envío del análisis.

Gestión y revisión de la salida

En ejecuciones serias, escribe siempre la salida en un archivo, por ejemplo:

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

Esto facilita la revisión posterior. Antes de pedirle al agente que resuma o transforme los resultados, verifica que la salida contiene la sección prevista y el número de páginas esperado. Unos límites de rastreo mal definidos producen una síntesis posterior deficiente.

Buenos patrones de uso de firecrawl-crawl

Entre los usos de mayor valor están:

recopilar todas las páginas de documentación para una comparación de productos
extraer una sección de un help center para búsqueda interna o preparación de RAG
extraer un conjunto de guías de migración antes de reescribir documentación
hacer scraping masivo de una sección conocida de un sitio donde los enlaces ya conectan las páginas relevantes

Estos casos encajan mucho mejor que “encuentra cualquier cosa interesante en este dominio”.

Preguntas frecuentes sobre firecrawl-crawl skill

¿Es firecrawl-crawl apta para principiantes?

Sí, siempre que ya entiendas la diferencia entre hacer scraping de una sola página y rastrear varias páginas. La superficie de comandos es pequeña, pero quien empiece debería hacerlo con una ruta estrecha y un límite de páginas bajo para evitar ejecuciones demasiado grandes.

¿Cuál es la diferencia entre firecrawl-crawl y un prompt normal?

Un prompt simple puede describir el objetivo, pero firecrawl-crawl le da al agente una ruta operativa definida: enviar un trabajo de crawl, controlar profundidad y límites, esperar opcionalmente y guardar una salida estructurada. Eso reduce la improvisación y hace que las ejecuciones repetidas sean más consistentes.

¿Cuándo debería usar firecrawl-crawl en lugar de scrape?

Usa firecrawl-crawl cuando el contenido objetivo abarque muchas páginas enlazadas. Usa scrape cuando solo necesites una URL concreta. Si todavía no tienes claro qué páginas importan, map o search pueden ser un paso previo mejor que crawl.

¿Es firecrawl-crawl una buena opción para extraer un sitio completo?

A veces sí, pero solo si puedes asumir una cobertura amplia y has fijado buenos límites. En sitios grandes, “sitio completo” suele ser una mala primera ejecución. Normalmente, rastrear una subsección de documentación es más práctico que empezar por la página principal con controles poco estrictos.

¿Funciona bien firecrawl-crawl para secciones de documentación?

Sí. Los ejemplos del repositorio destacan explícitamente la extracción por secciones como /docs, que es uno de los casos de uso más sólidos de firecrawl-crawl for Web Scraping.

¿Qué puede impedir buenos resultados?

Los bloqueos más habituales son un alcance difuso, falta de filtros de ruta, ausencia de límite de páginas y empezar desde una URL equivocada. No son detalles menores: determinan directamente si la salida será útil o ruidosa.

Cómo mejorar firecrawl-crawl skill

Define límites de rastreo más precisos en firecrawl-crawl

La forma más rápida de mejorar la salida de firecrawl-crawl es definir con precisión el límite del rastreo. Indica la URL inicial, la ruta de la sección, el límite de páginas y la profundidad deseada. “Rastrea la documentación bajo /docs hasta 2 niveles de profundidad” es mucho mejor que “rastrea el sitio”.

Empieza pequeño y luego amplía

Para una mejor adopción y menos ejecuciones desperdiciadas, haz primero un crawl de validación pequeño:

--limit bajo
--include-paths estrecho
--max-depth moderado

Si la salida se ve bien, amplía el límite. Así detectas errores de alcance antes de que se vuelvan costosos o lentos.

Escribe prompts que incluyan la tarea posterior al crawl

firecrawl-crawl install es solo una parte del éxito. También debes indicarle al agente qué hacer después de la extracción. Ejemplo:

“Usa firecrawl-crawl para extraer /docs hasta 50 páginas, guarda la salida en .firecrawl/crawl.json y luego identifica las páginas de onboarding, auth y API reference.”

Esto mejora la utilidad de extremo a extremo porque el rastreo y el análisis quedan alineados desde el principio.

Evita los modos de fallo más comunes

Problemas habituales con la firecrawl-crawl skill:

empezar desde la página principal cuando solo se necesita una sección
omitir --limit en un sitio grande
omitir --max-depth cuando la navegación es densa
olvidar -o y perder un punto de revisión sencillo
pedir “todo” sin definir la relevancia para el negocio

Itera en función de la salida, no de suposiciones

Después de la primera ejecución, inspecciona qué se recopiló realmente. Si predominan las páginas irrelevantes, ajusta --include-paths o reduce la profundidad. Si faltan páginas importantes, aumenta la profundidad o empieza desde un punto de entrada más relevante. La mejor firecrawl-crawl guide es iterativa: rastrea, inspecciona, ajusta y vuelve a ejecutar.

Mantén firecrawl-crawl en el papel adecuado

Usa firecrawl-crawl para la recopilación y luego pásalo a pasos de resumen, clasificación, comparación o indexación. Intentar que el paso de crawl resuelva a la vez todas las tareas posteriores suele restar claridad. La skill es más potente cuando primero reúne el corpus correcto.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

huggingface-datasets

por huggingface

Usa la skill huggingface-datasets para flujos de trabajo con la API de Dataset Viewer de Hugging Face: validar datasets, resolver splits, previsualizar y paginar filas, buscar texto, aplicar filtros y obtener enlaces de parquet o estadísticas. Es una guía práctica de huggingface-datasets para exploración de datasets en modo solo lectura.

Web Scraping

Favoritos 0GitHub 10.4k

data-scraper-agent

por affaan-m

data-scraper-agent ayuda a crear un pipeline repetible de datos públicos para web scraping, enriquecimiento y almacenamiento. Está pensado para supervisar trabajos, precios, noticias, repositorios, deportes y listados en un horario definido usando GitHub Actions, con salidas a Notion, Sheets o Supabase. Es ideal para el seguimiento continuo, no para extracciones puntuales.

Web Scraping

Favoritos 0GitHub 156.1k

baoyu-url-to-markdown

por JimLiu

baoyu-url-to-markdown convierte URLs activas a Markdown con un CLI baoyu-fetch incluido en el repositorio, usando Chrome CDP, adaptadores de sitio y una alternativa genérica. Revisa los requisitos de Bun, la configuración inicial de EXTEND.md y el uso para X, YouTube, Hacker News y páginas renderizadas.

Format Conversion

Favoritos 0GitHub 13.2k

x-twitter-scraper

por Xquik-dev

Usa x-twitter-scraper para obtener datos de X (Twitter) y acciones con verificación a través de Xquik. Admite búsqueda de tweets, consulta de usuarios, extracción de seguidores, descarga de medios, monitores, webhooks, MCP y acciones de escritura. Es ideal para investigación estilo web scraping con una API key, no para secretos de inicio de sesión de X.

Web Scraping

Favoritos 0GitHub 71

exa-search

por K-Dense-AI

exa-search es una skill de investigación web impulsada por Exa para encontrar información actual y extraer contenido de URLs. Úsala para búsquedas, descubrimiento de fuentes, extracción de artículos y PDF, e investigación técnica o científica con recuperación semántica, filtrado al estilo académico y una guía clara de instalación y uso.

Web Research

Favoritos 0GitHub 0

browser-use

por browser-use

browser-use es una skill de automatización del navegador para abrir páginas, inspeccionar el estado, hacer clic en elementos indexados, escribir en campos, tomar capturas y reutilizar una sesión persistente del navegador. Úsala para completar formularios con fiabilidad, navegar por sitios y ejecutar flujos con sesión iniciada mediante la CLI de browser-use.

Browser Automation

Favoritos 0GitHub 84.9k

remote-browser

por browser-use

remote-browser ayuda a los agentes en entornos aislados a controlar un navegador sin interfaz para Browser Automation. Úsalo para abrir páginas, inspeccionar el estado, hacer clic en elementos indexados, introducir texto, tomar capturas de pantalla y conectarte a apps locales o a sesiones de navegador compatibles con CDP.

Browser Automation

Favoritos 0GitHub 84.9k

firecrawl

por firecrawl

Skill de firecrawl para instalar, autenticarse y usar la CLI oficial de Firecrawl para scraping web, búsqueda, rastreo e interacción con páginas. Aprende la configuración, `firecrawl --status`, el inicio de sesión, la salida segura de archivos en `.firecrawl/` y patrones de uso prácticos respaldados por el repositorio.

Web Scraping

Favoritos 0GitHub 234

firecrawl-search

por firecrawl

firecrawl-search es una skill de investigación web para encontrar fuentes, realizar búsquedas estructuradas y, opcionalmente, extraer el contenido completo de páginas como JSON con Firecrawl CLI.

Web Research

Favoritos 0GitHub 234

parallel-web

por K-Dense-AI

parallel-web es una skill de investigación y extracción web impulsada por parallel-cli. Ayuda a buscar en la web, extraer contenido de URLs, enriquecer datos a partir de fuentes y realizar investigaciones más profundas, con prioridad para fuentes académicas y científicas. Úsala para el uso de parallel-web, la investigación web, las citas y flujos de trabajo basados en evidencia.

Web Research

Favoritos 0GitHub 0

geomaster

por K-Dense-AI

geomaster es una skill de ciencia geoespacial para flujos de trabajo de SIG, teledetección, análisis espacial y observación de la Tierra. Úsala en tareas de análisis de datos como operaciones raster y vectoriales, procesamiento de imágenes satelitales, métricas espaciales y planificación de flujos de trabajo. La guía de geomaster te ayuda a instalar, revisar y aplicar la skill con menos conjeturas.

Data Analysis

Favoritos 0GitHub 0

asc-aso-audit

por rudrankriyam

asc-aso-audit te ayuda a ejecutar una auditoría ASO offline sobre los metadatos canónicos de App Store en `./metadata`, y luego a detectar brechas de palabras clave con Astro MCP. Usa la skill asc-aso-audit después de `asc metadata pull` para revisar `subtitle`, `keywords`, `description` y `whatsNew` con menos margen de error.

Data Analysis

Favoritos 0GitHub 0

ffuf-web-fuzzing

por jthack

ffuf-web-fuzzing es una habilidad práctica para descubrir contenido web oculto, probar rutas y parámetros, y hacer fuzzing de objetivos autenticados con solicitudes en bruto, auto-calibración y análisis de resultados. Encaja con testers de seguridad que necesitan una guía repetible de ffuf-web-fuzzing para pruebas de penetración y flujos de trabajo de auditoría de seguridad.

Security Audit

Favoritos 0GitHub 0

web-to-markdown

por softaworks

web-to-markdown es una skill de conversión de formato que transforma páginas web en vivo en Markdown limpio mediante el CLI local `web2md`, usando un navegador de la familia Chromium para páginas renderizadas con JS, flujos interactivos y conversión por lotes de URLs. Solo se ejecuta cuando se invoca explícitamente por nombre.

Format Conversion

Favoritos 0GitHub 1.3k

firecrawl-agent

por firecrawl

firecrawl-agent ayuda a extraer JSON estructurado de sitios web complejos y de varias páginas. Descubre cuándo conviene usarlo, cómo ejecutar el agente de Firecrawl CLI, añadir esquemas, definir URLs iniciales y guardar resultados para extraer precios, productos y datos tipo directorio.

Web Scraping

Favoritos 0GitHub 234

firecrawl-map

por firecrawl

firecrawl-map ayuda a los agentes a descubrir y listar URLs de un sitio, con opciones de filtrado por búsqueda, límites, salida en JSON, modos de sitemap y control de subdominios antes de hacer scraping o crawling más profundos.

Web Scraping

Favoritos 0GitHub 234