firecrawl-crawl
por firecrawlfirecrawl-crawl ayuda a los agentes a extraer contenido de forma masiva de un sitio web o una sección de documentación, con filtros de rutas, límites de profundidad, topes de páginas, modo de espera y comprobaciones del estado del trabajo.
Esta skill obtiene una puntuación de 74/100, lo que indica que es apta para figurar en el directorio y probablemente útil para agentes que necesitan extraer contenido de un sitio completo o de una sección concreta. Aun así, quienes consulten el directorio deberían esperar una guía bastante centrada en comandos, más que un paquete de flujos de trabajo con soporte profundo. La evidencia del repositorio muestra señales de activación claras y ejemplos prácticos de CLI para rastreos con límites, profundidad y filtros de rutas, lo que ofrece a los agentes una guía de ejecución más fiable que un prompt genérico.
- Alta capacidad de activación: la descripción menciona de forma explícita intenciones de rastreo como "get all the pages", "/docs" y "bulk extract".
- Útil a nivel operativo: SKILL.md incluye ejemplos concretos de `firecrawl crawl` para rastrear secciones, limitar la profundidad y comprobar un trabajo de rastreo en ejecución.
- Buen rendimiento para un flujo común en agentes: documenta controles clave como `--include-paths`, `--limit`, `--max-depth`, `--wait` y `--progress` para tareas de extracción masiva.
- Contexto limitado para decidir la instalación: no hay ningún comando de instalación en SKILL.md ni archivos de soporte, referencias o metadatos que ayuden a evaluar los requisitos de configuración.
- La profundidad del flujo parece moderada: las señales estructurales muestran ejemplos de flujo de trabajo, pero hay poca evidencia sobre restricciones, manejo de casos límite o guía de solución de problemas.
Visión general de firecrawl-crawl skill
Qué hace firecrawl-crawl
La skill firecrawl-crawl está pensada para la extracción masiva de sitios web, no para hacer scraping de una sola página. Ayuda a un agente a rastrear un sitio o una sección concreta, seguir enlaces y devolver contenido de muchas páginas en un solo trabajo. Si tu objetivo es “obtener todas las páginas de documentación”, “extraer todo lo que hay bajo /docs” o “rastrear este centro de ayuda hasta una profundidad de 3”, esta es la herramienta adecuada.
Quién debería usar firecrawl-crawl
El mejor encaje para firecrawl-crawl es cualquier persona que necesite recopilar contenido de varias páginas para análisis de documentación, migraciones, indexación, QA, investigación o ingestión de conocimiento. Resulta especialmente útil cuando un prompt normal sería demasiado manual porque el contenido objetivo se reparte en decenas de páginas enlazadas dentro del mismo dominio.
La necesidad real que resuelve
Los usuarios adoptan firecrawl-crawl cuando necesitan cobertura, no solo precisión sobre una URL. El trabajo principal consiste en definir con claridad el límite del rastreo para que la herramienta recopile las páginas correctas sin perder tiempo en secciones irrelevantes, duplicados o en todo el sitio público.
Qué diferencia a esta skill
Sus principales diferenciales son controles de rastreo realmente prácticos: filtrado por rutas, límites de profundidad, límites de páginas, gestión asíncrona de trabajos y comportamiento opcional de espera/progreso. Eso hace que firecrawl-crawl for Web Scraping sea una opción más operativa que una instrucción genérica del tipo “haz scraping de este sitio”.
Cuándo esta skill encaja especialmente bien
Usa la firecrawl-crawl skill cuando:
- necesites muchas páginas de un mismo sitio
- las páginas puedan descubrirse mediante enlaces internos
- quieras acotar el alcance con rutas como
/docs,/blogo similares - necesites un comando de rastreo repetible en lugar de prompts improvisados
Cuándo no conviene usarla
No empieces con firecrawl-crawl si solo necesitas una página, si antes necesitas un inventario de URLs o si todavía no tienes claro qué sección importa. En esos casos, normalmente es mejor empezar con pasos más simples de búsqueda, scrape o map antes de pasar a crawl.
Cómo usar firecrawl-crawl skill
Contexto de instalación de firecrawl-crawl
Esta skill forma parte del conjunto de skills de firecrawl/cli y está pensada para invocarse a través de las herramientas CLI de Firecrawl. Si tu entorno admite Skills, el patrón práctico de instalación es:
npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl
También necesitas tener disponible Firecrawl CLI para que el agente pueda ejecutar comandos como firecrawl crawl o npx firecrawl crawl.
Lee primero este archivo
Empieza por skills/firecrawl-crawl/SKILL.md. En esta skill, ese archivo concentra gran parte del valor operativo: cuándo usarla, comandos de inicio rápido y las opciones clave que controlan el alcance del rastreo y el comportamiento en tiempo de ejecución.
Patrones de comando principales
El repositorio muestra tres patrones clave de firecrawl-crawl usage:
# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json
# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json
# Check status of a running crawl
firecrawl crawl <job-id>
Estos cubren la mayoría de los flujos reales: rastreo acotado de una sección, rastreo más amplio del sitio con control de profundidad y consulta de un trabajo ya existente.
Entradas que más importan
Para obtener buenos resultados con firecrawl-crawl, proporciona:
- una URL inicial limpia
- la sección del sitio que te interesa, si aplica
- un límite de páginas razonable con
--limit - un límite de profundidad con
--max-depthcuando el sitio sea amplio - si quieres finalización síncrona mediante
--wait - una ruta de salida para poder revisar fácilmente los resultados después
La mayor palanca de calidad es el alcance del rastreo. Un buen límite suele importar más que cualquier procesamiento posterior.
Cómo convertir una petición imprecisa en un prompt sólido
Petición débil:
- “Rastrea este sitio web y saca todo.”
Petición más sólida:
- “Usa
firecrawl-crawlenhttps://example.com, restringe a/docs, limita a 50 páginas, espera a que termine, guarda la salida en.firecrawl/crawl.jsony resume las principales páginas de configuración del producto después de la extracción.”
Por qué funciona:
- menciona la skill
- da una URL de inicio
- restringe la ruta
- limita coste y tiempo de ejecución
- indica qué debe ocurrir después de que termine el crawl
Mejor flujo para la primera ejecución
Una guía práctica de firecrawl-crawl guide para el primer uso:
- Elige la URL inicial más acotada que siga siendo útil.
- Añade
--include-pathssi solo necesitas una sección. - Configura
--limitde forma conservadora en la primera pasada. - Añade
--max-depthsi el sitio tiene muchas ramas. - Usa
--waiten ejecuciones simples, o lanza el trabajo y consulta el estado más tarde en crawls más grandes. - Guarda la salida con
-opara poder revisar qué se recopiló realmente.
Esta secuencia reduce rastreos desperdiciados y facilita refinar los límites después del primer resultado.
Controles de alcance que evitan malos rastreos
Las opciones más importantes que expone la skill son:
--include-pathspara mantener el crawl dentro de la sección correcta--limit <n>para evitar que el número de páginas se dispare--max-depth <n>para frenar una exploración demasiado profunda--waitpara bloquear hasta la finalización--progresspara inspeccionar el avance mientras se espera
Si omites estas opciones, un crawl puede ampliarse más de lo esperado muy rápido, especialmente en sitios de documentación con changelogs, enlaces al blog o navegación muy interconectada.
Modo asíncrono vs modo de espera
Usa --wait cuando quieras resolverlo en un solo paso de trabajo y el crawl deba terminar en ese momento. Omítelo cuando el rastreo pueda tardar más y prefieras un flujo basado en trabajos. El repositorio admite explícitamente consultar el estado más adelante con firecrawl crawl <job-id>, algo útil para trabajos grandes o para flujos de agente que separan el envío del análisis.
Gestión y revisión de la salida
En ejecuciones serias, escribe siempre la salida en un archivo, por ejemplo:
firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json
Esto facilita la revisión posterior. Antes de pedirle al agente que resuma o transforme los resultados, verifica que la salida contiene la sección prevista y el número de páginas esperado. Unos límites de rastreo mal definidos producen una síntesis posterior deficiente.
Buenos patrones de uso de firecrawl-crawl
Entre los usos de mayor valor están:
- recopilar todas las páginas de documentación para una comparación de productos
- extraer una sección de un help center para búsqueda interna o preparación de RAG
- extraer un conjunto de guías de migración antes de reescribir documentación
- hacer scraping masivo de una sección conocida de un sitio donde los enlaces ya conectan las páginas relevantes
Estos casos encajan mucho mejor que “encuentra cualquier cosa interesante en este dominio”.
Preguntas frecuentes sobre firecrawl-crawl skill
¿Es firecrawl-crawl apta para principiantes?
Sí, siempre que ya entiendas la diferencia entre hacer scraping de una sola página y rastrear varias páginas. La superficie de comandos es pequeña, pero quien empiece debería hacerlo con una ruta estrecha y un límite de páginas bajo para evitar ejecuciones demasiado grandes.
¿Cuál es la diferencia entre firecrawl-crawl y un prompt normal?
Un prompt simple puede describir el objetivo, pero firecrawl-crawl le da al agente una ruta operativa definida: enviar un trabajo de crawl, controlar profundidad y límites, esperar opcionalmente y guardar una salida estructurada. Eso reduce la improvisación y hace que las ejecuciones repetidas sean más consistentes.
¿Cuándo debería usar firecrawl-crawl en lugar de scrape?
Usa firecrawl-crawl cuando el contenido objetivo abarque muchas páginas enlazadas. Usa scrape cuando solo necesites una URL concreta. Si todavía no tienes claro qué páginas importan, map o search pueden ser un paso previo mejor que crawl.
¿Es firecrawl-crawl una buena opción para extraer un sitio completo?
A veces sí, pero solo si puedes asumir una cobertura amplia y has fijado buenos límites. En sitios grandes, “sitio completo” suele ser una mala primera ejecución. Normalmente, rastrear una subsección de documentación es más práctico que empezar por la página principal con controles poco estrictos.
¿Funciona bien firecrawl-crawl para secciones de documentación?
Sí. Los ejemplos del repositorio destacan explícitamente la extracción por secciones como /docs, que es uno de los casos de uso más sólidos de firecrawl-crawl for Web Scraping.
¿Qué puede impedir buenos resultados?
Los bloqueos más habituales son un alcance difuso, falta de filtros de ruta, ausencia de límite de páginas y empezar desde una URL equivocada. No son detalles menores: determinan directamente si la salida será útil o ruidosa.
Cómo mejorar firecrawl-crawl skill
Define límites de rastreo más precisos en firecrawl-crawl
La forma más rápida de mejorar la salida de firecrawl-crawl es definir con precisión el límite del rastreo. Indica la URL inicial, la ruta de la sección, el límite de páginas y la profundidad deseada. “Rastrea la documentación bajo /docs hasta 2 niveles de profundidad” es mucho mejor que “rastrea el sitio”.
Empieza pequeño y luego amplía
Para una mejor adopción y menos ejecuciones desperdiciadas, haz primero un crawl de validación pequeño:
--limitbajo--include-pathsestrecho--max-depthmoderado
Si la salida se ve bien, amplía el límite. Así detectas errores de alcance antes de que se vuelvan costosos o lentos.
Escribe prompts que incluyan la tarea posterior al crawl
firecrawl-crawl install es solo una parte del éxito. También debes indicarle al agente qué hacer después de la extracción. Ejemplo:
- “Usa
firecrawl-crawlpara extraer/docshasta 50 páginas, guarda la salida en.firecrawl/crawl.jsony luego identifica las páginas de onboarding, auth y API reference.”
Esto mejora la utilidad de extremo a extremo porque el rastreo y el análisis quedan alineados desde el principio.
Evita los modos de fallo más comunes
Problemas habituales con la firecrawl-crawl skill:
- empezar desde la página principal cuando solo se necesita una sección
- omitir
--limiten un sitio grande - omitir
--max-depthcuando la navegación es densa - olvidar
-oy perder un punto de revisión sencillo - pedir “todo” sin definir la relevancia para el negocio
Itera en función de la salida, no de suposiciones
Después de la primera ejecución, inspecciona qué se recopiló realmente. Si predominan las páginas irrelevantes, ajusta --include-paths o reduce la profundidad. Si faltan páginas importantes, aumenta la profundidad o empieza desde un punto de entrada más relevante. La mejor firecrawl-crawl guide es iterativa: rastrea, inspecciona, ajusta y vuelve a ejecutar.
Mantén firecrawl-crawl en el papel adecuado
Usa firecrawl-crawl para la recopilación y luego pásalo a pasos de resumen, clasificación, comparación o indexación. Intentar que el paso de crawl resuelva a la vez todas las tareas posteriores suele restar claridad. La skill es más potente cuando primero reúne el corpus correcto.
