firecrawl-map
por firecrawlfirecrawl-map ayuda a los agentes a descubrir y listar URLs de un sitio, con opciones de filtrado por búsqueda, límites, salida en JSON, modos de sitemap y control de subdominios antes de hacer scraping o crawling más profundos.
Esta skill obtiene una puntuación de 76/100, lo que la convierte en una candidata sólida para el directorio: los agentes reciben señales de activación claras, ejemplos concretos de CLI y suficiente cobertura de opciones para usarla con menos tanteo que con un prompt genérico. Los usuarios del directorio pueden tomar una decisión de instalación con bastante criterio, aunque conviene esperar una página de skill más bien escueta, con poca guía sobre configuración o casos límite.
- Activación muy sólida: la descripción menciona intenciones de usuario explícitas como “map the site”, “find the URL for” y “list all pages”.
- Ejemplos operativos claros que muestran comandos reales tanto para búsquedas dirigidas como para el descubrimiento completo de URLs, incluidos archivos de salida y modo JSON.
- Aporta valor dentro de un flujo de trabajo más amplio: sitúa map como un paso dentro de un patrón search → scrape → map → crawl → interact.
- La claridad de instalación y adopción es limitada porque la skill no incluye un comando de instalación ni guía de configuración en `SKILL.md`.
- El material de apoyo es mínimo: no hay scripts, referencias, recursos ni orientación explícita sobre restricciones o casos límite.
Visión general de la skill firecrawl-map
Qué hace firecrawl-map
firecrawl-map es una skill centrada en descubrir URLs dentro de un sitio web. Funciona mejor cuando conoces el dominio pero no la página exacta, o cuando necesitas un inventario rápido de la estructura del sitio antes de hacer scraping, crawling o extracción de contenido.
Quién debería usar la skill firecrawl-map
La skill firecrawl-map encaja especialmente bien para quienes hacen investigación web, descubrimiento de sitios o planificación previa al scraping:
- Agentes de IA que necesitan encontrar la página correcta antes de una extracción más profunda
- Desarrolladores que están creando flujos de trabajo de web scraping
- Investigadores que auditan la huella pública de URLs de un sitio
- Operadores que necesitan una lista rápida de URLs sin lanzar un crawl completo
La necesidad real que resuelve
Normalmente, los usuarios no quieren “todas las páginas” como fin en sí mismo. Lo que buscan es responder preguntas como:
- “¿Dónde está la documentación de autenticación en este sitio?”
- “¿Qué páginas existen bajo este dominio antes de hacer scraping?”
- “¿Hay alguna vía rápida basada en sitemap para descubrir URLs?”
- “¿Me conviene mapear primero o pasar directamente a crawl?”
Por eso, firecrawl-map for Web Scraping resulta especialmente útil como paso de descubrimiento, no como paso final de extracción de datos.
Por qué la gente elige firecrawl-map
Su principal diferencia está en la velocidad y en el control del alcance. Frente a un prompt genérico como “encuentra la página de docs”, la skill firecrawl-map te da una vía reproducible por CLI para listar URLs, filtrarlas por términos de búsqueda y exportar la salida para pasos posteriores.
Puntos fuertes que se ven en el repositorio:
- Uso directo por CLI con
firecrawl map - Filtrado opcional con
--searchpara sitios grandes - Salida de inventario de URLs en texto o JSON
- Soporte para elegir estrategia de sitemap
- Útil como paso intermedio entre la búsqueda y el trabajo de crawl/scrape más profundo
Para qué no sirve
firecrawl-map no es la herramienta adecuada cuando necesitas:
- Extracción completa del contenido de las páginas
- Navegación interactiva
- Scraping estructurado detallado de cada página
- Lógica rica de recorrido del sitio más allá del descubrimiento de URLs
En esos casos, mapear es el paso de preparación, no el resultado final.
Cómo usar la skill firecrawl-map
Contexto de instalación de la skill firecrawl-map
Esta skill vive en el repositorio firecrawl/cli, dentro de skills/firecrawl-map. Está pensada para ejecutarse en entornos que puedan correr:
firecrawl *npx firecrawl *
Si tu agente o tu flujo local puede ejecutar comandos Bash, esta vía de instalación de firecrawl-map suele ser suficiente:
npx firecrawl map "<url>" --limit 100
Si ya tienes Firecrawl CLI disponible de forma global, usa:
firecrawl map "<url>" --limit 100
Lee primero este archivo antes de usarla
Empieza por:
skills/firecrawl-map/SKILL.md
Esta parte del repositorio es pequeña, así que no hay mucho material adicional que revisar. Eso acelera la adopción, pero también implica que conviene ser muy explícito en los prompts sobre dominio, objetivo y formato de salida.
Patrones básicos de uso de firecrawl-map
La skill admite dos modos de uso habituales.
- Encontrar una página probable por tema:
firecrawl map "https://example.com" --search "authentication" -o .firecrawl/filtered.txt
- Obtener un inventario más amplio de URLs:
firecrawl map "https://example.com" --limit 500 --json -o .firecrawl/urls.json
Este es el patrón central de firecrawl-map usage: empezar de forma acotada con búsqueda si estás tratando de localizar una sola página, o empezar de forma más amplia con una lista limitada de URLs si estás preparando el siguiente paso de scraping.
Qué entradas necesita la skill
Para usar bien la skill firecrawl-map, deja claros estos datos de entrada:
- La URL raíz o el dominio
- Si necesitas una única página probable o muchas URLs
- Una frase de búsqueda, si conoces el tema
- El límite deseado de URLs devueltas
- El formato de salida: texto plano o JSON
- Si deben contarse los subdominios
- Cómo tratar los sitemaps
Entrada débil:
- “Encuentra la documentación en este sitio”
Entrada sólida:
- “Map
https://docs.example.com, search forauthentication, return top matching URLs as JSON, and include subdomains only if the main docs domain has too few results.”
La versión más sólida reduce las suposiciones y hace evidente qué comando conviene usar.
Cómo convertir una petición vaga en un prompt sólido
Una buena guía de firecrawl-map para redactar prompts es especificar cinco cosas en una sola frase:
- sitio
- intención
- alcance
- filtro
- salida
Ejemplo:
- “Use firecrawl-map on
https://example.comto list up to 200 public URLs, prefer sitemap discovery, skip unrelated subdomains, and save JSON output for later scraping.”
Ejemplo para descubrimiento dirigido:
- “Use firecrawl-map to find the page on
https://example.commost related topricing API limits, and write matching URLs to a text file.”
Mejor flujo de trabajo: mapear antes de scrape o crawl
Un flujo práctico se ve así:
- Usa
firecrawl mapcon--searchsi intentas localizar una sola página. - Usa
firecrawl mapcon--limity--jsonsi necesitas un conjunto más amplio de URLs. - Revisa las URLs devueltas.
- Selecciona las páginas más relevantes.
- Pasa a scrape o crawl solo cuando ya entiendas lo bastante bien la estructura del sitio.
Esto ahorra tiempo y coste frente a hacer scraping a ciegas.
Opciones que cambian de verdad la calidad de la salida
Las opciones más importantes son:
--search <query>: la mejor opción para localizar una página temática en un sitio grande--limit <n>: evita conjuntos de resultados excesivos--json: facilita el filtrado posterior y la automatización--sitemap <include|skip|only>: útil cuando la cobertura del sitemap importa--include-subdomains: amplía el alcance, pero puede añadir ruido-o, --output <path>: hace que los resultados se puedan reutilizar en un pipeline
Si los resultados salen con mucho ruido, lo primero que conviene ajustar es la frase de búsqueda, el alcance del dominio y la inclusión de subdominios.
Cómo elegir la estrategia de sitemap
La opción --sitemap importa más de lo que muchos usuarios esperan:
only: la opción más rápida cuando confías en el sitemap del sitio y quieres una cobertura más limpiainclude: buen valor por defecto cuando quieres ayuda del sitemap sin depender por completo de élskip: útil cuando los resultados del sitemap están desactualizados, incompletos o llevan a error
Para sitios de documentación, include u only suelen dar mejores resultados de firecrawl-map for Web Scraping que un descubrimiento sin restricciones.
Cuándo incluir subdominios
Usa --include-subdomains solo si el contenido objetivo puede estar fuera del hostname principal, por ejemplo:
docs.example.comdevelopers.example.comsupport.example.com
No lo actives por defecto en sitios corporativos salvo que realmente quieras una cobertura más amplia. Puede llenar tu lista de URLs con páginas de marketing, soporte o aplicaciones que no tienen relación con tu objetivo.
Ejemplos prácticos que los usuarios sí necesitan
Encontrar una página de login o documentación de autenticación:
firecrawl map "https://docs.example.com" --search "authentication" -o .firecrawl/auth-pages.txt
Obtener un inventario reutilizable de URLs en JSON:
firecrawl map "https://example.com" --limit 300 --json -o .firecrawl/site-map.json
Priorizar descubrimiento solo por sitemap para un sitio de documentación:
firecrawl map "https://docs.example.com" --sitemap only --limit 500 --json
Ampliar el alcance a subdominios cuando no está clara la ubicación de la documentación:
firecrawl map "https://example.com" --search "API reference" --include-subdomains
Bloqueos habituales al adoptar la skill
Las principales dificultades con la skill firecrawl-map no suelen ser de instalación, sino de calidad de la petición:
- Empezar con un dominio demasiado amplio
- Olvidar añadir
--searchcuando buscas una sola página - Pedir demasiadas URLs sin fijar un límite
- Incluir subdominios demasiado pronto
- Tratar map como si fuera una herramienta de extracción de contenido
Si el primer resultado sale desordenado, reduce el alcance del sitio y afina el tema antes de cambiar de herramienta.
Preguntas frecuentes sobre la skill firecrawl-map
¿firecrawl-map es mejor que un prompt normal?
Sí, cuando la tarea es descubrir URLs dentro de un sitio conocido. Un prompt normal puede adivinar páginas probables, pero firecrawl-map te da una forma concreta y repetible de enumerar y filtrar URLs del dominio objetivo.
¿La skill firecrawl-map es buena para principiantes?
Sí, porque la superficie de comandos es pequeña. La forma más sencilla de empezar es con uno de estos dos comandos:
firecrawl map "https://example.com" --search "pricing"
firecrawl map "https://example.com" --limit 100 --json
El error más habitual entre principiantes es pedirle que extraiga contenido de páginas, algo que queda fuera del propósito central de la skill.
¿Cuándo debería usar firecrawl-map en lugar de crawling?
Usa firecrawl-map primero cuando necesites entender la estructura del sitio o localizar páginas candidatas. Recurre al crawling después, cuando necesites un recorrido más amplio o procesamiento a nivel de página una vez terminado el descubrimiento.
¿Cuándo no debería usar firecrawl-map?
Sáltatela si:
- Ya conoces la URL exacta
- Necesitas texto de la página, metadatos o extracción estructurada
- Necesitas interacción de navegador en lugar de un listado de URLs
- La tarea no consiste en descubrir la estructura del sitio
¿firecrawl-map funciona bien en sitios grandes?
Sí, pero solo si controlas el alcance. Usa --search, --limit y la estrategia de sitemap de forma deliberada. En sitios grandes es donde firecrawl-map usage más valor aporta, pero también donde los prompts poco precisos generan más ruido.
¿Qué formato de salida debería elegir?
Elige texto plano cuando una persona solo necesite una lista rápida de páginas. Elige --json cuando otra herramienta, script o paso posterior vaya a procesar los resultados.
Cómo mejorar la skill firecrawl-map
Empieza con un objetivo más acotado de lo que crees
La forma más fácil de mejorar los resultados de firecrawl-map es reducir el alcance desde el principio. Si sabes que el contenido probablemente está en la documentación, usa directamente el hostname de docs en lugar de la página principal de la empresa.
Mejor:
https://docs.example.com
Peor:
https://example.com
Usa frases de búsqueda que reflejen la intención de la página
En la skill firecrawl-map, la calidad de la búsqueda importa más que la cantidad de palabras clave. Las frases cortas orientadas a intención suelen funcionar mejor que las consultas recargadas.
Mejor:
authenticationrate limitsAPI reference
Peor:
where can I find complete developer authentication API reference and login documentation
La versión mejor es más fácil de filtrar por URL y normalmente devuelve coincidencias más limpias.
Elige JSON siempre que los resultados alimenten otro paso
Si el siguiente paso va a ser scrape, filter, classify o deduplicate, usa:
--json
Esta pequeña decisión hace que la guía de firecrawl-map sea mucho más amigable para la automatización y reduce la limpieza manual.
Usa map de forma iterativa, no una sola vez
Un flujo sólido es:
- Ejecuta un
--searchacotado - Inspecciona las URLs más probables
- Ejecuta un segundo map sobre el mejor subdominio o sección
- Aumenta
--limitsolo si hace falta - Pasa a scrape/crawl cuando el descubrimiento ya sea estable
Esto funciona mejor que hacer una sola ejecución enorme porque mantiene alta la señal.
Vigila los modos de fallo más comunes
Modos de fallo típicos con firecrawl-map for Web Scraping:
- Demasiadas URLs irrelevantes por usar dominios amplios
- Páginas objetivo que no aparecen porque los términos de búsqueda son vagos
- Inventarios incompletos por depender de la estrategia de sitemap equivocada
- Resultados ruidosos por activar subdominios sin necesidad
Cada uno tiene una corrección simple: acotar el sitio, afinar la consulta, cambiar el modo de sitemap o reducir el alcance.
Mejora los prompts especificando criterios de éxito
No pidas solo “todas las URLs”. Di qué consideras un resultado exitoso.
Ejemplo:
- “Use firecrawl-map to find pages related to authentication setup on
https://docs.example.com. Return the most relevant URLs first, cap at 50, and save JSON output for follow-up scraping.”
Eso deja mucho más claro qué herramienta usar, qué parámetros aplicar y cuándo detenerse.
Mantén una ruta de escalado simple
Usa esta ruta de decisión práctica:
- Necesitas una sola página probable:
map --search - Necesitas un inventario de URLs:
map --limit --json - Necesitas contenido de página: scrape después de map
- Necesitas un recorrido más amplio: crawl después de map
Esta es la forma más útil de mejorar los resultados de firecrawl-map sin complicar de más tu flujo de trabajo.
