firecrawl-crawl

por firecrawl

O firecrawl-crawl ajuda agentes a extrair conteúdo em massa de um site ou seção de documentação com filtros de caminho, limites de profundidade, limite de páginas, modo de espera e verificação do status do job.

Estrelas234

Favoritos0

Comentários0

Adicionado31 de mar. de 2026

CategoriaWeb Scraping

Comando de instalação

npx skills add firecrawl/cli --skill firecrawl-crawl

Pontuação editorial

Esta skill recebe 74/100, o que indica que ela pode ser listada e tende a ser útil para agentes que precisam extrair conteúdo de um site inteiro ou de seções específicas. Ainda assim, quem consulta o diretório deve esperar um guia mais centrado em comandos do que um pacote de workflow com suporte aprofundado. As evidências no repositório mostram bons gatilhos de uso e exemplos práticos de CLI para rastreamento com limites, profundidade e filtros de caminho, o que dá aos agentes uma orientação de execução mais confiável do que um prompt genérico.

74/100

Pontos fortes

Alta capacidade de acionamento: a descrição cita explicitamente intenções de rastreamento como "get all the pages", "/docs" e "bulk extract".
Uso prático no dia a dia: o SKILL.md inclui exemplos concretos de `firecrawl crawl` para rastrear seções, limitar profundidade e verificar um job de rastreamento em execução.
Bom potencial para agentes em um workflow comum: a documentação cobre controles importantes como `--include-paths`, `--limit`, `--max-depth`, `--wait` e `--progress` para tarefas de extração em massa.

Pontos de atenção

Contexto limitado para decisão de instalação: não há comando de instalação no SKILL.md nem arquivos de suporte, referências ou metadados que ajudem o usuário a avaliar os requisitos de configuração.
A profundidade do workflow parece modesta: os sinais estruturais mostram exemplos de workflow, mas há pouca evidência de tratamento de restrições, casos de borda ou orientações de troubleshooting.

Scraping Websites Website Cli Firecrawl Workflow

Visão geral

Visão geral da skill firecrawl-crawl

O que a firecrawl-crawl faz

A skill firecrawl-crawl foi feita para extração em massa de sites, não para scraping de uma única página. Ela ajuda um agente a rastrear um site ou uma seção específica, seguir links e retornar conteúdo de várias páginas em uma única execução. Se o seu objetivo é “pegar todas as páginas de documentação”, “extrair tudo em /docs” ou “rastrear esta central de ajuda até profundidade 3”, esta é a ferramenta certa.

Para quem a firecrawl-crawl é indicada

A firecrawl-crawl é mais indicada para quem precisa coletar conteúdo de múltiplas páginas para análise de documentação, migração, indexação, QA, pesquisa ou ingestão de conhecimento. Ela é especialmente útil quando um prompt comum seria manual demais, porque o conteúdo-alvo está espalhado por dezenas de páginas interligadas no mesmo domínio.

O trabalho real que ela resolve

As pessoas adotam a firecrawl-crawl quando precisam de cobertura, não apenas de precisão em uma URL isolada. O principal desafio é definir com clareza o limite do crawl para que a ferramenta colete as páginas certas sem perder tempo com seções irrelevantes, duplicações ou com o site público inteiro.

O que diferencia esta skill

Os principais diferenciais estão nos controles práticos de crawl: filtragem por caminho, limites de profundidade, limite de páginas, execução assíncrona e comportamento opcional de espera/progresso. Isso faz da firecrawl-crawl for Web Scraping uma opção mais operacional do que uma instrução genérica como “faça scraping deste site”.

Quando esta skill é uma ótima escolha

Use a firecrawl-crawl skill quando:

você precisa de muitas páginas de um mesmo site
as páginas podem ser descobertas por links internos
você quer limitar o escopo com caminhos como /docs, /blog ou similares
você precisa de um comando de crawl reproduzível, e não de prompts ad hoc

Quando não usar

Não comece com a firecrawl-crawl se você só precisa de uma página, precisa primeiro de um inventário de URLs ou ainda não sabe qual seção importa. Nesses casos, etapas mais simples de search, scrape ou map costumam funcionar melhor antes de partir para crawl.

Como usar a skill firecrawl-crawl

Contexto de instalação da firecrawl-crawl

Esta skill faz parte do conjunto firecrawl/cli e foi pensada para ser invocada via ferramentas do Firecrawl CLI. Se o seu ambiente oferece suporte a Skills, o padrão prático de instalação é:

npx skills add https://github.com/firecrawl/cli --skill firecrawl-crawl

Você também precisa ter o Firecrawl CLI disponível para que o agente possa executar comandos como firecrawl crawl ou npx firecrawl crawl.

Leia este arquivo primeiro

Comece por skills/firecrawl-crawl/SKILL.md. Para esta skill, esse arquivo concentra grande parte do valor operacional: quando usar, comandos de início rápido e as principais opções que controlam o escopo do crawl e o comportamento em tempo de execução.

Padrões principais de comando

O repositório mostra três padrões centrais de firecrawl-crawl usage:

# Crawl a docs section
firecrawl crawl "<url>" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

# Full crawl with depth limit
firecrawl crawl "<url>" --max-depth 3 --wait --progress -o .firecrawl/crawl.json

# Check status of a running crawl
firecrawl crawl <job-id>

Eles cobrem a maioria dos fluxos reais: crawl restrito a uma seção, crawl mais amplo do site com controle de profundidade e consulta de um job já em execução.

Entradas que mais importam

Para obter bons resultados com a firecrawl-crawl, informe:

uma URL inicial limpa
a seção desejada do site, se houver
um limite de páginas sensato com --limit
um limite de profundidade com --max-depth quando o site for amplo
se você quer conclusão síncrona com --wait
um caminho de saída para facilitar a inspeção posterior

A principal alavanca de qualidade é o escopo do crawl. Um bom limite quase sempre importa mais do que qualquer processamento posterior.

Como transformar um pedido vago em um prompt forte

Pedido fraco:

“Faça crawl deste site e pegue tudo.”

Pedido melhor:

“Use firecrawl-crawl em https://example.com, restrinja a /docs, limite a 50 páginas, espere a conclusão, salve a saída em .firecrawl/crawl.json e resuma as principais páginas de configuração do produto após a extração.”

Por que isso funciona:

cita a skill
fornece uma URL inicial
restringe o caminho
limita custo e tempo de execução
deixa claro o que deve acontecer após o crawl

Melhor fluxo para a primeira execução

Um firecrawl-crawl guide prático para o primeiro uso:

Escolha a URL inicial mais específica que ainda faça sentido.
Adicione --include-paths se você só precisa de uma seção.
Defina --limit de forma conservadora na primeira rodada.
Adicione --max-depth se o site tiver muitas ramificações.
Use --wait em execuções simples, ou envie o job e consulte depois em crawls maiores.
Salve a saída com -o para revisar o que foi coletado de fato.

Essa sequência reduz crawls desperdiçados e facilita ajustar os limites depois do primeiro resultado.

Controles de escopo que evitam crawls ruins

As opções mais importantes destacadas na skill são:

--include-paths para manter o crawl na seção certa
--limit <n> para evitar contagens de páginas fora de controle
--max-depth <n> para impedir travessias profundas demais
--wait para bloquear até a conclusão
--progress para acompanhar o andamento durante a espera

Se você ignorar esses controles, um crawl pode ficar amplo demais mais rápido do que parece, especialmente em sites de documentação com changelogs, links para blog ou navegação muito interligada.

Modo assíncrono vs modo de espera

Use --wait quando quiser um fluxo em uma única etapa e o crawl precisar terminar agora. Ignore essa opção quando o crawl puder demorar mais e você preferir um fluxo baseado em jobs. O repositório dá suporte explícito à verificação posterior de status com firecrawl crawl <job-id>, o que é útil em jobs maiores ou em fluxos de agentes que separam envio e análise.

Saída, revisão e validação

Em execuções sérias, sempre grave em arquivo, por exemplo:

firecrawl crawl "https://example.com" --include-paths /docs --limit 50 --wait -o .firecrawl/crawl.json

Isso facilita a revisão após a execução. Antes de pedir ao agente para resumir ou transformar os resultados, verifique se a saída contém a seção pretendida e a quantidade esperada de páginas. Limites de crawl mal definidos geram sínteses ruins depois.

Bons padrões de uso da firecrawl-crawl

Casos de alto valor incluem:

coletar todas as páginas de documentação para uma comparação de produtos
extrair uma seção de central de ajuda para busca interna ou preparação de RAG
puxar um conjunto de guias de migração antes de reescrever documentação
fazer bulk-scraping de uma seção conhecida de um site em que os links já conectam as páginas relevantes

Esses cenários combinam muito mais com a ferramenta do que “encontre qualquer coisa interessante neste domínio”.

FAQ da skill firecrawl-crawl

A firecrawl-crawl é amigável para iniciantes?

Sim, desde que você já entenda a diferença entre scraping de uma página e crawling de múltiplas páginas. A superfície de comandos é pequena, mas quem está começando deve partir de um caminho restrito e um limite baixo de páginas para evitar execuções grandes demais.

Qual é a diferença entre firecrawl-crawl e um prompt comum?

Um prompt simples pode descrever o objetivo, mas a firecrawl-crawl oferece ao agente um caminho operacional definido: enviar um job de crawl, controlar profundidade e limites, opcionalmente esperar e salvar uma saída estruturada. Isso reduz tentativa e erro e torna execuções repetidas mais consistentes.

Quando devo usar firecrawl-crawl em vez de scrape?

Use firecrawl-crawl quando o conteúdo-alvo estiver distribuído por muitas páginas interligadas. Use scrape quando você só precisa de uma URL conhecida. Se você ainda não sabe quais páginas importam, map ou search pode ser uma etapa melhor antes de partir para crawl.

A firecrawl-crawl serve bem para extração de site inteiro?

Às vezes, mas só se você puder lidar com uma cobertura ampla e tiver bons limites definidos. Em sites grandes, “site inteiro” costuma ser uma péssima primeira execução. Na prática, fazer crawl de uma subseção de docs geralmente é mais útil do que começar pela homepage com controles frouxos.

A firecrawl-crawl funciona bem para seções de documentação?

Sim. Os exemplos do repositório destacam explicitamente extração por seção, como /docs, que é um dos casos de uso mais fortes de firecrawl-crawl for Web Scraping.

O que costuma atrapalhar bons resultados?

Os bloqueadores mais comuns são escopo vago, ausência de filtros de caminho, falta de limite de páginas e URL inicial errada. Esses detalhes não são secundários; eles determinam diretamente se a saída será útil ou ruidosa.

Como melhorar a skill firecrawl-crawl

Defina limites mais precisos para o crawl

A forma mais rápida de melhorar a saída da firecrawl-crawl é definir o limite do crawl com precisão. Informe a URL inicial, o caminho da seção, o limite de páginas e a profundidade desejada. “Faça crawl da documentação em /docs até 2 níveis de profundidade” é muito melhor do que “faça crawl do site”.

Comece pequeno e só depois expanda

Para uma adoção melhor e menos execuções desperdiçadas, faça primeiro um crawl pequeno de validação:

--limit baixo
--include-paths restrito
--max-depth moderado

Se a saída parecer correta, aumente o limite. Isso ajuda a capturar erros de escopo antes que virem custo alto ou execução lenta.

Escreva prompts que incluam a tarefa pós-crawl

firecrawl-crawl install é só uma parte do sucesso. Diga também ao agente o que fazer depois da extração. Exemplo:

“Use firecrawl-crawl para extrair /docs até 50 páginas, salve em .firecrawl/crawl.json e depois identifique páginas de onboarding, auth e referência de API.”

Isso melhora a utilidade de ponta a ponta porque crawl e análise já saem alinhados desde o início.

Evite modos de falha comuns

Problemas frequentes com a firecrawl-crawl skill:

começar pela homepage quando só uma seção é necessária
omitir --limit em um site grande
omitir --max-depth quando a navegação é densa
esquecer -o e perder um ponto simples de revisão
pedir “tudo” sem definir relevância de negócio

Itere com base na saída, não em suposições

Depois da primeira execução, inspecione o que de fato foi coletado. Se páginas irrelevantes estiverem dominando, restrinja mais o --include-paths ou reduza a profundidade. Se páginas importantes estiverem faltando, aumente a profundidade ou comece por um ponto de entrada mais relevante. O melhor firecrawl-crawl guide é iterativo: fazer crawl, inspecionar, refinar e rodar de novo.

Mantenha a firecrawl-crawl no papel certo

Use a firecrawl-crawl para coleta e depois passe para etapas de sumarização, classificação, comparação ou indexação. Tentar fazer a etapa de crawl resolver todas as tarefas posteriores de uma vez geralmente reduz a clareza. A skill é mais forte quando primeiro reúne o corpus certo.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

huggingface-datasets

por huggingface

Use a skill huggingface-datasets para fluxos de trabalho da API do Dataset Viewer do Hugging Face: validar datasets, resolver splits, pré-visualizar e paginar linhas, buscar texto, aplicar filtros e obter links de parquet ou estatísticas. É um guia prático de huggingface-datasets para exploração somente leitura de datasets.

Web Scraping

Favoritos 0GitHub 10.4k

data-scraper-agent

por affaan-m

data-scraper-agent ajuda a montar um pipeline repetível de dados públicos para raspagem web, enriquecimento e armazenamento. Ele foi pensado para monitorar jobs, preços, notícias, repositórios, esportes e anúncios em uma agenda usando GitHub Actions, com saídas para Notion, Sheets ou Supabase. É mais indicado para acompanhamento contínuo do que para extrações pontuais.

Web Scraping

Favoritos 0GitHub 156.1k

baoyu-url-to-markdown

por JimLiu

baoyu-url-to-markdown converte URLs ativas em Markdown com uma CLI baoyu-fetch vendorizada, usando Chrome CDP, adaptadores de sites e fallback genérico. Veja os requisitos de runtime com Bun, a configuração inicial do EXTEND.md e como usar a skill com X, YouTube, Hacker News e páginas renderizadas.

Format Conversion

Favoritos 0GitHub 13.2k

x-twitter-scraper

por Xquik-dev

Use o x-twitter-scraper para recuperar dados do X (Twitter) e executar ações com confirmação via Xquik. Ele oferece suporte a busca de tweets, consulta de usuários, extração de seguidores, download de mídia, monitores, webhooks, MCP e ações de gravação. É mais indicado para pesquisa no estilo web scraping com chave de API, não para segredos de login do X.

Web Scraping

Favoritos 0GitHub 71

exa-search

por K-Dense-AI

exa-search é uma skill de pesquisa na web, powered by Exa, para encontrar informações atuais e extrair conteúdo de URLs. Use para busca, descoberta de fontes, extração de artigos e PDFs e pesquisa técnica ou científica com recuperação semântica, filtros no estilo acadêmico e orientação clara de instalação e uso.

Web Research

Favoritos 0GitHub 0

browser-use

por browser-use

browser-use é uma skill de automação de navegador para abrir páginas, inspecionar o estado, clicar em elementos indexados, preencher campos, tirar capturas de tela e reutilizar uma sessão persistente do navegador. Use para preencher formulários com mais confiabilidade, navegar e executar fluxos com login usando a CLI do browser-use.

Browser Automation

Favoritos 0GitHub 84.9k

remote-browser

por browser-use

remote-browser ajuda agentes em sandbox a controlar um navegador headless para automação de navegador. Use para abrir páginas, inspecionar o estado, clicar em elementos indexados, preencher campos, tirar capturas de tela e conectar-se a apps locais ou sessões de navegador com CDP.

Browser Automation

Favoritos 0GitHub 84.9k

firecrawl

por firecrawl

Skill firecrawl para instalar, autenticar e usar a CLI oficial do Firecrawl para web scraping, busca, crawling e interação com páginas. Veja como configurar, usar `firecrawl --status`, fazer login, salvar saídas com segurança em `.firecrawl/` e aplicar padrões práticos de uso respaldados pelo repositório.

Web Scraping

Favoritos 0GitHub 234

firecrawl-search

por firecrawl

firecrawl-search é uma skill de pesquisa na web para encontrar fontes, fazer buscas estruturadas e, opcionalmente, extrair o conteúdo completo de páginas em JSON com o Firecrawl CLI.

Web Research

Favoritos 0GitHub 234

parallel-web

por K-Dense-AI

parallel-web é uma skill de pesquisa e extração na web, potencializada pelo parallel-cli. Ela ajuda você a pesquisar na web, extrair conteúdo de URLs, enriquecer dados a partir de fontes e conduzir pesquisas mais profundas, com prioridade para fontes acadêmicas e científicas. Use-a para uso do parallel-web, pesquisa na web, citações e fluxos de trabalho orientados por evidências.

Web Research

Favoritos 0GitHub 0

geomaster

por K-Dense-AI

geomaster é uma skill de ciência geoespacial para GIS, sensoriamento remoto, análise espacial e fluxos de trabalho de observação da Terra. Use-a em tarefas de Análise de Dados como operações com raster e vetor, processamento de imagens de satélite, métricas espaciais e planejamento de workflows. O guia do geomaster ajuda você a instalar, inspecionar e aplicar a skill com menos suposições.

Data Analysis

Favoritos 0GitHub 0

asc-aso-audit

por rudrankriyam

O asc-aso-audit ajuda você a fazer uma auditoria de ASO offline nos metadados canônicos da App Store em `./metadata` e, em seguida, identificar lacunas de palavras-chave com o Astro MCP. Use a skill asc-aso-audit depois de `asc metadata pull` para revisar `subtitle`, `keywords`, `description` e `whatsNew` com menos tentativa e erro.

Data Analysis

Favoritos 0GitHub 0

ffuf-web-fuzzing

por jthack

ffuf-web-fuzzing é uma skill prática para descobrir conteúdo oculto em sites, testar rotas e parâmetros e fazer fuzzing de alvos autenticados com requisições brutas, auto-calibração e análise de resultados. É ideal para profissionais de teste de segurança que precisam de um guia repetível de ffuf-web-fuzzing para pentests e fluxos de trabalho de auditoria de segurança.

Security Audit

Favoritos 0GitHub 0

web-to-markdown

por softaworks

web-to-markdown é uma skill de conversão de formato que transforma páginas web ao vivo em Markdown limpo por meio do CLI local `web2md`, usando um navegador da família Chromium para páginas renderizadas por JS, fluxos interativos e conversão em lote de URLs. Ela só é executada quando é chamada explicitamente pelo nome.

Format Conversion

Favoritos 0GitHub 1.3k

firecrawl-agent

por firecrawl

O firecrawl-agent ajuda a extrair JSON estruturado de sites complexos com várias páginas. Entenda quando usar, como executar o agente Firecrawl CLI, adicionar schemas, definir URLs iniciais e salvar saídas para extração de preços, produtos e dados em estilo diretório.

Web Scraping

Favoritos 0GitHub 234

firecrawl-map

por firecrawl

A firecrawl-map ajuda agentes a descobrir e listar URLs de um site, com opções de filtro por busca, limites, saída em JSON, modos de sitemap e controle de subdomínios antes de um scraping ou crawling mais aprofundado.

Web Scraping

Favoritos 0GitHub 234