data-scraper-agent

por affaan-m

data-scraper-agent ajuda a montar um pipeline repetível de dados públicos para raspagem web, enriquecimento e armazenamento. Ele foi pensado para monitorar jobs, preços, notícias, repositórios, esportes e anúncios em uma agenda usando GitHub Actions, com saídas para Notion, Sheets ou Supabase. É mais indicado para acompanhamento contínuo do que para extrações pontuais.

Estrelas156.1k

Favoritos0

Comentários0

Adicionado15 de abr. de 2026

CategoriaWeb Scraping

Comando de instalação

npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Pontuação editorial

Esta skill recebe 84/100, o que a coloca como uma boa candidata para a lista do diretório: oferece um fluxo de raspagem de dados claramente acionável, detalhe operacional suficiente para entender rápido a pilha e o propósito, e orientação real além de um prompt genérico. Deve ajudar agentes a executar tarefas de monitoramento de dados públicos com menos tentativa e erro, embora o usuário ainda precise validar o encaixe com o site de destino e com a configuração de armazenamento.

84/100

Pontos fortes

A orientação explícita de ativação cobre pedidos comuns de monitoramento de dados públicos, como raspagem, acompanhamento e coleta agendada.
O enquadramento do fluxo é forte e mostra o pipeline completo COLLECT → ENRICH → STORE, o que ajuda os agentes a executar com menos ambiguidade.
Conteúdo substantivo, sem marcadores de placeholder, além de referências concretas de stack (Python, Gemini Flash, GitHub Actions, Notion/Sheets/Supabase).

Pontos de atenção

Não há comando de instalação nem arquivos de suporte, então a configuração e a integração podem exigir interpretação manual apenas a partir do SKILL.md.
A skill é ampla por definição, então casos extremos, como medidas anti-bot específicas de um site ou fontes de dados incomuns, não são operacionalizados em profundidade no trecho.

Python Google Notion Supabase Playwright Github Actions

Visão geral

Visão geral da skill data-scraper-agent

O que a `data-scraper-agent` faz

A skill data-scraper-agent ajuda você a montar um pipeline automatizado que coleta dados públicos, enriquece essas informações com um LLM e armazena a saída para acompanhamento contínuo. Ela é ideal para tarefas de data-scraper-agent for Web Scraping em que o objetivo não é fazer uma raspagem única, mas criar um agente repetível que continua verificando fontes como vagas de emprego, páginas de preços, feeds de notícias, repositórios do GitHub, resultados esportivos e anúncios.

Quem deve instalar

Instale a skill data-scraper-agent se você precisa de uma forma de baixo custo para monitorar fontes públicas em um agendamento, sem manter seu próprio servidor. Ela se encaixa melhor para quem quer alertas, registros estruturados ou acompanhamento de tendências, e não apenas raspagem pontual. Ela é menos útil se você só precisa de uma extração manual isolada ou se o site-alvo é privado, exige login ou tem proteção pesada contra bots.

Por que ela é diferente

O principal valor desta data-scraper-agent skill está no fluxo de trabalho, e não só no raspador. Ela enfatiza um ciclo de três etapas: coletar, enriquecer, armazenar. Isso facilita transformar páginas brutas em dados utilizáveis, classificar resultados e manter o sistema rodando via GitHub Actions. A contrapartida prática é que a qualidade depende de a fonte ser pública e de você fornecer ao agente regras claras de schema e filtragem.

Como usar a skill data-scraper-agent

Instalar e inspecionar a skill

Use o comando data-scraper-agent install no seu fluxo de trabalho do Claude Code:
npx skills add affaan-m/everything-claude-code --skill data-scraper-agent

Depois da instalação, leia primeiro SKILL.md e, em seguida, verifique o restante do contexto da skill no repositório, se houver. Embora essa skill seja autocontida, a melhor forma de usar data-scraper-agent usage é confirmar o caminho de execução, o formato de saída e quaisquer premissas antes de pedir que ela construa algo para uma fonte real.

Transforme um pedido vago em um briefing utilizável

Um prompt fraco como “raspe este site” não dá estrutura suficiente. Um prompt forte informa à skill qual fonte monitorar, quais campos coletar, com que frequência executar e onde os resultados devem ser salvos. Por exemplo: “Crie um data-scraper-agent para vagas públicas de engenharia de software em dois painéis, colete título/empresa/localização/salário/data de publicação, remova duplicatas por URL, enriqueça com senioridade da vaga e armazene os resultados semanais no Google Sheets.”

O que especificar para obter um resultado melhor

A skill funciona melhor quando você fornece a fonte pública, o schema desejado e a lógica de decisão. Inclua se o site é estático ou renderizado em JS, quão frescos os dados precisam estar e o que conta como registro novo ou alterado. Se você omitir esses detalhes, o agente pode raspar informação demais, deixar passar campos importantes ou gerar registros difíceis de comparar ao longo do tempo.

Arquivos e conceitos para ler primeiro

Comece com SKILL.md e foque nas seções que explicam ativação, a arquitetura em três camadas e a stack gratuita. Esses trechos mostram quando a skill é realmente adequada e como conectar o pipeline. Se você estiver adaptando isso para um novo repositório, procure os exemplos concretos de configuração de agendamento, escolhas de armazenamento e regras de enriquecimento antes de modificar prompts.

FAQ da skill data-scraper-agent

Isso serve só para páginas web?

Não. O data-scraper-agent guide funciona para qualquer fonte pública que o agente consiga acessar, incluindo APIs, feeds e páginas que possam exigir renderização no navegador. Para páginas HTML simples, raspagem básica via HTTP geralmente basta. Para sites dinâmicos, talvez seja necessário uma abordagem baseada em navegador, o que aumenta a complexidade da configuração.

Preciso saber programar para usar?

Ter alguma familiaridade com prompting ajuda, mas esta ainda é uma skill voltada à construção. Iniciantes conseguem usar se souberem descrever a fonte e a saída desejada com clareza. Se você não conseguir definir os campos, o agendamento ou o destino, o resultado provavelmente ficará genérico demais para ser implantado com confiança.

Em que ela difere de um prompt normal?

Um prompt comum normalmente gera um raspador ou resumo pontual. A skill data-scraper-agent foi pensada para criar um sistema repetível com coleta, enriquecimento, armazenamento e execuções agendadas. Isso a torna mais adequada quando você quer manter dados ao longo do tempo, e não apenas extraí-los uma vez.

Quando não devo usar?

Não use data-scraper-agent se a fonte exigir login, tiver limites de taxa rígidos, bloquear automação ou lidar com dados altamente sensíveis. Ela também é uma escolha ruim quando você só precisa de uma exportação manual rápida ou quando a fonte muda com tanta frequência que um prompt simples seria mais fácil do que manter um agente.

Como melhorar a skill data-scraper-agent

Dê definições de fonte mais precisas

Os melhores resultados com data-scraper-agent vêm de URLs exatas, padrões e limites de escopo bem definidos. Diga quais páginas importam, quais não importam e o que o agente deve ignorar. Por exemplo: “monitore apenas as páginas de listagem para vagas remotas de backend nos EUA; exclua estágios, posts patrocinados e republicações duplicadas.” Esse tipo de briefing reduz falsos positivos e ajuda o agente a ficar estável.

Defina as regras de enriquecimento e armazenamento

Se você quer uma saída útil, diga à skill o que o LLM pode inferir e o que precisa permanecer literal. Use o enriquecimento para classificação, pontuação de prioridade ou resumos curtos, mas mantenha campos de origem como preço, título e URL exatamente como estão. Também especifique o formato de destino desde o início: Notion para fluxos de revisão, Sheets para análise leve, Supabase para consultas estruturadas.

Revise a primeira execução em busca de falhas

Os problemas mais comuns são registros duplicados, campos ausentes em páginas dinâmicas e enriquecimento agressivo demais, que altera o significado da fonte. Depois da primeira execução, inspecione alguns registros e ajuste o prompt em torno de deduplicação, seletores e campos de origem aceitos. Se a saída estiver ruidosa, reduza o escopo antes de adicionar mais automação.

Itere com base no que você realmente acompanha

Use a primeira versão para comprovar o ciclo de monitoramento e, depois, melhore data-scraper-agent com base nos sinais que mais importam para você: frescor, completude ou qualidade de classificação. Se frescor for prioridade, refine o agendamento. Se completude for o foco, ajuste as regras de extração. Se a tomada de decisão for o objetivo, melhore o prompt de enriquecimento para que o agente explique por que cada item foi incluído.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

huggingface-datasets

por huggingface

Use a skill huggingface-datasets para fluxos de trabalho da API do Dataset Viewer do Hugging Face: validar datasets, resolver splits, pré-visualizar e paginar linhas, buscar texto, aplicar filtros e obter links de parquet ou estatísticas. É um guia prático de huggingface-datasets para exploração somente leitura de datasets.

Web Scraping

Favoritos 0GitHub 10.4k

baoyu-url-to-markdown

por JimLiu

baoyu-url-to-markdown converte URLs ativas em Markdown com uma CLI baoyu-fetch vendorizada, usando Chrome CDP, adaptadores de sites e fallback genérico. Veja os requisitos de runtime com Bun, a configuração inicial do EXTEND.md e como usar a skill com X, YouTube, Hacker News e páginas renderizadas.

Format Conversion

Favoritos 0GitHub 13.2k

x-twitter-scraper

por Xquik-dev

Use o x-twitter-scraper para recuperar dados do X (Twitter) e executar ações com confirmação via Xquik. Ele oferece suporte a busca de tweets, consulta de usuários, extração de seguidores, download de mídia, monitores, webhooks, MCP e ações de gravação. É mais indicado para pesquisa no estilo web scraping com chave de API, não para segredos de login do X.

Web Scraping

Favoritos 0GitHub 71

exa-search

por K-Dense-AI

exa-search é uma skill de pesquisa na web, powered by Exa, para encontrar informações atuais e extrair conteúdo de URLs. Use para busca, descoberta de fontes, extração de artigos e PDFs e pesquisa técnica ou científica com recuperação semântica, filtros no estilo acadêmico e orientação clara de instalação e uso.

Web Research

Favoritos 0GitHub 0

browser-use

por browser-use

browser-use é uma skill de automação de navegador para abrir páginas, inspecionar o estado, clicar em elementos indexados, preencher campos, tirar capturas de tela e reutilizar uma sessão persistente do navegador. Use para preencher formulários com mais confiabilidade, navegar e executar fluxos com login usando a CLI do browser-use.

Browser Automation

Favoritos 0GitHub 84.9k

remote-browser

por browser-use

remote-browser ajuda agentes em sandbox a controlar um navegador headless para automação de navegador. Use para abrir páginas, inspecionar o estado, clicar em elementos indexados, preencher campos, tirar capturas de tela e conectar-se a apps locais ou sessões de navegador com CDP.

Browser Automation

Favoritos 0GitHub 84.9k

firecrawl

por firecrawl

Skill firecrawl para instalar, autenticar e usar a CLI oficial do Firecrawl para web scraping, busca, crawling e interação com páginas. Veja como configurar, usar `firecrawl --status`, fazer login, salvar saídas com segurança em `.firecrawl/` e aplicar padrões práticos de uso respaldados pelo repositório.

Web Scraping

Favoritos 0GitHub 234

firecrawl-search

por firecrawl

firecrawl-search é uma skill de pesquisa na web para encontrar fontes, fazer buscas estruturadas e, opcionalmente, extrair o conteúdo completo de páginas em JSON com o Firecrawl CLI.

Web Research

Favoritos 0GitHub 234

parallel-web

por K-Dense-AI

parallel-web é uma skill de pesquisa e extração na web, potencializada pelo parallel-cli. Ela ajuda você a pesquisar na web, extrair conteúdo de URLs, enriquecer dados a partir de fontes e conduzir pesquisas mais profundas, com prioridade para fontes acadêmicas e científicas. Use-a para uso do parallel-web, pesquisa na web, citações e fluxos de trabalho orientados por evidências.

Web Research

Favoritos 0GitHub 0

geomaster

por K-Dense-AI

geomaster é uma skill de ciência geoespacial para GIS, sensoriamento remoto, análise espacial e fluxos de trabalho de observação da Terra. Use-a em tarefas de Análise de Dados como operações com raster e vetor, processamento de imagens de satélite, métricas espaciais e planejamento de workflows. O guia do geomaster ajuda você a instalar, inspecionar e aplicar a skill com menos suposições.

Data Analysis

Favoritos 0GitHub 0

asc-aso-audit

por rudrankriyam

O asc-aso-audit ajuda você a fazer uma auditoria de ASO offline nos metadados canônicos da App Store em `./metadata` e, em seguida, identificar lacunas de palavras-chave com o Astro MCP. Use a skill asc-aso-audit depois de `asc metadata pull` para revisar `subtitle`, `keywords`, `description` e `whatsNew` com menos tentativa e erro.

Data Analysis

Favoritos 0GitHub 0

ffuf-web-fuzzing

por jthack

ffuf-web-fuzzing é uma skill prática para descobrir conteúdo oculto em sites, testar rotas e parâmetros e fazer fuzzing de alvos autenticados com requisições brutas, auto-calibração e análise de resultados. É ideal para profissionais de teste de segurança que precisam de um guia repetível de ffuf-web-fuzzing para pentests e fluxos de trabalho de auditoria de segurança.

Security Audit

Favoritos 0GitHub 0

web-to-markdown

por softaworks

web-to-markdown é uma skill de conversão de formato que transforma páginas web ao vivo em Markdown limpo por meio do CLI local `web2md`, usando um navegador da família Chromium para páginas renderizadas por JS, fluxos interativos e conversão em lote de URLs. Ela só é executada quando é chamada explicitamente pelo nome.

Format Conversion

Favoritos 0GitHub 1.3k

firecrawl-agent

por firecrawl

O firecrawl-agent ajuda a extrair JSON estruturado de sites complexos com várias páginas. Entenda quando usar, como executar o agente Firecrawl CLI, adicionar schemas, definir URLs iniciais e salvar saídas para extração de preços, produtos e dados em estilo diretório.

Web Scraping

Favoritos 0GitHub 234

firecrawl-map

por firecrawl

A firecrawl-map ajuda agentes a descobrir e listar URLs de um site, com opções de filtro por busca, limites, saída em JSON, modos de sitemap e controle de subdomínios antes de um scraping ou crawling mais aprofundado.

Web Scraping

Favoritos 0GitHub 234

firecrawl-crawl

por firecrawl

O firecrawl-crawl ajuda agentes a extrair conteúdo em massa de um site ou seção de documentação com filtros de caminho, limites de profundidade, limite de páginas, modo de espera e verificação do status do job.

Web Scraping

Favoritos 0GitHub 234

data-scraper-agent

Visão geral da skill data-scraper-agent

O que a data-scraper-agent faz

Quem deve instalar

Por que ela é diferente

Como usar a skill data-scraper-agent

Instalar e inspecionar a skill

Transforme um pedido vago em um briefing utilizável

O que especificar para obter um resultado melhor

Arquivos e conceitos para ler primeiro

FAQ da skill data-scraper-agent

Isso serve só para páginas web?

Preciso saber programar para usar?

Em que ela difere de um prompt normal?

Quando não devo usar?

Como melhorar a skill data-scraper-agent

Dê definições de fonte mais precisas

Defina as regras de enriquecimento e armazenamento

Revise a primeira execução em busca de falhas

Itere com base no que você realmente acompanha

Avaliações e comentários

O que a `data-scraper-agent` faz