web-to-markdown

por softaworks

web-to-markdown é uma skill de conversão de formato que transforma páginas web ao vivo em Markdown limpo por meio do CLI local `web2md`, usando um navegador da família Chromium para páginas renderizadas por JS, fluxos interativos e conversão em lote de URLs. Ela só é executada quando é chamada explicitamente pelo nome.

Estrelas1.3k

Favoritos0

Comentários0

Adicionado1 de abr. de 2026

CategoriaFormat Conversion

Comando de instalação

npx skills add softaworks/agent-toolkit --skill web-to-markdown

Pontuação editorial

Esta skill recebe 77/100, o que a torna uma boa candidata no diretório para quem busca especificamente conversão de páginas web para Markdown por meio de um CLI local orientado por navegador. A orientação é clara o bastante para um agente seguir com menos tentativa e erro do que em um prompt genérico, mas a clareza para decisão de instalação perde força pela falta de detalhes de setup na própria skill e pela dependência de uma ferramenta/local browser environment externos.

77/100

Pontos fortes

Enquadramento operacional forte: a skill deixa claro o que faz, o que não faz e quais entradas devem ser coletadas antes da execução.
Oferece ganho real para agentes em relação a um prompt genérico: lida com páginas renderizadas por JS via uma stack local com navegador e documenta flags práticas como `--print`, `--out`, `--chrome-path` e `--interactive`.
As evidências no repositório são consistentes, e não conteúdo placeholder: tanto o SKILL.md quanto o README explicam propósito, fluxo de trabalho e limitações de uso.

Pontos de atenção

A adoção é menos imediata porque o SKILL.md não traz um comando de instalação, e a skill depende de um `web2md` CLI disponível localmente, além de um navegador da família Chromium.
O gatilho rígido exige que o usuário cite explicitamente `web-to-markdown`, o que aumenta a segurança, mas torna a skill menos acionável de forma natural em pedidos comuns de extração da web.

Cli Scraping Chrome Websites Markdown

Visão geral

Visão geral da skill web-to-markdown

web-to-markdown é uma skill de conversão de formato com escopo bem específico: transformar páginas web ao vivo em Markdown limpo por meio de um web2md CLI instalado localmente. O valor dela não é “resumir uma página”, e sim “renderizar a página real em um navegador de verdade, extrair o corpo principal do artigo ou documento e converter esse resultado em Markdown portátil”. Por isso, web-to-markdown é uma ótima escolha para quem lida com páginas renderizadas em JavaScript, sites de documentação, posts de blog, fluxos protegidos que exigem renderização interativa ou tarefas de arquivamento em que um simples fetch HTTP não basta.

Para quem a skill web-to-markdown é mais indicada

Esta skill web-to-markdown é mais indicada para quem precisa:

converter uma ou mais URLs em Markdown legível
lidar com páginas que dependem de JavaScript no client-side
salvar conteúdo em arquivos para análise posterior ou reaproveitamento
extrair conteúdo em formato de artigo, em vez de raspar todos os elementos da página

Se o seu objetivo real é “pegar o conteúdo principal de uma página que eu já consigo abrir no navegador”, esta skill faz mais sentido do que um prompt genérico.

O que diferencia o web-to-markdown

O principal diferencial está no pipeline:

Puppeteer via um navegador da família Chromium instalado localmente
Readability para extrair o conteúdo principal
Turndown para converter em Markdown

Essa combinação foi pensada para conteúdo já renderizado, não para HTML cru. Na prática, isso significa que a skill web-to-markdown consegue funcionar em páginas nas quais ferramentas baseadas em fetch comum falham ou retornam conteúdo incompleto.

A exigência de gatilho explícito é importante

Esta skill tem uma restrição incomum, mas importante: ela só deve ser usada quando o usuário a solicitar explicitamente pelo nome, com algo como use the skill web-to-markdown. Se esse gatilho explícito não aparecer, a skill não deve ser aplicada. Para quem está avaliando no diretório, isso significa que a adoção é simples, mas a disciplina na invocação importa.

O trabalho real que ela resolve

A maioria das pessoas não está procurando “uma skill de automação de navegador”. O que elas querem é um destes resultados:

“Transforme este artigo em Markdown para eu guardar.”
“Converta esta página de documentação, mesmo sendo renderizada no client-side.”
“Processe um lote de URLs em arquivos .md.”
“Abra a página em um navegador real para eu passar por login ou verificação e depois salve o conteúdo.”

Esse é o caso de uso real para o qual web-to-markdown foi otimizada.

Quando não escolher esta skill

Ignore web-to-markdown se:

você só precisa de um resumo rápido, não de saída em Markdown
um fetch HTTP simples já entrega o conteúdo de forma limpa
você precisa de um crawler completo ou de um scraper de site
você quer automação baseada em Playwright; esta skill usa explicitamente web2md, não outras stacks de navegador

Como usar a skill web-to-markdown

Entenda o contexto de instalação antes do primeiro uso

Pense em web-to-markdown como duas dependências:

a própria skill no ambiente do seu agente
um web2md CLI local funcional, além de um navegador da família Chromium disponível

Um caminho prático para instalar a skill é:

npx skills add softaworks/agent-toolkit --skill web-to-markdown

O repositório está em:
https://github.com/softaworks/agent-toolkit/tree/main/skills/web-to-markdown

Só adicionar a skill não basta se sua máquina não consegue executar web2md ou abrir Chrome/Chromium/Brave/Edge. Essa exigência de navegador local é o principal bloqueio de adoção e vale checar isso cedo.

Leia estes arquivos primeiro

Esta skill é pequena, então a melhor ordem de leitura é:

skills/web-to-markdown/SKILL.md
skills/web-to-markdown/README.md

SKILL.md mostra a regra de disparo, as entradas obrigatórias e o formato do fluxo. Já README.md é onde você confirma os casos de uso previstos, como páginas renderizadas em JS, modo interativo e conversão em lote.

Quais entradas o web-to-markdown precisa

Para usar web-to-markdown com confiabilidade, forneça:

uma url ou uma lista de URLs
o modo de saída:
- imprimir no stdout com --print
- gravar em arquivo com --out ./file.md
- gravar em diretório com --out ./some-dir/
controles opcionais de navegador quando necessário:
- --chrome-path <path> se a detecção do navegador falhar
- --interactive para telas de login, consentimento ou verificação humana

Se você não especificar o comportamento da saída, o agente terá de adivinhar. Isso gera atrito desnecessário e costuma ser um dos pontos mais fáceis de deixar explícito.

A exigência exata de invocação

Esta skill web-to-markdown só deve ser disparada quando o usuário escrever explicitamente algo como:

use the skill web-to-markdown ...
use a skill web-to-markdown ...

Se você estiver testando a skill, diga o nome diretamente. Isso não é mera etiqueta do repositório; faz parte da lógica central de execução.

Como transformar um pedido vago em um prompt forte

Pedido fraco:

convert this page

Pedido forte:

use the skill web-to-markdown to convert https://example.com/article to Markdown and save it to ./notes/article.md

Melhor ainda:

use the skill web-to-markdown to convert these 5 docs URLs to Markdown, save them in ./docs-md/, and use interactive mode if a consent screen appears

Bons prompts reduzem falhas ao dizer à skill:

quais páginas processar
para onde a saída deve ir
se pode ser necessária interação no navegador
se é um caso pontual ou um trabalho em lote

Padrões práticos de comando para pedir

Padrões úteis de uso de web-to-markdown incluem:

página única no terminal: --print
página única em arquivo: --out ./page.md
várias páginas em uma pasta: --out ./pages/
página difícil com navegador visível: --interactive
caminho explícito para o binário do navegador: --chrome-path <path>

A orientação do repositório torna esses padrões mais úteis do que pedidos abertos como “raspe este site”, que são mais amplos do que o desenho da skill.

Melhor fluxo para uma única página

Um fluxo com alta chance de sucesso é:

confirmar que o usuário invocou web-to-markdown explicitamente
coletar a URL
decidir se a saída deve ser impressa ou salva
usar --interactive apenas em páginas que exigem ajuda humana
revisar o resultado em Markdown em busca de seções faltando ou ruído de navegação
executar de novo com ajustes melhores de navegador se a extração vier incompleta

Isso costuma ser mais rápido do que tentar superprojetar o prompt logo de cara.

Melhor fluxo para várias URLs

Para trabalho em lote:

passe para a skill uma lista de URLs
escolha um diretório como destino de saída
espere que os nomes dos arquivos sejam derivados dos títulos das páginas ao salvar em pasta
faça uma checagem rápida em algumas saídas antes de rodar um lote grande

O principal motivo para processar em lote é consistência. O principal risco é presumir que todos os templates de página de um site serão extraídos com a mesma qualidade.

Bloqueios comuns na configuração local

A maioria das instalações malsucedidas de web-to-markdown não falha por causa do prompt. Falha por causa do ambiente local:

web2md não está instalado ou não está no PATH
não há um navegador compatível disponível localmente
a autodetecção do navegador falha, exigindo --chrome-path
a página precisa de um navegador visível e interação humana

Se você quiser um teste rápido de adoção, experimente uma página pública de artigo e uma página pesada em JS antes de usar a skill em fluxos de produção.

O que esperar da qualidade da saída

web-to-markdown busca gerar Markdown limpo do conteúdo principal, não uma cópia fiel pixel a pixel da página original. Isso significa:

o corpo de artigos e documentação tende a sair bem
cabeçalhos, rodapés, anúncios e chrome da página geralmente perdem destaque
widgets incomuns, app shells e ferramentas embutidas podem não converter tão bem

Esse trade-off costuma ser desejável para arquivamento e análise, mas vale saber disso antes de instalar.

FAQ da skill web-to-markdown

web-to-markdown é melhor do que um prompt comum?

Sim, quando a necessidade real é converter uma página já renderizada. Um prompt genérico pode falar sobre uma URL, mas não abre um navegador por conta própria, não espera o JavaScript carregar, não extrai o corpo legível e não produz Markdown automaticamente. A utilidade de web-to-markdown está em operacionalizar esse fluxo.

web-to-markdown é bom para iniciantes?

Sim, se sua tarefa for simples: uma URL, um arquivo de saída, uma página direta. O principal desafio para iniciantes está na configuração local, não no desenho da skill. Se você consegue rodar um CLI local de automação de navegador, a skill é acessível.

web-to-markdown lida bem com páginas pesadas em JavaScript?

Esse é um dos principais motivos de ela existir. Ela usa um navegador local real via Puppeteer, então é mais adequada para páginas renderizadas em JS do que abordagens baseadas em fetch bruto.

Às vezes, com --interactive. O repositório suporta explicitamente um modo em que o Chrome é exibido e pausado para que o usuário conclua as etapas humanas. Isso é uma vantagem prática para páginas protegidas ou semi-protegidas.

Quando eu não devo usar a skill web-to-markdown?

Não use quando:

o usuário não pediu explicitamente web-to-markdown
um fetch simples de página já resolve a tarefa
você precisa de scraping estruturado de muitos componentes da página
você quer um caminho de conversão sem navegador

A skill é especializada, e essa especialização é uma força, não uma fraqueza.

Funciona com qualquer navegador?

O encaixe documentado é com navegadores da família Chromium, como Chrome, Chromium, Brave ou Edge, via puppeteer-core. Se a autodetecção falhar, espere precisar informar o caminho manualmente.

Isso serve só para artigos?

Não. Artigos são o encaixe mais fácil, mas a skill web-to-markdown também ajuda com páginas de documentação e outras páginas ricas em conteúdo nas quais “extração do corpo principal” é o modelo de saída certo. Ela é menos ideal para dashboards ou apps altamente interativos.

Como melhorar o uso da skill web-to-markdown

Dê instruções explícitas de saída ao web-to-markdown

Um pedido melhor não é apenas “converta esta URL”, mas:

print it
save it to ./tmp/page.md
save all results under ./exports/

Isso elimina adivinhação e aumenta a chance de a primeira execução já combinar com o seu fluxo.

Use o modo interativo só quando a página exigir

--interactive é valioso para barreiras de consentimento, fluxos de login e prompts de verificação, mas é mais lento e menos automatizável. Para páginas públicas rotineiras, evite. Para páginas bloqueadas, use cedo em vez de insistir em novas tentativas no escuro.

Teste cedo a detecção do navegador

Se a primeira execução não conseguir abrir um navegador, não adianta continuar mexendo no prompt. Corrija o contexto de execução:

confirme que existe um navegador da família Chromium
forneça --chrome-path <path> quando necessário

Para muita gente, esta é a dica de instalação de web-to-markdown mais importante de todas.

Escolha páginas representativas antes de uma adoção em escala

Antes de converter centenas de URLs, teste:

uma página de artigo simples
uma página renderizada em JS
uma página com atrito de consentimento ou login

Isso mostra se a skill combina com a mistura real de páginas do seu site, e não apenas com os casos ideais.

Reforce os prompts com restrições específicas da página

Se você já sabe que a página é complicada, diga isso:

use the skill web-to-markdown on this docs page; it renders client-side, save to ./docs/intro.md
use the skill web-to-markdown on this member page with interactive mode because I need to pass a verification screen first

Esse contexto extra muda mais a qualidade da execução do que acrescentar formulações genéricas.

Valide o primeiro resultado em Markdown e depois itere

Depois da primeira saída, verifique:

o conteúdo principal foi capturado?
a saída trouxe navegação ou boilerplate demais?
a página foi renderizada só parcialmente?
o comportamento de nome de arquivo ou pasta correspondeu ao esperado?

Depois, rode novamente com controles melhores. Normalmente, web-to-markdown melhora com uma segunda tentativa direcionada, não com um longo prompt especulativo.

Conheça os principais modos de falha

Os modos de falha mais comuns são:

ausência da frase de disparo explícita, então a skill não deve rodar
problemas ao abrir o navegador local
páginas que exigem interação visível
páginas cujo “conteúdo principal” é ambíguo para o Readability
usuários esperando scraping de site inteiro quando a skill foi feita para conversão de páginas

Reconhecer isso cedo ajuda você a decidir se vale continuar com web-to-markdown ou trocar de ferramenta.

Use web-to-markdown para o padrão de saída certo

Você terá os melhores resultados quando seu critério de sucesso for:

Markdown limpo e legível
conteúdo principal acima do chrome da página
saída portátil para notas, arquivo, análise ou processamento posterior por IA

Se o seu critério de sucesso for “preservar cada detalhe de layout”, esta skill é a ferramenta errada. Alinhar sua expectativa ao desenho dela é a forma mais rápida de melhorar os resultados.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

kreuzberg

por kreuzberg-dev

A skill kreuzberg ajuda você a instalar e usar o Kreuzberg para extração de documentos em mais de 91 formatos, incluindo PDFs, arquivos do Office, imagens, HTML, e-mail e arquivos compactados. Ela cobre fluxos de trabalho em Python, Node.js/TypeScript, Rust e CLI para OCR, tabelas, metadados, processamento em lote e orientações práticas de parsing.

PDF Processing

Favoritos 0GitHub 0

xlsx

por anthropics

A skill xlsx ajuda agentes a ler, editar, reparar, criar e converter arquivos .xlsx, .xlsm, .csv e .tsv quando a entrega precisa ser uma planilha. Ela se destaca em atualizações que preservam templates, edições seguras de pastas de trabalho com fórmulas, limpeza de tabelas desorganizadas e fluxos práticos com scripts do repositório para empacotamento, validação e recálculo.

Spreadsheet Workflows

Favoritos 0GitHub 105.1k

pdf

por anthropics

A skill pdf orienta tarefas de processamento de PDFs, como extração de texto, mesclagem e divisão de arquivos, renderização de páginas em imagens e fluxos com formulários PDF. É especialmente útil para verificar campos preenchíveis, extrair metadados de formulários e validar layouts de formulários não preenchíveis com scripts.

PDF Processing

Favoritos 0GitHub 105.1k

baoyu-youtube-transcript

por JimLiu

baoyu-youtube-transcript ajuda a extrair transcrições, legendas e imagens de capa do YouTube a partir de uma URL ou ID de vídeo. Suporta seleção de idioma, tradução, saída em markdown ou SRT, reformatação com cache e fallback da API InnerTube para yt-dlp, tornando a obtenção de transcrições mais confiável.

Format Conversion

Favoritos 0GitHub 13.2k

baoyu-url-to-markdown

por JimLiu

baoyu-url-to-markdown converte URLs ativas em Markdown com uma CLI baoyu-fetch vendorizada, usando Chrome CDP, adaptadores de sites e fallback genérico. Veja os requisitos de runtime com Bun, a configuração inicial do EXTEND.md e como usar a skill com X, YouTube, Hacker News e páginas renderizadas.

Format Conversion

Favoritos 0GitHub 13.2k

pymatgen

por K-Dense-AI

pymatgen é um toolkit em Python para ciência dos materiais, voltado a estruturas cristalinas, diagramas de fase, estrutura eletrônica e conversão de arquivos. Esta skill de pymatgen ajuda em fluxos de trabalho científicos com CIF, POSCAR, VASP e dados do Materials Project.

Scientific

Favoritos 0GitHub 0

minimax-xlsx

por MiniMax-AI

A skill minimax-xlsx ajuda a criar, ler, editar, validar e formatar pastas de trabalho do Excel com um fluxo de trabalho voltado primeiro ao Excel. Use o minimax-xlsx para fluxos de trabalho de planilhas quando precisar de arquivos estruturados que preservem fórmulas, estilos, layout das abas e o comportamento da pasta de trabalho. Ele suporta tarefas com .xlsx, .xlsm, .csv e .tsv, incluindo análise, criação de novas pastas de trabalho, edições mínimas, correção de fórmulas e validação. O guia do minimax-xlsx foi pensado para entrega real de planilhas, não para tabelas planas.

Spreadsheet Workflows

Favoritos 0GitHub 0

baoyu-format-markdown

por JimLiu

baoyu-format-markdown formata texto simples ou Markdown desorganizado em um Markdown mais limpo e pronto para publicação, preservando o sentido original. Ele corrige frontmatter, títulos, listas, blocos de código, citações e espaçamento em CJK, sendo útil para conversão de formato sem reescrever o conteúdo.

Format Conversion

Favoritos 0GitHub 13.2k

baoyu-danger-x-to-markdown

por JimLiu

baoyu-danger-x-to-markdown converte posts, threads e alguns artigos do X em Markdown com front matter YAML. Usa scripts em `scripts/` com `bun` ou `npx -y bun`, oferece suporte a acesso por cookies e fluxo de consentimento, e se encaixa melhor em fluxos repetíveis de conversão de formato do que um prompt genérico.

Format Conversion

Favoritos 0GitHub 13.2k

baoyu-markdown-to-html

por JimLiu

baoyu-markdown-to-html converte Markdown em HTML com estilo para publicação no padrão WeChat. Oferece suporte a temas, destaque de código, matemática, PlantUML, notas de rodapé, tratamento de imagens e citações opcionais de links, com execução em tempo de execução via bun ou npx -y bun.

Format Conversion

Favoritos 0GitHub 13.2k

nutrient-document-processing

por affaan-m

Skill nutrient-document-processing para processamento de PDFs e automação de documentos com a Nutrient DWS API. Converta, faça OCR, extraia, redija, assine, adicione watermark e preencha arquivos como PDFs, DOCX, XLSX, PPTX, HTML e imagens.

PDF Processing

Favoritos 0GitHub 156.2k

speech-to-text

por NoizAI

A skill speech-to-text transcreve arquivos de áudio compatíveis em texto simples, com opções de timestamps, identificação de falantes e saída em JSON. Ela foi pensada para uso prático de speech-to-text em fluxos de trabalho repetíveis, incluindo entrevistas, reuniões, podcasts, aulas e tarefas de automação em que a consistência da transcrição faz diferença.

Workflow Automation

Favoritos 0GitHub 498

transcribe-video

por rameerez

A skill transcribe-video transforma arquivos de vídeo ou áudio em saídas .srt, .vtt e .txt com o AWS Transcribe. Use-a quando precisar de legendas, uma transcrição pesquisável ou uma versão em texto limpa do conteúdo falado. Também se encaixa em fluxos de trabalho de conversão de formato com transcribe-video.

Format Conversion

Favoritos 0GitHub 23

markitdown

por K-Dense-AI

markitdown converte arquivos e documentos de escritório para Markdown, facilitando a leitura, a segmentação em partes, a busca e fluxos de trabalho com LLMs. Esta skill markitdown oferece suporte a PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, imagens com OCR e transcrição de áudio, tornando-se um guia prático do markitdown para conversão de formatos.

Format Conversion

Favoritos 0GitHub 0

pdf

por openai

Use a skill de pdf para tarefas de processamento de PDFs em que layout, paginação e saída renderizada fazem diferença. Ela ajuda você a ler, criar, editar e revisar PDFs com um fluxo de trabalho visual-first: renderize páginas, inspecione o resultado e depois ajuste. Use quando precisar de instalação confiável do pdf, uso de pdf e um guia prático de pdf para garantir precisão nos documentos.

PDF Processing

Favoritos 0GitHub 0

defuddle

por kepano

defuddle extrai markdown limpo de páginas da web com a Defuddle CLI, removendo ruído para pesquisa, documentação e artigos. Use em páginas HTML padrão, instale com npm e evite URLs que terminem em .md.

Web Research

Favoritos 0GitHub 19.7k

web-to-markdown

Visão geral da skill web-to-markdown

Para quem a skill web-to-markdown é mais indicada

O que diferencia o web-to-markdown

A exigência de gatilho explícito é importante

O trabalho real que ela resolve

Quando não escolher esta skill

Como usar a skill web-to-markdown

Entenda o contexto de instalação antes do primeiro uso

Leia estes arquivos primeiro

Quais entradas o web-to-markdown precisa

A exigência exata de invocação

Como transformar um pedido vago em um prompt forte

Padrões práticos de comando para pedir

Melhor fluxo para uma única página

Melhor fluxo para várias URLs

Bloqueios comuns na configuração local

O que esperar da qualidade da saída

FAQ da skill web-to-markdown

web-to-markdown é melhor do que um prompt comum?

web-to-markdown é bom para iniciantes?

web-to-markdown lida bem com páginas pesadas em JavaScript?

web-to-markdown consegue passar por telas de login ou verificação?

Quando eu não devo usar a skill web-to-markdown?

Funciona com qualquer navegador?

Isso serve só para artigos?

Como melhorar o uso da skill web-to-markdown

Dê instruções explícitas de saída ao web-to-markdown

Use o modo interativo só quando a página exigir

Teste cedo a detecção do navegador

Escolha páginas representativas antes de uma adoção em escala

Reforce os prompts com restrições específicas da página

Valide o primeiro resultado em Markdown e depois itere

Conheça os principais modos de falha

Use web-to-markdown para o padrão de saída certo

Avaliações e comentários