web-to-markdown

por softaworks

web-to-markdown es una skill de conversión de formato que transforma páginas web en vivo en Markdown limpio mediante el CLI local `web2md`, usando un navegador de la familia Chromium para páginas renderizadas con JS, flujos interactivos y conversión por lotes de URLs. Solo se ejecuta cuando se invoca explícitamente por nombre.

Estrellas1.3k

Favoritos0

Comentarios0

Agregado1 abr 2026

CategoríaFormat Conversion

Comando de instalación

npx skills add softaworks/agent-toolkit --skill web-to-markdown

Puntuación editorial

Esta skill obtiene una puntuación de 77/100, lo que la convierte en una opción sólida del directorio para quienes buscan convertir páginas web a Markdown mediante un CLI local controlado por navegador. Está lo bastante clara como para que un agente la siga con menos suposiciones que con un prompt genérico, pero la claridad para decidir su instalación se ve limitada por la falta de detalles de configuración dentro de la propia skill y por su dependencia de una herramienta local externa y de un entorno de navegador.

77/100

Puntos fuertes

Buen encuadre operativo: la skill deja claro qué hace, qué no hará y qué datos debe recopilar antes de ejecutarse.
Aporta más valor que un prompt genérico: está orientada a páginas renderizadas con JS mediante una pila local basada en navegador y documenta opciones prácticas como `--print`, `--out`, `--chrome-path` y `--interactive`.
La evidencia del repositorio es sólida y no meramente de relleno: tanto SKILL.md como README explican el propósito, el flujo de trabajo y las limitaciones de uso.

Puntos a tener en cuenta

La adopción es menos inmediata porque SKILL.md no incluye un comando de instalación y la skill depende de un CLI local `web2md` y de un navegador de la familia Chromium.
El requisito de activación es estricto: el usuario debe mencionar explícitamente `web-to-markdown`. Esto mejora la seguridad, pero hace que la skill se active con menos naturalidad en solicitudes comunes de extracción web.

Cli Scraping Chrome Websites Markdown

Resumen

Visión general de la skill web-to-markdown

web-to-markdown es una skill de conversión de formato muy específica para transformar páginas web en vivo en Markdown limpio mediante un CLI local web2md. Su valor no está en “resumir una página”, sino en “renderizar la página real en un navegador de verdad, extraer el cuerpo principal del artículo o documento y convertir ese resultado en Markdown portable”. Por eso, encaja especialmente bien para usuarios que trabajan con páginas renderizadas con JavaScript, sitios de documentación, entradas de blog, flujos protegidos que requieren renderizado interactivo o tareas de archivado en las que una simple petición HTTP no basta.

Para quién encaja mejor web-to-markdown

Esta skill web-to-markdown es ideal para usuarios que necesitan:

convertir una o varias URLs en Markdown legible
manejar páginas que dependen de JavaScript del lado del cliente
guardar contenido en archivos para analizarlo o reutilizarlo después
extraer contenido tipo artículo en lugar de raspar todos los elementos de la página

Si tu objetivo real es “obtener el contenido principal de una página a la que ya puedo acceder en un navegador”, esta skill encaja mejor que un prompt genérico.

Qué hace diferente a web-to-markdown

El diferenciador clave es su pipeline:

Puppeteer mediante un navegador local de la familia Chromium
Readability para extraer el contenido principal
Turndown para convertir a Markdown

Esa combinación está pensada para contenido ya renderizado, no para HTML en bruto. En la práctica, eso significa que la skill web-to-markdown puede funcionar en páginas donde las herramientas basadas en fetch fallan o devuelven contenido incompleto.

La condición estricta de activación importa

Esta skill tiene una restricción poco habitual, pero importante: solo debe usarse cuando el usuario la solicite explícitamente por nombre, con una redacción como use the skill web-to-markdown. Si falta ese disparador explícito, la skill no debe aplicarse. Para quien consulta el directorio, esto significa que adoptarla es sencillo, pero invocarla con disciplina sí importa.

El trabajo real que resuelve

La mayoría de los usuarios no buscan “una skill de automatización de navegador”. Buscan uno de estos resultados:

“Convierte este artículo en Markdown para poder guardarlo.”
“Convierte esta página de documentación, aunque se renderice del lado del cliente.”
“Procesa un lote de URLs y conviértelas en archivos .md.”
“Abre la página en un navegador real para pasar un login o una verificación y luego guarda el contenido.”

Ese es el caso de uso real para el que web-to-markdown está optimizada.

Cuándo no conviene elegir esta skill

Omite web-to-markdown si:

solo necesitas un resumen rápido, no una salida en Markdown
una petición HTTP simple ya te devuelve el contenido de forma limpia
necesitas un crawler o scraper completo de un sitio
quieres automatización basada en Playwright; esta skill usa explícitamente web2md, no otros stacks de navegador

Cómo usar la skill web-to-markdown

Entiende el contexto de instalación antes del primer uso

Conviene tratar web-to-markdown como dos dependencias:

la propia skill en tu entorno de agente
un CLI local web2md operativo y un navegador disponible de la familia Chromium

Una ruta práctica de instalación de la skill es:

npx skills add softaworks/agent-toolkit --skill web-to-markdown

El repositorio está en:
https://github.com/softaworks/agent-toolkit/tree/main/skills/web-to-markdown

No basta con añadir la skill si tu equipo no puede ejecutar web2md o lanzar Chrome/Chromium/Brave/Edge. Ese requisito de navegador local es el principal bloqueo de adopción y conviene validarlo cuanto antes.

Lee primero estos archivos

Esta skill es pequeña, así que el mejor orden de lectura es:

skills/web-to-markdown/SKILL.md
skills/web-to-markdown/README.md

SKILL.md te da la regla de activación, las entradas necesarias y la forma general del flujo. README.md es donde confirmas los casos de uso previstos, como páginas renderizadas con JS, modo interactivo y conversión por lotes.

Qué entradas necesita web-to-markdown

Para usar web-to-markdown de forma fiable, proporciona:

una url o una lista de URLs
modo de salida:
- imprimir en stdout con --print
- escribir en un archivo con --out ./file.md
- escribir en un directorio con --out ./some-dir/
controles opcionales del navegador cuando hagan falta:
- --chrome-path <path> si falla la detección del navegador
- --interactive para muros de login, pantallas de consentimiento o verificación humana

Si no especificas el comportamiento de salida, el agente tiene que adivinar. Es una fricción innecesaria y suele ser de lo más fácil de dejar explícito.

El requisito exacto de invocación

Esta skill web-to-markdown solo debe activarse cuando el usuario escriba explícitamente algo como:

use the skill web-to-markdown ...
use a skill web-to-markdown ...

Si estás probando la skill, di el nombre directamente. No es una simple convención del repositorio; es parte central de la lógica de ejecución.

Cómo convertir una petición vaga en un prompt sólido

Petición débil:

convert this page

Petición sólida:

use the skill web-to-markdown to convert https://example.com/article to Markdown and save it to ./notes/article.md

Aún mejor:

use the skill web-to-markdown to convert these 5 docs URLs to Markdown, save them in ./docs-md/, and use interactive mode if a consent screen appears

Los buenos prompts reducen fallos porque le indican a la skill:

qué página o páginas debe procesar
dónde debe guardar la salida
si puede hacer falta interacción en el navegador
si se trata de una tarea puntual o de un lote

Patrones de comando prácticos que conviene pedir

Algunos patrones útiles de uso de web-to-markdown son:

una sola página al terminal: --print
una sola página a archivo: --out ./page.md
muchas páginas a una carpeta: --out ./pages/
página difícil con navegador visible: --interactive
ruta explícita al binario del navegador: --chrome-path <path>

La guía del repositorio hace que estos patrones sean más valiosos que peticiones abiertas como “scrape this site”, que son más amplias que el diseño de la skill.

Mejor flujo de trabajo para una sola página

Un flujo con alta probabilidad de éxito sería:

confirmar que el usuario invocó explícitamente web-to-markdown
recoger la URL
decidir si la salida debe imprimirse o guardarse
usar --interactive solo en páginas que necesiten ayuda humana
revisar el resultado en Markdown para detectar secciones faltantes o ruido de navegación
volver a ejecutar con mejores ajustes del navegador si la extracción quedó incompleta

Esto suele ser más rápido que intentar sobrediseñar el prompt desde el principio.

Mejor flujo de trabajo para varias URLs

Para trabajo por lotes:

pasa a la skill una lista de URLs
elige un directorio de salida
asume que, al guardar en una carpeta, los nombres de archivo se derivarán de los títulos de las páginas
revisa algunas salidas al azar antes de lanzar un lote grande

La principal razón para trabajar por lotes es la consistencia. El principal riesgo es asumir que todas las plantillas de páginas de un sitio se extraerán igual de bien.

Bloqueos habituales de configuración local

La mayoría de las instalaciones fallidas de web-to-markdown no se deben al prompt. Se deben al entorno local:

web2md no está instalado o no está en PATH
no hay ningún navegador compatible disponible localmente
la autodetección del navegador falla y obliga a usar --chrome-path
la página necesita un navegador visible e interacción humana

Si quieres una prueba rápida de adopción, prueba con un artículo público y con una página cargada de JS antes de usar la skill en flujos de producción.

Qué calidad de salida esperar

web-to-markdown apunta a generar Markdown limpio del contenido principal, no una copia píxel a píxel de la página original. Eso implica que:

el cuerpo de artículos y documentación suele salir bien
encabezados, pies, anuncios y elementos de interfaz de la página normalmente pierden protagonismo
widgets poco comunes, app shells y herramientas embebidas pueden no convertirse de forma limpia

Esa compensación suele ser deseable para archivado y análisis, pero conviene tenerla clara antes de instalar.

Preguntas frecuentes sobre la skill web-to-markdown

¿web-to-markdown es mejor que un prompt normal?

Sí, cuando la necesidad real es convertir una página ya renderizada. Un prompt genérico puede hablar sobre una URL, pero no abre por sí mismo un navegador, espera a que cargue JavaScript, extrae el cuerpo legible y produce Markdown. Esta skill web-to-markdown resulta útil precisamente porque operacionaliza ese flujo.

¿web-to-markdown es buena para principiantes?

Sí, si tu tarea es simple: una URL, un archivo de salida, una página directa. El principal reto para principiantes es la configuración local, no el diseño de la skill. Si puedes ejecutar un CLI local de automatización de navegador, la skill es accesible.

¿web-to-markdown maneja páginas con mucho JavaScript?

Ese es uno de sus motivos principales de existir. Usa un navegador local real a través de Puppeteer, por lo que se adapta mejor a páginas renderizadas con JS que los enfoques basados en obtención de HTML en bruto.

A veces, con --interactive. El repositorio admite explícitamente un modo en el que Chrome se muestra y se pausa para que el usuario complete los pasos humanos necesarios. Es una ventaja práctica para páginas protegidas o semiprotegidas.

¿Cuándo no debería usar la skill web-to-markdown?

No la uses cuando:

el usuario no haya solicitado explícitamente web-to-markdown
una simple carga de página ya resuelva la tarea
necesites scraping estructurado de muchos componentes de una página
quieras una ruta de conversión sin navegador

La skill es especializada, y esa especialización es una fortaleza, no una debilidad.

¿Funciona con cualquier navegador?

El encaje documentado es con navegadores de la familia Chromium, como Chrome, Chromium, Brave o Edge, mediante puppeteer-core. Si falla la autodetección, tendrás que indicar la ruta manualmente.

¿Esto sirve solo para artículos?

No. Los artículos son el caso más sencillo, pero la skill web-to-markdown también puede servir para páginas de documentación y otras páginas con mucho contenido en las que “extraer el cuerpo principal” es el modelo de salida adecuado. Encaja peor en dashboards o aplicaciones muy interactivas.

Cómo mejorar el uso de la skill web-to-markdown

Dale a web-to-markdown instrucciones de salida explícitas

Una petición mejor no es solo “convert this URL”, sino:

print it
save it to ./tmp/page.md
save all results under ./exports/

Esto elimina ambigüedad y hace más probable que la primera ejecución encaje con tu flujo de trabajo.

Usa el modo interactivo solo cuando la página lo necesite

--interactive es útil para barreras de consentimiento, flujos de login y prompts de verificación, pero es más lento y menos automatizable. Evítalo en páginas públicas rutinarias. En páginas bloqueadas, úsalo pronto en lugar de reintentar a ciegas.

Prueba pronto la detección del navegador

Si la primera ejecución no logra abrir un navegador, no sigas cambiando el prompt. Corrige el contexto de ejecución:

confirma que existe un navegador de la familia Chromium
proporciona --chrome-path <path> cuando sea necesario

Para muchos usuarios, este es el consejo de instalación más importante de web-to-markdown.

Elige páginas representativas antes de un despliegue grande

Antes de convertir cientos de URLs, prueba:

un artículo sencillo
una página renderizada con JS
una página con fricción por consentimiento o login

Esto te dirá si la skill encaja con la mezcla real de páginas de tu sitio, no solo con casos ideales.

Refuerza los prompts con restricciones específicas de la página

Si sabes que una página es complicada, dilo:

use the skill web-to-markdown on this docs page; it renders client-side, save to ./docs/intro.md
use the skill web-to-markdown on this member page with interactive mode because I need to pass a verification screen first

Ese contexto extra cambia más la calidad de la ejecución que añadir redacción genérica.

Valida el primer resultado en Markdown y luego itera

Después de la primera salida, comprueba:

¿se capturó el contenido principal?
¿la salida incluye demasiada navegación o boilerplate?
¿la página quedó solo parcialmente renderizada?
¿el comportamiento de nombres de archivo o carpetas coincidió con lo esperado?

Luego vuelve a ejecutar con mejores controles. web-to-markdown suele mejorar con un reintento concreto y dirigido, no con prompts largos y especulativos.

Conoce los principales modos de fallo

Los fallos más habituales son:

no hay frase de activación explícita, así que la skill no debería ejecutarse
problemas al lanzar el navegador local
páginas que requieren interacción visible
páginas cuyo “contenido principal” es ambiguo para Readability
usuarios que esperan scraping de un sitio completo en lugar de conversión de páginas

Reconocer esto pronto te ayuda a decidir si seguir con web-to-markdown o cambiar de herramienta.

Usa web-to-markdown para el estándar de salida adecuado

Obtendrás los mejores resultados cuando tu criterio de éxito sea:

Markdown limpio y legible
prioridad del contenido principal frente al chrome de la página
salida portable para notas, archivos, análisis o procesamiento posterior con IA

Si tu criterio de éxito es “preservar cada detalle del diseño”, esta skill no es la herramienta correcta. Ajustar tus expectativas a su diseño es la forma más rápida de mejorar los resultados.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

kreuzberg

por kreuzberg-dev

La skill de kreuzberg te ayuda a instalar y usar Kreuzberg para la extracción de documentos en más de 91 formatos, incluidos PDF, archivos de Office, imágenes, HTML, correo electrónico y archivos comprimidos. Cubre flujos de trabajo en Python, Node.js/TypeScript, Rust y CLI para OCR, tablas, metadatos, procesamiento por lotes y guía práctica de análisis y extracción.

PDF Processing

Favoritos 0GitHub 0

xlsx

por anthropics

La skill xlsx ayuda a los agentes a leer, editar, reparar, crear y convertir archivos .xlsx, .xlsm, .csv y .tsv cuando el entregable requerido es una hoja de cálculo. Destaca en actualizaciones que preservan plantillas, ediciones seguras para fórmulas, limpieza de tablas desordenadas y flujos prácticos respaldados por scripts del repositorio para empaquetado, validación y recálculo.

Spreadsheet Workflows

Favoritos 0GitHub 105.1k

pdf

por anthropics

La skill pdf guía tareas de procesamiento de PDF como extracción de texto, combinación y división de archivos, renderizado de páginas a imágenes y flujos de trabajo con formularios PDF. Resulta especialmente útil para comprobar campos rellenables, extraer metadatos de formularios y validar con scripts diseños de formularios no rellenables.

PDF Processing

Favoritos 0GitHub 105.1k

baoyu-youtube-transcript

por JimLiu

baoyu-youtube-transcript ayuda a extraer transcripciones, subtítulos e imágenes de portada de YouTube a partir de una URL o un ID de video. Admite selección de idioma, traducción, salida en markdown o SRT, reformateo con caché y una alternativa de respaldo desde la API InnerTube a yt-dlp para obtener transcripciones con mayor fiabilidad.

Format Conversion

Favoritos 0GitHub 13.2k

baoyu-url-to-markdown

por JimLiu

baoyu-url-to-markdown convierte URLs activas a Markdown con un CLI baoyu-fetch incluido en el repositorio, usando Chrome CDP, adaptadores de sitio y una alternativa genérica. Revisa los requisitos de Bun, la configuración inicial de EXTEND.md y el uso para X, YouTube, Hacker News y páginas renderizadas.

Format Conversion

Favoritos 0GitHub 13.2k

pymatgen

por K-Dense-AI

pymatgen es un kit de herramientas de ciencia de materiales en Python para estructuras cristalinas, diagramas de fases, estructura electrónica y conversión de archivos. Esta skill de pymatgen ayuda en flujos de trabajo científicos con CIF, POSCAR, VASP y datos de Materials Project.

Scientific

Favoritos 0GitHub 0

minimax-xlsx

por MiniMax-AI

La skill minimax-xlsx ayuda a crear, leer, editar, validar y dar formato a libros de Excel con un flujo de trabajo orientado primero a Excel. Usa minimax-xlsx para flujos de trabajo de hojas de cálculo cuando necesites archivos estructurados que conserven fórmulas, estilos, distribución de hojas y comportamiento del libro. Admite tareas con .xlsx, .xlsm, .csv y .tsv, incluida la análisis, la creación de nuevos libros, ediciones mínimamente invasivas, la reparación de fórmulas y la validación. La guía de minimax-xlsx está pensada para la entrega real de libros de trabajo, no para tablas planas.

Spreadsheet Workflows

Favoritos 0GitHub 0

baoyu-format-markdown

por JimLiu

baoyu-format-markdown da formato a texto plano o Markdown desordenado para convertirlo en un Markdown más limpio y listo para publicar, sin alterar el significado. Corrige frontmatter, encabezados, listas, bloques de código, citas y espaciado CJK, por lo que resulta útil para la conversión de formato sin reescribir el contenido.

Format Conversion

Favoritos 0GitHub 13.2k

baoyu-danger-x-to-markdown

por JimLiu

baoyu-danger-x-to-markdown convierte publicaciones, hilos y algunos artículos de X a Markdown con front matter YAML. Usa scripts en `scripts/` con `bun` o `npx -y bun`, admite acceso basado en cookies y flujo de consentimiento, y encaja mejor en flujos repetibles de conversión de formato que un prompt genérico.

Format Conversion

Favoritos 0GitHub 13.2k

baoyu-markdown-to-html

por JimLiu

baoyu-markdown-to-html convierte Markdown en HTML con estilo para publicaciones tipo WeChat. Admite temas, resaltado de código, fórmulas, PlantUML, notas al pie, manejo de imágenes y citas de enlaces opcionales, con ejecución en tiempo de ejecución mediante bun o npx -y bun.

Format Conversion

Favoritos 0GitHub 13.2k

nutrient-document-processing

por affaan-m

Skill de nutrient-document-processing para procesar PDF y automatizar documentos con la API de Nutrient DWS. Convierte, aplica OCR, extrae, redacta, firma, añade marcas de agua y completa archivos como PDFs, DOCX, XLSX, PPTX, HTML e imágenes.

PDF Processing

Favoritos 0GitHub 156.2k

speech-to-text

por NoizAI

La skill de speech-to-text transcribe archivos de audio compatibles a texto plano, con opciones de marcas de tiempo, etiquetas de hablantes y salida JSON. Está pensada para un uso práctico de speech-to-text en flujos de trabajo repetibles, como entrevistas, reuniones, pódcast, clases y tareas de automatización donde importa mantener una transcripción consistente.

Workflow Automation

Favoritos 0GitHub 498

transcribe-video

por rameerez

La skill transcribe-video convierte archivos de video o audio en salidas .srt, .vtt y .txt con AWS Transcribe. Úsala cuando necesites transcribe-video para subtítulos, una transcripción buscable o una versión limpia en texto del contenido hablado. También encaja en flujos de trabajo de conversión de formato con transcribe-video.

Format Conversion

Favoritos 0GitHub 23

markitdown

por K-Dense-AI

markitdown convierte archivos y documentos de oficina a Markdown para facilitar la lectura, la fragmentación, la búsqueda y los flujos de trabajo con LLM. Esta skill de markitdown admite PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, imágenes con OCR y transcripción de audio, por lo que es una guía práctica de markitdown para la conversión de formatos.

Format Conversion

Favoritos 0GitHub 0

pdf

por openai

Usa la skill pdf para tareas de procesamiento de PDF en las que importan el diseño, la paginación y el resultado renderizado. Te ayuda a leer, crear, editar y revisar PDF con un flujo de trabajo visual: renderiza páginas, inspecciona el resultado y luego ajusta. Úsala cuando necesites una instalación fiable de pdf, uso de pdf y una guía práctica de pdf para asegurar la precisión de documentos.

PDF Processing

Favoritos 0GitHub 0

defuddle

por kepano

defuddle extrae markdown limpio de páginas web con la CLI de Defuddle, eliminando elementos innecesarios para investigación, documentación y artículos. Úsalo con páginas HTML estándar, instálalo con npm y evita las URLs que terminen en .md.

Web Research

Favoritos 0GitHub 19.7k

web-to-markdown

Visión general de la skill web-to-markdown

Para quién encaja mejor web-to-markdown

Qué hace diferente a web-to-markdown

La condición estricta de activación importa

El trabajo real que resuelve

Cuándo no conviene elegir esta skill

Cómo usar la skill web-to-markdown

Entiende el contexto de instalación antes del primer uso

Lee primero estos archivos

Qué entradas necesita web-to-markdown

El requisito exacto de invocación

Cómo convertir una petición vaga en un prompt sólido

Patrones de comando prácticos que conviene pedir

Mejor flujo de trabajo para una sola página

Mejor flujo de trabajo para varias URLs

Bloqueos habituales de configuración local

Qué calidad de salida esperar

Preguntas frecuentes sobre la skill web-to-markdown

¿web-to-markdown es mejor que un prompt normal?

¿web-to-markdown es buena para principiantes?

¿web-to-markdown maneja páginas con mucho JavaScript?

¿web-to-markdown puede superar pantallas de login o verificación?

¿Cuándo no debería usar la skill web-to-markdown?

¿Funciona con cualquier navegador?

¿Esto sirve solo para artículos?

Cómo mejorar el uso de la skill web-to-markdown

Dale a web-to-markdown instrucciones de salida explícitas

Usa el modo interactivo solo cuando la página lo necesite

Prueba pronto la detección del navegador

Elige páginas representativas antes de un despliegue grande

Refuerza los prompts con restricciones específicas de la página

Valida el primer resultado en Markdown y luego itera

Conoce los principales modos de fallo

Usa web-to-markdown para el estándar de salida adecuado

Calificaciones y reseñas