web-to-markdown

par softaworks

web-to-markdown est un skill de conversion de format qui transforme des pages web en direct en Markdown propre via le CLI local `web2md`, en s’appuyant sur un navigateur de la famille Chromium pour les pages rendues en JS, les parcours interactifs et la conversion par lots d’URL. Il ne s’exécute que lorsqu’il est explicitement invoqué par son nom.

Étoiles1.3k

Favoris0

Commentaires0

Ajouté1 avr. 2026

CatégorieFormat Conversion

Commande d’installation

npx skills add softaworks/agent-toolkit --skill web-to-markdown

Score éditorial

Ce skill obtient une note de 77/100, ce qui en fait une fiche pertinente pour les utilisateurs qui cherchent précisément à convertir des pages web en Markdown via un CLI local piloté par navigateur. La documentation est assez claire pour qu’un agent puisse l’exécuter avec moins d’incertitude qu’avec un prompt générique, mais la clarté pour décider de l’installation reste limitée par l’absence de détails de configuration directement dans le skill et par sa dépendance à un outil local externe et à un environnement navigateur.

77/100

Points forts

Le cadrage opérationnel est solide : le skill explique clairement ce qu’il fait, ce qu’il ne fera pas et quelles entrées réunir avant exécution.
Il apporte une vraie valeur par rapport à un prompt générique : il vise les pages rendues en JS via une pile navigateur locale et documente des options utiles comme `--print`, `--out`, `--chrome-path` et `--interactive`.
Le dépôt fournit une base sérieuse, pas un simple contenu de remplissage : `SKILL.md` et le `README` décrivent tous deux l’objectif, le flux d’utilisation et les contraintes d’usage.

Points de vigilance

L’adoption est moins immédiate, car `SKILL.md` ne fournit aucune commande d’installation et le skill dépend d’un CLI local `web2md` ainsi que d’un navigateur de la famille Chromium.
Le déclenchement est strict : l’utilisateur doit citer explicitement `web-to-markdown`. C’est plus sûr, mais le skill se déclenche moins naturellement sur des demandes ordinaires d’extraction web.

Cli Scraping Chrome Websites Markdown

Vue d’ensemble

Vue d’ensemble de la skill web-to-markdown

web-to-markdown est une skill de conversion de format à périmètre volontairement étroit, conçue pour transformer des pages web en direct en Markdown propre via le CLI local web2md. Sa valeur n’est pas de « résumer une page », mais bien de « rendre la vraie page dans un navigateur réel, extraire le corps principal de l’article ou du document, puis convertir ce résultat en Markdown portable ». C’est donc un très bon choix pour les utilisateurs qui travaillent sur des pages rendues en JavaScript, des sites de documentation, des articles de blog, des parcours protégés qui nécessitent un rendu interactif, ou des cas d’archivage où un simple fetch HTTP ne suffit pas.

À qui s’adresse le mieux web-to-markdown

Cette skill web-to-markdown convient particulièrement aux utilisateurs qui doivent :

convertir une ou plusieurs URL en Markdown lisible
traiter des pages qui dépendent du JavaScript côté client
enregistrer le contenu dans des fichiers pour analyse ou réutilisation ultérieure
extraire un contenu de type article plutôt que de récupérer chaque élément de la page

Si votre vrai besoin est de « récupérer le contenu principal d’une page à laquelle j’ai déjà accès dans un navigateur », cette skill est plus adaptée qu’un prompt générique.

Ce qui distingue web-to-markdown

Le vrai différenciateur, c’est la chaîne de traitement :

Puppeteer via un navigateur de la famille Chromium installé localement
Readability pour extraire le contenu principal
Turndown pour la conversion en Markdown

Cette combinaison est pensée pour du contenu déjà rendu, pas pour du HTML brut. En pratique, cela signifie que la skill web-to-markdown peut fonctionner sur des pages où les outils classiques basés sur fetch échouent ou renvoient un contenu incomplet.

Pourquoi la condition de déclenchement stricte est importante

Cette skill a une contrainte peu commune mais essentielle : elle ne doit être utilisée que si l’utilisateur la demande explicitement par son nom, avec une formulation du type use the skill web-to-markdown. Sans ce déclencheur explicite, la skill ne doit pas être appliquée. Pour les utilisateurs du répertoire, cela veut dire que l’adoption est simple, mais que la discipline d’invocation compte vraiment.

Le vrai besoin métier couvert

La plupart des utilisateurs ne cherchent pas « une skill d’automatisation de navigateur ». Ils veulent plutôt l’un de ces résultats :

« Transforme cet article en Markdown que je peux conserver. »
« Convertis cette page de documentation, même si elle se rend côté client. »
« Traite un lot d’URL en fichiers .md. »
« Ouvre la page dans un vrai navigateur pour que je puisse passer le login ou la vérification, puis sauvegarde le contenu. »

C’est ce cas d’usage réel que web-to-markdown optimise.

Quand ne pas choisir cette skill

Évitez web-to-markdown si :

vous avez seulement besoin d’un résumé rapide, pas d’une sortie Markdown
un simple fetch HTTP renvoie déjà proprement le contenu
vous avez besoin d’un crawler complet ou d’un scraper de site
vous voulez une automatisation basée sur Playwright ; cette skill utilise explicitement web2md, pas une autre pile navigateur

Comment utiliser la skill web-to-markdown

Vérifier le contexte d’installation avant la première utilisation

Considérez web-to-markdown comme un ensemble de deux dépendances :

la skill elle-même dans votre environnement agent
un CLI local web2md fonctionnel, avec un navigateur de la famille Chromium disponible

Un chemin d’installation pratique pour la skill est :

npx skills add softaworks/agent-toolkit --skill web-to-markdown

Le dépôt se trouve ici :
https://github.com/softaworks/agent-toolkit/tree/main/skills/web-to-markdown

Ajouter la skill ne suffit pas si votre machine ne peut pas exécuter web2md ou lancer Chrome/Chromium/Brave/Edge. Cette exigence de navigateur local est le principal point de blocage à vérifier dès le départ.

Commencez par lire ces fichiers

La skill est petite ; le meilleur ordre de lecture est donc :

skills/web-to-markdown/SKILL.md
skills/web-to-markdown/README.md

SKILL.md vous donne la règle de déclenchement, les entrées requises et la structure du workflow. README.md permet de confirmer les cas d’usage visés, notamment les pages rendues en JS, le mode interactif et la conversion par lot.

Quelles entrées fournir à web-to-markdown

Pour utiliser web-to-markdown de façon fiable, fournissez :

une url ou une liste d’URL
un mode de sortie :
- afficher sur stdout avec --print
- écrire dans un fichier avec --out ./file.md
- écrire dans un répertoire avec --out ./some-dir/
des contrôles navigateur optionnels si nécessaire :
- --chrome-path <path> si la détection du navigateur échoue
- --interactive pour les murs de connexion, écrans de consentement ou vérifications humaines

Si vous ne précisez pas le comportement de sortie, l’agent doit deviner. C’est une source de friction inutile, et souvent l’élément le plus simple à rendre explicite.

L’exigence d’invocation explicite

Cette skill web-to-markdown ne doit être déclenchée que si l’utilisateur écrit explicitement quelque chose comme :

use the skill web-to-markdown ...
use a skill web-to-markdown ...

Si vous testez la skill, mentionnez son nom directement. Ce n’est pas un simple usage recommandé du dépôt : c’est une logique d’exécution centrale.

Transformer une demande vague en prompt efficace

Demande faible :

convert this page

Demande solide :

use the skill web-to-markdown to convert https://example.com/article to Markdown and save it to ./notes/article.md

Encore mieux :

use the skill web-to-markdown to convert these 5 docs URLs to Markdown, save them in ./docs-md/, and use interactive mode if a consent screen appears

Les bons prompts réduisent les échecs, parce qu’ils indiquent clairement à la skill :

quelle(s) page(s) traiter
où envoyer la sortie
si une interaction navigateur peut être nécessaire
s’il s’agit d’un traitement ponctuel ou par lot

Modèles de commande pratiques à demander

Parmi les modèles d’usage utiles pour web-to-markdown :

une seule page vers le terminal : --print
une seule page vers un fichier : --out ./page.md
plusieurs pages vers un dossier : --out ./pages/
une page difficile avec navigateur visible : --interactive
chemin explicite vers le binaire du navigateur : --chrome-path <path>

Les indications du dépôt rendent ces modèles bien plus utiles que des demandes ouvertes du type « scrape ce site », qui dépassent le périmètre prévu par la skill.

Meilleur workflow web-to-markdown pour une seule page

Un workflow à fort taux de réussite ressemble à ceci :

vérifier que l’utilisateur a explicitement invoqué web-to-markdown
récupérer l’URL
décider si la sortie doit être affichée ou enregistrée
n’utiliser --interactive que pour les pages qui nécessitent une aide humaine
relire le résultat Markdown pour repérer les sections manquantes ou le bruit de navigation
relancer avec de meilleurs réglages navigateur si l’extraction est incomplète

C’est plus rapide que de chercher à surconcevoir le prompt dès le départ.

Meilleur workflow pour plusieurs URL

Pour un traitement par lot :

fournissez à la skill une liste d’URL
choisissez un répertoire de sortie
partez du principe que les noms de fichier seront dérivés des titres de page lors de l’enregistrement dans un dossier
contrôlez quelques sorties avant de lancer un gros lot

La principale raison de traiter par lot est la cohérence. Le principal risque est de supposer que tous les modèles de page d’un site s’extraient aussi bien les uns que les autres.

Les blocages les plus courants côté environnement local

La plupart des échecs d’installation de web-to-markdown ne viennent pas du prompt. Ils viennent de l’environnement local :

web2md n’est pas installé ou n’est pas sur le PATH
aucun navigateur pris en charge n’est disponible localement
l’auto-détection du navigateur échoue, ce qui impose --chrome-path
la page nécessite un navigateur visible et une interaction humaine

Si vous voulez valider rapidement l’adoption, testez d’abord une page d’article publique et une page fortement dépendante du JS avant d’intégrer la skill dans des workflows de production.

À quoi s’attendre côté qualité de sortie

web-to-markdown vise un Markdown propre centré sur le contenu principal, pas une copie pixel perfect de la page d’origine. En pratique :

le corps des articles et de la documentation passe généralement bien
les en-têtes, pieds de page, publicités et éléments d’habillage sont souvent relégués au second plan
les widgets atypiques, shells applicatifs et outils embarqués peuvent mal se convertir

Ce compromis est généralement souhaitable pour l’archivage et l’analyse, mais il vaut mieux le savoir avant d’installer la skill.

FAQ sur la skill web-to-markdown

web-to-markdown est-il meilleur qu’un prompt classique ?

Oui, quand le vrai besoin est de convertir une page déjà rendue. Un prompt générique peut parler d’une URL, mais il n’ouvre pas de lui-même un navigateur, n’attend pas le JavaScript, n’extrait pas le corps lisible et ne produit pas de Markdown. Si la skill web-to-markdown est utile, c’est précisément parce qu’elle met ce workflow en œuvre.

web-to-markdown convient-il aux débutants ?

Oui, si votre tâche est simple : une URL, un fichier de sortie, une page sans complication particulière. Le principal défi pour un débutant concerne la configuration locale, pas la conception de la skill. Si vous savez exécuter un CLI local d’automatisation navigateur, la skill reste accessible.

web-to-markdown gère-t-il les pages très dépendantes du JavaScript ?

C’est même l’une de ses principales raisons d’exister. Elle s’appuie sur un vrai navigateur local via Puppeteer ; elle est donc mieux adaptée aux pages rendues en JS que les approches basées sur un simple fetch.

web-to-markdown peut-il passer les écrans de connexion ou de vérification ?

Parfois, avec --interactive. Le dépôt documente explicitement un mode où Chrome est affiché et mis en pause pour permettre à l’utilisateur d’effectuer les étapes humaines requises. C’est un avantage concret pour les pages protégées ou semi-protégées.

Quand ne faut-il pas utiliser la skill web-to-markdown ?

Ne l’utilisez pas si :

l’utilisateur n’a pas explicitement demandé web-to-markdown
un simple fetch de page suffit déjà à résoudre la tâche
vous avez besoin d’un scraping structuré sur de nombreux composants de page
vous cherchez une voie de conversion sans navigateur

La skill est spécialisée, et cette spécialisation est une force, pas une faiblesse.

Fonctionne-t-il avec n’importe quel navigateur ?

Le périmètre documenté couvre les navigateurs de la famille Chromium comme Chrome, Chromium, Brave ou Edge via puppeteer-core. Si l’auto-détection échoue, prévoyez de fournir le chemin manuellement.

Est-ce réservé aux articles ?

Non. Les articles sont le cas le plus naturel, mais la skill web-to-markdown peut aussi être utile pour des pages de documentation et d’autres pages riches en contenu, dès lors que le bon modèle de sortie est une « extraction du corps principal ». Elle est moins pertinente pour des tableaux de bord ou des applications très interactives.

Comment améliorer l’usage de la skill web-to-markdown

Donnez à web-to-markdown des consignes de sortie explicites

Une meilleure demande n’est pas seulement « convert this URL », mais plutôt :

print it
save it to ./tmp/page.md
save all results under ./exports/

Vous supprimez ainsi toute part d’interprétation et augmentez les chances que le premier essai corresponde à votre workflow.

N’utilisez le mode interactif que lorsque la page en a besoin

--interactive est précieux pour les écrans de consentement, les parcours de connexion et les invites de vérification, mais il est plus lent et moins automatisable. Pour des pages publiques classiques, évitez-le. Pour des pages bloquées, utilisez-le tôt plutôt que de réessayer à l’aveugle.

Testez très tôt la détection du navigateur

Si le premier essai n’arrive pas à lancer un navigateur, inutile de continuer à retoucher le prompt. Corrigez le contexte d’exécution :

vérifiez qu’un navigateur de la famille Chromium est bien installé
fournissez --chrome-path <path> si nécessaire

Pour beaucoup d’utilisateurs, c’est tout simplement le conseil d’installation web-to-markdown le plus important.

Choisissez des pages représentatives avant un déploiement à grande échelle

Avant de convertir des centaines d’URL, testez :

une page d’article simple
une page rendue en JS
une page bloquée par un écran de consentement ou de connexion

Vous saurez ainsi si la skill correspond à votre vrai mix de pages, et pas seulement à des cas idéaux.

Renforcez les prompts avec des contraintes propres à la page

Si vous savez qu’une page est délicate, dites-le :

use the skill web-to-markdown on this docs page; it renders client-side, save to ./docs/intro.md
use the skill web-to-markdown on this member page with interactive mode because I need to pass a verification screen first

Ce contexte supplémentaire améliore davantage la qualité d’exécution qu’un ajout de formulations génériques.

Validez le premier résultat Markdown, puis itérez

Après la première sortie, vérifiez :

le contenu principal a-t-il bien été capturé ?
la sortie contient-elle trop de navigation ou de boilerplate ?
la page n’a-t-elle été rendue que partiellement ?
le comportement du nom de fichier ou du dossier correspond-il à vos attentes ?

Relancez ensuite avec de meilleurs contrôles. Avec web-to-markdown, on obtient souvent de meilleurs résultats avec une relance ciblée qu’avec un long prompt spéculatif.

Connaître les principaux modes d’échec

Les modes d’échec les plus fréquents sont :

l’absence de phrase de déclenchement explicite, donc la skill ne doit pas s’exécuter
des problèmes de lancement du navigateur local
des pages qui nécessitent une interaction visible
des pages dont le « contenu principal » est ambigu pour Readability
des utilisateurs qui attendent un scraping de site complet plutôt qu’une conversion de page

Les identifier tôt aide à décider s’il faut continuer avec web-to-markdown ou passer à un autre outil.

Utilisez web-to-markdown pour le bon niveau d’exigence de sortie

Vous obtiendrez les meilleurs résultats si votre critère de réussite est :

un Markdown propre et lisible
le contenu principal plutôt que l’habillage de la page
une sortie portable pour des notes, des archives, de l’analyse ou un traitement IA en aval

Si votre critère de réussite est « conserver chaque détail de mise en page », cette skill n’est pas le bon outil. Aligner vos attentes sur sa conception est le moyen le plus rapide d’améliorer les résultats.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

kreuzberg

par kreuzberg-dev

La compétence kreuzberg vous aide à installer et utiliser Kreuzberg pour l’extraction de documents dans plus de 91 formats, dont les PDF, fichiers Office, images, HTML, e-mails et archives. Elle couvre les workflows Python, Node.js/TypeScript, Rust et CLI pour l’OCR, les tableaux, les métadonnées, le traitement par lots et des conseils pratiques d’analyse.

PDF Processing

Favoris 0GitHub 0

xlsx

par anthropics

Le skill xlsx aide les agents à lire, modifier, réparer, créer et convertir des fichiers .xlsx, .xlsm, .csv et .tsv quand le livrable attendu est un tableur. Il est particulièrement adapté aux mises à jour préservant les modèles, aux modifications de classeurs sans casser les formules, au nettoyage de tableaux désordonnés et aux workflows de tableur appuyés par des scripts du repo pour le packaging, la validation et le recalcul.

Spreadsheet Workflows

Favoris 0GitHub 105.1k

pdf

par anthropics

Le skill pdf accompagne les tâches de traitement de PDF : extraction de texte, fusion et scission, rendu de pages en images et workflows autour des formulaires PDF. Il est particulièrement utile pour vérifier les champs remplissables, extraire les métadonnées de formulaires et valider par script la mise en page de formulaires non remplissables.

PDF Processing

Favoris 0GitHub 105.1k

baoyu-youtube-transcript

par JimLiu

baoyu-youtube-transcript permet d’extraire les transcriptions YouTube, les sous-titres et les images de couverture à partir d’une URL ou d’un ID de vidéo. Il prend en charge le choix de la langue, la traduction, la sortie en markdown ou en SRT, le reformatage avec cache, ainsi qu’un basculement de l’API InnerTube vers yt-dlp pour récupérer les transcriptions de façon plus fiable.

Format Conversion

Favoris 0GitHub 13.2k

baoyu-url-to-markdown

par JimLiu

baoyu-url-to-markdown convertit des URL en direct en Markdown via le CLI embarqué baoyu-fetch, avec Chrome CDP, des adaptateurs par site et un mode de repli générique. Vérifiez les exigences d’exécution avec Bun, la configuration initiale de `EXTEND.md`, ainsi que l’usage pour X, YouTube, Hacker News et les pages rendues.

Format Conversion

Favoris 0GitHub 13.2k

pymatgen

par K-Dense-AI

pymatgen est une boîte à outils Python pour la science des matériaux, dédiée aux structures cristallines, aux diagrammes de phase, à la structure électronique et à la conversion de fichiers. Ce skill pymatgen aide à gérer des workflows scientifiques avec des données CIF, POSCAR, VASP et Materials Project.

Scientific

Favoris 0GitHub 0

minimax-xlsx

par MiniMax-AI

La skill minimax-xlsx aide à créer, lire, modifier, valider et mettre en forme des classeurs Excel avec un flux de travail centré sur Excel. Utilisez minimax-xlsx pour les workflows de feuilles de calcul lorsque vous avez besoin de fichiers structurés qui préservent les formules, les styles, la mise en page des feuilles et le comportement du classeur. Elle prend en charge les tâches .xlsx, .xlsm, .csv et .tsv, notamment l’analyse, la création de nouveaux classeurs, les modifications minimales, la réparation de formules et la validation. Le guide minimax-xlsx est conçu pour une remise de vrai classeur, pas pour de simples tableaux plats.

Spreadsheet Workflows

Favoris 0GitHub 0

baoyu-format-markdown

par JimLiu

baoyu-format-markdown met en forme du texte brut ou un Markdown désordonné en un Markdown plus propre et prêt à publier, tout en préservant le sens. Il corrige le frontmatter, les titres, les listes, les blocs de code, les citations et l’espacement CJK, ce qui en fait un bon choix pour la conversion de format sans réécrire le contenu.

Format Conversion

Favoris 0GitHub 13.2k

baoyu-danger-x-to-markdown

par JimLiu

baoyu-danger-x-to-markdown convertit des posts, fils et certains articles X en Markdown avec front matter YAML. Il s’appuie sur des scripts dans `scripts/` via `bun` ou `npx -y bun`, prend en charge l’accès par cookies et le flux de consentement, et convient mieux à des workflows reproductibles de conversion de format qu’à un prompt générique.

Format Conversion

Favoris 0GitHub 13.2k

baoyu-markdown-to-html

par JimLiu

baoyu-markdown-to-html convertit du Markdown en HTML mis en forme pour une publication de style WeChat. Il prend en charge les thèmes, la coloration du code, les formules mathématiques, PlantUML, les notes de bas de page, la gestion des images et, en option, les citations de liens, avec une exécution via bun ou `npx -y bun`.

Format Conversion

Favoris 0GitHub 13.2k

nutrient-document-processing

par affaan-m

Skill nutrient-document-processing pour le traitement de PDF et l’automatisation documentaire avec l’API Nutrient DWS. Convertissez, faites de l’OCR, extrayez, caviardez, signez, appliquez un filigrane et remplissez des fichiers comme des PDF, DOCX, XLSX, PPTX, HTML et des images.

PDF Processing

Favoris 0GitHub 156.2k

speech-to-text

par NoizAI

La skill speech-to-text transcrit les fichiers audio pris en charge en texte brut, avec des options pour les horodatages, les identifiants de locuteurs et la sortie JSON. Elle est conçue pour un usage pratique de la transcription speech-to-text dans des workflows reproductibles, notamment pour les interviews, réunions, podcasts, cours et tâches d’automatisation où la régularité de la transcription compte.

Workflow Automation

Favoris 0GitHub 498

transcribe-video

par rameerez

La skill transcribe-video transforme des fichiers vidéo ou audio en sorties .srt, .vtt et .txt avec AWS Transcribe. Utilisez-la pour les usages de transcribe-video quand vous avez besoin de sous-titres, d’une transcription consultable ou d’une version texte propre d’un contenu oral. Elle convient aussi aux workflows de conversion de format autour de transcribe-video.

Format Conversion

Favoris 0GitHub 23

markitdown

par K-Dense-AI

markitdown convertit des fichiers et des documents bureautiques en Markdown pour faciliter la lecture, le découpage en chunks, la recherche et les workflows LLM. Cette skill markitdown prend en charge les PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, les images avec OCR et la transcription audio, ce qui en fait un guide markitdown pratique pour la conversion de formats.

Format Conversion

Favoris 0GitHub 0

pdf

par openai

Utilisez la skill pdf pour les tâches de traitement de PDF où la mise en page, la pagination et le rendu comptent. Elle vous aide à lire, créer, modifier et relire des PDF avec un flux de travail centré sur le visuel : rendez les pages, inspectez le résultat, puis ajustez. Servez-vous-en quand vous avez besoin d’une installation pdf fiable, d’une utilisation de pdf bien cadrée et d’un guide pdf pratique pour garantir la précision des documents.

PDF Processing

Favoris 0GitHub 0

defuddle

par kepano

defuddle extrait un markdown propre à partir de pages web avec la CLI Defuddle, en supprimant les éléments parasites pour la recherche, la documentation et les articles. À utiliser pour les pages HTML standard, avec installation via npm, en évitant les URL se terminant par `.md`.

Web Research

Favoris 0GitHub 19.7k