defuddle

par kepano

defuddle extrait un markdown propre à partir de pages web avec la CLI Defuddle, en supprimant les éléments parasites pour la recherche, la documentation et les articles. À utiliser pour les pages HTML standard, avec installation via npm, en évitant les URL se terminant par `.md`.

Étoiles19.7k

Favoris0

Commentaires0

Ajouté5 avr. 2026

CatégorieWeb Research

Commande d’installation

npx skills add kepano/obsidian-skills --skill defuddle

Score éditorial

Cette skill obtient un score de 76/100, ce qui en fait une fiche solide pour l’annuaire : les agents disposent d’un déclencheur clair, d’un schéma de commande simple et d’une raison concrète de l’utiliser à la place d’un simple fetch web pour des pages web classiques. Les utilisateurs de l’annuaire peuvent prendre une décision d’installation crédible, tout en gardant à l’esprit qu’il s’agit davantage d’un wrapper léger autour d’une CLI externe que d’un workflow guidé en profondeur.

76/100

Points forts

Très bonne capacité de déclenchement : il est indiqué explicitement d’utiliser Defuddle lorsqu’un utilisateur fournit une URL web standard à lire ou à analyser, et non pour les URL se terminant par `.md`.
Clarté opérationnelle : la skill fournit des indications d’installation ainsi que des commandes concrètes pour l’extraction en markdown, la sortie vers fichier et la récupération de métadonnées.
Bon levier pour les agents : elle explique l’intérêt pratique de supprimer la navigation, les publicités et les éléments superflus afin de réduire l’usage de tokens par rapport à une récupération brute de la page.

Points de vigilance

Guidage limité sur les cas limites : au-delà de l’exclusion des URL en `.md`, la skill n’explique pas comment gérer les échecs, les pages non prises en charge, les murs d’authentification ou les sites dynamiques.
Documentation d’appui minimale : il n’y a ni scripts, ni références, ni exemples montrant les sorties attendues ; l’adoption repose donc essentiellement sur le seul fichier `SKILL.md`.

Cli Npm Markdown Websites Documentation Blog Automation

Vue d’ensemble

Vue d’ensemble de la skill defuddle

Ce que fait la skill defuddle

La skill defuddle transforme une page web classique en un markdown propre et lisible, avec bien moins de bruit qu’un fetch brut. Elle est conçue pour les pages comme les articles, la documentation, les guides, les billets de blog et autres pages HTML où les menus, publicités, barres latérales et éléments de navigation gaspillent des tokens et parasitent l’analyse.

defuddle pour la recherche web : dans quels cas l’utiliser

Utilisez defuddle for Web Research lorsque votre objectif réel est de lire, résumer, comparer, citer ou analyser le contenu d’une page, et non d’inspecter le chrome du site ou le HTML brut. Sa valeur principale est de fournir une entrée plus propre pour le raisonnement en aval. Si un utilisateur vous donne l’URL d’une page standard et veut récupérer son contenu, l’usage de defuddle constitue généralement un meilleur point de départ qu’un fetch web générique.

Limites principales et cas où il vaut mieux s’en passer

La limite la plus importante est simple : n’utilisez pas defuddle sur des URL se terminant par .md. Ces pages sont déjà en markdown ; un fetch direct est donc plus propre et évite une transformation inutile. L’outil est aussi peu adapté si vous avez besoin de la structure exacte de la page, d’éléments interactifs, de scripts ou d’une fidélité complète au DOM.

Pourquoi les utilisateurs choisissent defuddle

Le vrai différenciateur n’est pas « peut-il récupérer une page ? », mais plutôt « peut-il me donner rapidement le texte principal dans un format économe en tokens ? ». C’est ce qui rend la skill defuddle intéressante pour les pipelines de recherche, la capture de notes, le résumé d’articles et la lecture de documentation, là où un markdown plus propre améliore concrètement la qualité du résultat.

Comment utiliser la skill defuddle

Installation de defuddle et commande de base

Pour l’installation de defuddle, le dépôt renvoie vers la Defuddle CLI elle-même :

npm install -g defuddle

Commande principale :

defuddle parse <url> --md

Utilisez --md de façon systématique. C’est le format recommandé pour la plupart des workflows de recherche et d’analyse, car il supprime le bruit visuel tout en conservant une structure lisible.

Les entrées dont la skill defuddle a besoin

La skill defuddle a besoin d’une URL de page et, idéalement, d’une intention claire. Une bonne entrée ressemble à ceci :

l’URL exacte
ce que vous voulez en tirer
si vous souhaitez le markdown complet, une sortie enregistrée, ou seulement des métadonnées

Exemples :

« Lis cet article et résume l’argument principal : <url> »
« Extrait un markdown propre de cette page de docs et enregistre-le dans content.md : <url> »
« Récupère uniquement le titre et la description de la page pour <url> »

Commandes utiles :

defuddle parse <url> --md -o content.md
defuddle parse <url> -p title
defuddle parse <url> -p description
defuddle parse <url> -p domain

Transformer un objectif flou en prompt defuddle efficace

Requête faible : « Regarde cette URL. »

Meilleur prompt de guide defuddle :

« Utilise defuddle sur <url> avec une sortie markdown. Ignore la navigation du site. Ensuite, résume les points clés en 5 puces et cite la section la plus importante. »
« Utilise defuddle pour cette page de documentation : <url>. Extrait le markdown, identifie les étapes d’installation, les prérequis et les points de vigilance, puis réécris le tout sous forme de checklist. »
« Commence par extraire uniquement les métadonnées de <url>. Si le titre et la description correspondent bien au sujet, extrait ensuite le markdown complet. »

Cette approche fonctionne mieux, car elle indique à l’agent à la fois comment appeler defuddle et quoi faire ensuite du contenu nettoyé.

Workflow recommandé et fichiers à lire en priorité

Cette skill est volontairement compacte. Commencez par lire skills/defuddle/SKILL.md, car ce fichier contient l’ensemble du workflow exploitable : installation, commande de parsing, formats de sortie et propriétés de métadonnées. En pratique, suivez cet enchaînement :

Vérifiez si l’URL pointe vers une page HTML classique ou un fichier .md.
Exécutez defuddle parse <url> --md.
Si vous avez besoin d’un artefact réutilisable, ajoutez -o content.md.
Si vous n’avez besoin que d’un routage ou d’une validation, interrogez les métadonnées avec -p.
Injectez ensuite le markdown nettoyé dans votre étape de résumé, d’extraction ou de prise de notes.

FAQ sur la skill defuddle

defuddle est-il préférable à un prompt classique avec fetch ?

Oui, dans la plupart des cas pour les pages de type article. Un fetch classique inclut souvent les en-têtes, pieds de page, bandeaux cookies et éléments de navigation. L’usage de defuddle améliore le rapport signal/bruit avant même le début de l’analyse, ce qui peut réduire le coût en tokens et limiter les erreurs de résumé causées par des éléments de page non pertinents.

Quand ne faut-il pas utiliser la skill defuddle ?

Évitez defuddle pour les URL en .md, les fichiers bruts ou les cas où vous avez besoin du HTML exact, du comportement des médias intégrés, des scripts de page ou de détails de mise en page. C’est un outil d’extraction de contenu, pas un outil d’automatisation navigateur ni d’inspection du DOM.

La skill defuddle est-elle adaptée aux débutants ?

Oui. La surface de commande est très réduite : une installation unique, puis defuddle parse <url> --md. Cela rend la skill defuddle facile à adopter, même si vous cherchez simplement à obtenir un texte source plus propre pour la recherche ou la prise de notes.

Quels types de sortie defuddle peut-il renvoyer ?

Vous pouvez obtenir du markdown avec --md, du JSON avec --json, du HTML par défaut, ou des métadonnées spécifiques avec -p <name>. Pour la plupart des tâches de lecture et de recherche, le markdown est le meilleur choix par défaut ; le mode métadonnées est utile pour une validation rapide et le routage.

Comment améliorer l’usage de la skill defuddle

Donner à defuddle une cible de page précise

Le moyen le plus simple d’améliorer les résultats de defuddle est de fournir la page de contenu canonique, et non une page d’accueil, une page de recherche ou une page de listing. Les URL d’articles et les pages de documentation uniques produisent un markdown plus propre que les hubs remplis de navigation et de liens répétés.

Demander la tâche en aval dans la même requête

La skill defuddle est plus performante quand l’extraction est associée à une étape suivante bien définie. Au lieu de dire seulement « parse cette page », demandez par exemple :

un résumé
les affirmations clés
les étapes d’installation
les FAQ
des citations
des points de comparaison

Cela réduit l’ambiguïté au moment du passage de relais et aide l’agent à structurer la sortie en fonction de votre objectif réel.

Utiliser le mode métadonnées avant l’extraction complète en cas de doute

Si l’URL peut rediriger, être de faible qualité ou ne pas être la bonne page, commencez par :

defuddle parse <url> -p title
defuddle parse <url> -p description
defuddle parse <url> -p domain

C’est une tactique simple mais efficace de guide defuddle : validez d’abord la pertinence, puis consacrez l’effort à l’extraction complète en markdown.

Modes d’échec courants et façons d’itérer

Si la sortie paraît trop pauvre ou bizarrement structurée, le problème vient souvent de la page source plutôt que de la CLI. Essayez une URL plus précise, passez d’une page de catégorie à une page d’article, ou enregistrez le markdown pour l’inspecter manuellement. Si le premier résultat est trop large, relancez defuddle for Web Research avec une consigne plus ciblée, par exemple « extrais uniquement les étapes d’installation » ou « cite uniquement les sections sur l’authentification ».

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

use-my-browser

par xixu-me

use-my-browser est une skill de stratégie d’automatisation du navigateur qui aide à choisir la bonne couche web : outils web publics, Chrome en direct, `raw fetch` ou Playwright pour les tâches connectées, dynamiques et pilotées via DevTools.

Browser Automation

Favoris 0GitHub 6

web-access

par eze-is

web-access est une skill conçue pour le travail sur le web en direct. Elle combine la recherche, la récupération de pages, l’inspection du HTML brut et l’automatisation du navigateur via Chrome CDP pour les sites dynamiques, protégés par connexion et interactifs.

Browser Automation

Favoris 0GitHub 2.6k

perplexity

par softaworks

perplexity est une skill dédiée à la recherche web avec Perplexity dans softaworks/agent-toolkit. Elle aide à choisir entre Search, Ask et `/research`, à commencer avec des limites de résultats basses, et à éviter la recherche web pour la documentation, les questions sur le workspace ou les URL déjà connues.

Web Research

Favoris 0GitHub 1.3k

producthunt

par ReScienceLab

producthunt est un skill Product Hunt qui permet de récupérer des posts, topics, utilisateurs, collections et commentaires via l’API GraphQL officielle. Installez-le depuis ReScienceLab/opc-skills, définissez `PRODUCTHUNT_ACCESS_TOKEN`, puis exécutez des scripts comme `get_posts.py` et `get_post.py` pour la recherche de lancement et le suivi des lancements de produit.

Product Launches

Favoris 0GitHub 654

firecrawl

par firecrawl

Skill firecrawl pour installer, authentifier et utiliser le CLI officiel Firecrawl pour le scraping web, la recherche, le crawl et l’interaction avec les pages. Découvrez la configuration, `firecrawl --status`, la connexion, l’écriture sécurisée des fichiers dans `.firecrawl/` et des usages concrets appuyés par le repo.

Web Scraping

Favoris 0GitHub 234

firecrawl-search

par firecrawl

firecrawl-search est une skill de recherche web conçue pour trouver des sources, effectuer des recherches structurées et, si besoin, extraire le contenu complet de pages au format JSON avec Firecrawl CLI.

Web Research

Favoris 0GitHub 234

tavily-search

par tavily-ai

tavily-search est une skill de recherche web qui s’appuie sur la CLI Tavily pour fournir aux agents IA des résultats structurés, avec extraits, signaux de pertinence et métadonnées. Elle prend en charge les filtres par domaine, les plages temporelles et une profondeur de recherche avancée pour la découverte de sources récentes et les workflows de recherche web guidée.

Web Research

Favoris 0GitHub 184

requesthunt

par ReScienceLab

requesthunt vous aide à collecter et analyser de vrais retours utilisateurs depuis Reddit, X et GitHub pour étudier la demande et mener une analyse concurrentielle. Définissez une `REQUESTHUNT_API_KEY`, exécutez les scripts Python, scrapez des sujets, recherchez des demandes, puis transformez points de friction, plaintes et demandes de fonctionnalités en rapports étayés par des preuves.

Competitive Analysis

Favoris 0GitHub 0

firecrawl-agent

par firecrawl

firecrawl-agent aide à extraire du JSON structuré depuis des sites web complexes à plusieurs pages. Découvrez dans quels cas l’utiliser, comment lancer l’agent Firecrawl CLI, ajouter des schémas, définir des URL de départ et enregistrer les résultats pour l’extraction de tarifs, de catalogues produits et de données de type annuaire.

Web Scraping

Favoris 0GitHub 234

firecrawl-map

par firecrawl

firecrawl-map aide les agents à découvrir et lister les URL d’un site, avec des options de filtrage par recherche, de limitation, de sortie JSON, de modes sitemap et de contrôle des sous-domaines avant un scraping ou un crawl plus approfondi.

Web Scraping

Favoris 0GitHub 234

domain-hunter

par ReScienceLab

domain-hunter aide les agents à trouver des domaines disponibles, vérifier leur disponibilité, comparer les tarifs des registrars, évaluer les compromis entre TLD et choisir où acheter avec moins d'incertitude.

Web Research

Favoris 0GitHub 0

fact-checker

par Shubhamsaboo

fact-checker est une skill pilotée par prompt pour vérifier des affirmations de façon structurée, évaluer les sources et produire des verdicts clairs avec niveau de confiance et contexte. Installez-la depuis Shubhamsaboo/awesome-llm-apps pour vérifier des déclarations, rumeurs, statistiques et affirmations trompeuses avec un workflow reproductible.

Fact Checking

Favoris 0GitHub 104.2k

deep-research

par Shubhamsaboo

deep-research est une skill d’agent légère pour mener des recherches web structurées. Elle aide à cadrer le sujet, recouper plusieurs sources, évaluer leur crédibilité et synthétiser des résultats sourcés à partir d’un workflow unique dans `SKILL.md`.

Web Research

Favoris 0GitHub 104.2k

research

par MarsWang42

Workflow structuré de recherche approfondie pour les sujets complexes. Découvrez comment fonctionne la skill research, ce dont elle a besoin et comment utiliser efficacement son flux de planification puis d’exécution.

Academic Research

Favoris 0GitHub 690

firecrawl-scrape

par firecrawl

firecrawl-scrape permet d’extraire un contenu propre et adapté aux LLM à partir d’URL connues, y compris sur des pages rendues en JS. Utilisez-le pour récupérer du markdown, des liens ou des réponses ciblées sur une page avec Firecrawl CLI ou `npx firecrawl`.

Web Scraping

Favoris 0GitHub 234

multi-search-engine

par openclaw

multi-search-engine est une compétence de recherche web qui prend en charge 17 moteurs de recherche, des opérateurs avancés, des filtres temporels, des options axées sur la confidentialité et des requêtes WolframAlpha. Elle aide les agents à construire et exécuter de meilleures URL de recherche sans clés API.

Web Research

Favoris 0GitHub 3.8k