kreuzberg

par kreuzberg-dev

La compétence kreuzberg vous aide à installer et utiliser Kreuzberg pour l’extraction de documents dans plus de 91 formats, dont les PDF, fichiers Office, images, HTML, e-mails et archives. Elle couvre les workflows Python, Node.js/TypeScript, Rust et CLI pour l’OCR, les tableaux, les métadonnées, le traitement par lots et des conseils pratiques d’analyse.

Étoiles0

Favoris0

Commentaires0

Ajouté9 mai 2026

CatégoriePDF Processing

Commande d’installation

npx skills add kreuzberg-dev/kreuzberg --skill kreuzberg

Score éditorial

Cette compétence obtient 91/100, ce qui en fait une très bonne candidate pour les utilisateurs d’un annuaire : elle déclenche facilement, couvre un vrai flux de travail de bout en bout et fournit suffisamment de détails opérationnels pour qu’un agent puisse installer et utiliser l’outil avec peu d’hésitation. Le dépôt explique clairement quand utiliser Kreuzberg, comment l’installer dans plusieurs environnements d’exécution et où trouver des indications plus détaillées sur l’API, la CLI et la référence.

91/100

Points forts

Déclencheur explicite et actionnable : extraire du texte, des tableaux, des métadonnées et des images depuis plus de 91 formats, en Python, Node.js/TypeScript, Rust et CLI.
Couverture opérationnelle solide : installation, extraction synchrone/asynchrone, configuration, traitement par lots, OCR, gestion des erreurs et plugins sont tous mentionnés dans la description et les références.
Bonne progression de lecture : plusieurs fichiers de référence couvrent les API par langage, les commandes CLI, la configuration, les formats pris en charge et les fonctions avancées.

Points de vigilance

Les chemins d’installation sont répartis sur de nombreuses références ; pour un premier usage, il faut parfois aller au-delà de SKILL.md afin de choisir le bon runtime et le bon ensemble de fonctionnalités.
Aucune commande d’installation n’apparaît dans SKILL.md lui-même ; les utilisateurs qui s’en tiennent au fichier de compétence devront peut-être consulter les références pour obtenir les détails exacts de configuration et les indicateurs de fonctionnalités.

Python Node.js TypeScript Rust Cli API MCP Documents

Vue d’ensemble

Aperçu du skill kreuzberg

Ce que fait kreuzberg

Le skill kreuzberg vous aide à utiliser Kreuzberg pour extraire du texte, des tableaux, des métadonnées, des images et du contenu enrichi par OCR à partir de plus de 91 formats de documents, avec une prise en charge native de Python, Node.js/TypeScript, Rust et d’une CLI. Il convient surtout aux personnes qui ont besoin d’un code fiable pour traiter des documents, et pas seulement d’un prompt ponctuel qui devine comment parser un fichier.

Qui devrait l’installer

Installez kreuzberg si votre tâche consiste à transformer des PDF, des fichiers Office, des images, du HTML, des e-mails, des archives ou des fichiers académiques en sortie structurée, surtout lorsque la qualité des scans, les traitements par lots ou l’OCR selon la langue comptent. C’est un très bon choix pour les pipelines d’ingestion, la recherche documentaire, la préparation au RAG et les outils d’extraction.

En quoi il se distingue

La valeur principale du skill kreuzberg tient à son orientation implémentation : il couvre les chemins d’installation, les modes d’extraction, la configuration, le traitement par lots, la gestion des erreurs et les plugins sur plusieurs runtimes. Cela le rend bien plus utile qu’un prompt générique du type « analyse ce document » quand vous avez besoin d’un code réellement exécutable.

Comment utiliser le skill kreuzberg

Installer et vérifier le runtime cible

Pour une installation rapide de kreuzberg, partez du runtime que vous allez vraiment livrer :

pip install kreuzberg
npm install @kreuzberg/node
cargo install kreuzberg-cli

Puis consultez d’abord la référence API correspondant à votre runtime : references/python-api.md, references/nodejs-api.md ou references/rust-api.md. Si vous utilisez la CLI, commencez par references/cli-reference.md. Le skill est bien plus efficace quand vous choisissez d’abord un seul runtime et un seul type de document au lieu de tout demander d’un coup.

Transformer une demande approximative en prompt exploitable

Un bon prompt pour l’utilisation de kreuzberg précise le type de fichier, l’objectif d’extraction, le runtime et les contraintes. Par exemple : « Utilise kreuzberg en Python pour extraire le texte, les tableaux et l’OCR de PDF scannés de factures, conserve les retours à la ligne et renvoie du JSON adapté à un parsing en aval. » C’est mieux que « extrais les données des PDF », parce que cela indique au skill s’il doit privilégier les tableaux, l’OCR ou un texte propre.

Lire ces fichiers en premier

Pour un usage pratique du guide kreuzberg, lisez les fichiers dans cet ordre : SKILL.md, references/configuration.md, le fichier d’API du runtime, puis references/supported-formats.md. Ouvrez ensuite references/advanced-features.md si vous avez besoin de plugins, de réglages OCR ou de comportement par lots. Cet ordre fait ressortir les décisions qui influencent le plus l’adoption : forme de l’installation, entrées prises en charge et valeurs par défaut de configuration.

Adopter le workflow adapté à votre cas

Si vous traitez un seul fichier, commencez par un simple appel extract_file ou extract via la CLI, puis ajoutez des indications MIME ou de la configuration seulement si la sortie est incorrecte. Si vous traitez de nombreux fichiers, examinez tôt les helpers de batch et la gestion des erreurs. Pour kreuzberg pour le traitement de PDF, les réglages OCR et le format de sortie comptent généralement plus que l’appel d’extraction de base, donc validez ces points avant de passer à l’échelle.

FAQ du skill kreuzberg

kreuzberg sert-il uniquement aux PDF ?

Non. Le PDF est un cas d’usage majeur, mais le skill couvre aussi les documents Office, les images, le HTML, les e-mails, les archives et les formats académiques. Si votre flux de travail implique des entrées mixtes, kreuzberg est un meilleur choix qu’un outil limité aux PDF.

Faut-il connaître la bibliothèque avant d’utiliser le skill ?

Non, mais vous devez connaître votre runtime cible et l’objectif de sortie. Le skill kreuzberg reste accessible si vous pouvez décrire le type de document, la nécessité éventuelle de l’OCR, et si vous voulez du texte brut, du markdown, du JSON ou des métadonnées structurées.

Quand ne faut-il pas utiliser kreuzberg ?

Évitez kreuzberg si votre besoin relève surtout de la synthèse sémantique, et non de l’extraction, ou si vous voulez seulement un prompt manuel rapide pour un document unique, sans produire de code. Il peut aussi être excessif si votre pipeline n’a pas besoin d’OCR, de tableaux ou d’une prise en charge multi-format.

En quoi est-il différent d’un prompt classique ?

Un prompt classique peut décrire la tâche, mais l’utilisation de kreuzberg consiste à obtenir le bon install, le bon appel API, la bonne configuration et la bonne gestion des échecs pour l’extraction documentaire. C’est donc plus adapté lorsque la qualité de sortie dépend de la configuration du runtime, du choix du backend OCR ou des détails du traitement par lots.

Comment améliorer le skill kreuzberg

Donner d’emblée la forme de l’entrée

Les meilleurs résultats avec le skill kreuzberg viennent de prompts qui précisent le type de fichier, la qualité de la source et la sortie attendue. Ajoutez des détails comme « PDF scanné », « PDF natif », « tableaux de facture », « pièces jointes d’e-mail » ou « conserver les titres ». Ces éléments changent le choix du comportement par défaut entre OCR, découpage en segments ou extraction simple.

Indiquer le mode d’échec à éviter

Si votre première sortie est mauvaise, dites au skill ce qui n’a pas fonctionné : tableaux manquants, retours à la ligne cassés, OCR trop lent, mauvaise détection de langue ou images trop bruitées. Pour kreuzberg pour le traitement de PDF, cela aide à savoir s’il faut ajuster le backend OCR, la configuration ou le format de sortie, plutôt que de réécrire tout le workflow.

Itérer avec des exemples concrets

Une boucle d’amélioration plus efficace consiste à coller la description d’un fichier qui échoue et un résultat cible, par exemple : « Cette facture scannée doit produire le numéro de facture, le total, le fournisseur et les lignes d’articles en JSON. » C’est bien plus utile que de demander de « rendre ça plus précis », parce que le skill peut adapter ses recommandations d’extraction au schéma réel et au type de document.

Commencer serré, puis élargir

Commencez avec un seul runtime, un seul format et un seul mode d’extraction. Une fois que l’installation de kreuzberg et le chemin d’extraction de base fonctionnent, ajoutez le traitement par lots, les plugins ou la configuration avancée. Cela réduit la confusion et facilite l’identification du vrai problème : installation, OCR ou parsing en aval.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

pdf

par anthropics

Le skill pdf accompagne les tâches de traitement de PDF : extraction de texte, fusion et scission, rendu de pages en images et workflows autour des formulaires PDF. Il est particulièrement utile pour vérifier les champs remplissables, extraire les métadonnées de formulaires et valider par script la mise en page de formulaires non remplissables.

PDF Processing

Favoris 0GitHub 105.1k

azure-ai-document-intelligence-ts

par microsoft

azure-ai-document-intelligence-ts est un skill TypeScript pour extraire du texte, des tableaux, des champs clé-valeur et des données structurées avec Azure Document Intelligence. Utilisez-le pour l’OCR Extraction de factures, reçus, pièces d’identité et formulaires, ou lorsque vous avez besoin de workflows avec modèles préconfigurés et personnalisés dans Node.js avec l’authentification Azure REST SDK.

OCR Extraction

Favoris 0GitHub 2.3k

azure-ai-contentunderstanding-py

par microsoft

azure-ai-contentunderstanding-py est le skill Python pour Azure AI Content Understanding. Il extrait du contenu structuré à partir de documents, d’images, d’audio et de vidéos pour les workflows RAG et l’automatisation. Utilisez-le lorsque vous avez besoin d’une extraction multimodale fiable, de l’authentification Azure et d’une sortie répétable, prête pour les pipelines.

RAG Workflows

Favoris 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

par microsoft

azure-ai-document-intelligence-dotnet aide les développeurs .NET à installer et utiliser Azure AI Document Intelligence pour extraire du texte, des tableaux, des paires clé-valeur et des champs structurés à partir de factures, reçus, pièces d’identité et documents personnalisés. Le contenu fournit des indications pratiques sur la configuration, l’authentification et l’extraction OCR afin de fiabiliser l’analyse de documents.

OCR Extraction

Favoris 0GitHub 2.2k

nutrient-document-processing

par PSPDFKit-labs

nutrient-document-processing est un skill de workflow pour le traitement de PDF avec Nutrient DWS. Il aide à installer, comprendre et utiliser des workflows documentaires reproductibles pour convertir, fusionner, fractionner, faire de l’OCR, extraire, rédiger, signer, optimiser et produire des sorties conformes comme PDF/A ou PDF/UA.

PDF Processing

Favoris 0GitHub 0

visa-doc-translate

par affaan-m

visa-doc-translate traduit en anglais les images de documents de demande de visa et génère un PDF bilingue avec la page originale et sa traduction. L’outil est conçu pour les dossiers de visa structurés, avec repli OCR, gestion de la rotation et préservation des noms, dates et montants.

Translation

Favoris 0GitHub 156.3k

nutrient-document-processing

par affaan-m

Skill nutrient-document-processing pour le traitement de PDF et l’automatisation documentaire avec l’API Nutrient DWS. Convertissez, faites de l’OCR, extrayez, caviardez, signez, appliquez un filigrane et remplissez des fichiers comme des PDF, DOCX, XLSX, PPTX, HTML et des images.

PDF Processing

Favoris 0GitHub 156.2k

hv-analysis

par KKKKhazix

hv-analysis est une skill de recherche horizontale-verticale pour transformer un produit, une entreprise, un concept, une technologie ou une personne en rapport d’analyse structuré. Utilisez la skill hv-analysis pour une recherche approfondie, une comparaison concurrentielle et un rendu prêt à être utilisé dans un rapport, surtout si vous avez besoin de hv-analysis pour l’analyse de données ou d’un workflow PDF soigné.

Data Analysis

Favoris 0GitHub 9k

azure-ai-formrecognizer-java

par microsoft

Le skill azure-ai-formrecognizer-java aide les développeurs Java à utiliser Azure AI Document Intelligence pour l’extraction OCR, les tableaux, les paires clé-valeur, les factures, les reçus, les pièces d’identité et les modèles de documents personnalisés. Il est aligné sur le SDK actuel `com.azure:azure-ai-documentintelligence` et s’avère utile lorsque vous avez besoin d’une configuration Java concrète, de conseils sur l’API et d’une analyse documentaire reproductible.

OCR Extraction

Favoris 0GitHub 2.2k

markitdown

par K-Dense-AI

markitdown convertit des fichiers et des documents bureautiques en Markdown pour faciliter la lecture, le découpage en chunks, la recherche et les workflows LLM. Cette skill markitdown prend en charge les PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, les images avec OCR et la transcription audio, ce qui en fait un guide markitdown pratique pour la conversion de formats.

Format Conversion

Favoris 0GitHub 0

analyzing-malicious-pdf-with-peepdf

par mukul975

analyzing-malicious-pdf-with-peepdf est une compétence d’analyse statique de malwares pour les PDF suspects. Utilisez peepdf, pdfid et pdf-parser pour trier les pièces jointes de phishing, inspecter les objets, extraire du JavaScript ou du shellcode embarqué, et examiner en toute sécurité les flux suspects sans exécution.

Malware Analysis

Favoris 0GitHub 0

analyzing-pdf-malware-with-pdfid

par mukul975

analyzing-pdf-malware-with-pdfid est une compétence de triage des malwares PDF pour détecter le JavaScript embarqué, les marqueurs d’exploitation, les flux d’objets, les pièces jointes et les actions suspectes avant d’ouvrir un fichier. Elle prend en charge l’analyse statique pour l’investigation de PDF malveillants, la réponse à incident et les workflows de Security Audit liés à analyzing-pdf-malware-with-pdfid.

Security Audit

Favoris 0GitHub 0

pdf

par openai

Utilisez la skill pdf pour les tâches de traitement de PDF où la mise en page, la pagination et le rendu comptent. Elle vous aide à lire, créer, modifier et relire des PDF avec un flux de travail centré sur le visuel : rendez les pages, inspectez le résultat, puis ajustez. Servez-vous-en quand vous avez besoin d’une installation pdf fiable, d’une utilisation de pdf bien cadrée et d’un guide pdf pratique pour garantir la précision des documents.

PDF Processing

Favoris 0GitHub 0

pdf

par K-Dense-AI

Le skill pdf est un guide pratique pour le traitement PDF quand vous devez lire, extraire, transformer ou créer des fichiers PDF dans un workflow prêt à être déployé. Il couvre l’extraction de texte, la fusion, le découpage, la rotation, le remplissage de formulaires, le chiffrement, l’extraction d’images et l’OCR pour les PDF numérisés. Utilisez-le quand vous avez besoin d’un guide pdf reproductible plutôt que d’un prompt ponctuel.

PDF Processing

Favoris 0GitHub 0

Resume Formatter

par Paramchoudhary

Resume Formatter aide à transformer des CV brouillons en documents clairs et compatibles ATS, avec une hiérarchie lisible, des espacements équilibrés et une structure professionnelle. Il est utile pour la rédaction de CV, les candidatures et les refontes qui doivent rester faciles à lire à l’écran comme sur papier.

Resume Writing

Favoris 0GitHub 443

minimax-pdf

par MiniMax-AI

La compétence minimax-pdf vous aide à créer, remplir ou reformater des PDF soignés lorsque la qualité visuelle et l’identité du document comptent. Utilisez-la pour des workflows CREATE, FILL ou REFORMAT, avec un système de conception basé sur les tokens qui transforme une entrée brute en sortie prête pour l’impression. Ce guide couvre l’installation de minimax-pdf, son utilisation et le choix du bon routage pour obtenir de meilleurs résultats.

PDF Processing

Favoris 0GitHub 0