kreuzberg

por kreuzberg-dev

La skill de kreuzberg te ayuda a instalar y usar Kreuzberg para la extracción de documentos en más de 91 formatos, incluidos PDF, archivos de Office, imágenes, HTML, correo electrónico y archivos comprimidos. Cubre flujos de trabajo en Python, Node.js/TypeScript, Rust y CLI para OCR, tablas, metadatos, procesamiento por lotes y guía práctica de análisis y extracción.

Estrellas0

Favoritos0

Comentarios0

Agregado9 may 2026

CategoríaPDF Processing

Comando de instalación

npx skills add kreuzberg-dev/kreuzberg --skill kreuzberg

Puntuación editorial

Esta skill obtiene 91/100, así que es una candidata sólida para el directorio: se activa con facilidad, cubre un flujo de trabajo real y amplio, y aporta suficiente detalle operativo para que un agente pueda instalarla y usarla con muy poca incertidumbre. El repositorio explica con claridad cuándo conviene usar Kreuzberg, cómo instalarlo en varios entornos y dónde encontrar documentación más profunda de la API, la CLI y las referencias.

91/100

Puntos fuertes

Disparador explícito y accionable: extraer texto, tablas, metadatos e imágenes de más de 91 formatos en Python, Node.js/TypeScript, Rust y CLI.
Amplia cobertura operativa: en la descripción y las referencias se detallan instalación, extracción síncrona/asíncrona, configuración, procesamiento por lotes, OCR, manejo de errores y plugins.
Buena divulgación progresiva: varios archivos de referencia ofrecen APIs por lenguaje, comandos de CLI, configuración, formatos compatibles y funciones avanzadas.

Puntos a tener en cuenta

Las rutas de instalación están repartidas entre muchas referencias, así que quienes lo usen por primera vez quizá tengan que ir más allá de SKILL.md para elegir el runtime y el conjunto de funciones adecuados.
SKILL.md no incluye un comando de instalación; si alguien depende solo del archivo de la skill, tendrá que consultar las referencias para ver los detalles exactos de configuración y las banderas de funciones.

Python Node.js TypeScript Rust Cli API MCP Documents

Resumen

Visión general de la skill kreuzberg

Qué hace kreuzberg

La kreuzberg skill te ayuda a usar Kreuzberg para extraer texto, tablas, metadatos, imágenes y contenido respaldado por OCR de más de 91 formatos de documento, con compatibilidad nativa para Python, Node.js/TypeScript, Rust y una CLI. Es ideal para quienes necesitan código fiable de procesamiento documental, no solo un prompt puntual que intente adivinar el parsing.

Quién debería instalarla

Instala kreuzberg si tu tarea es convertir PDFs, archivos de Office, imágenes, HTML, correo electrónico, archivos comprimidos o documentos académicos en salida estructurada, especialmente cuando importan la calidad del escaneo, las ejecuciones por lotes o el OCR específico por idioma. Encaja muy bien en pipelines de ingesta, búsqueda documental, preparación para RAG y tooling de extracción.

Por qué es diferente

El valor principal de la kreuzberg skill es que está orientada a la implementación: cubre rutas de instalación, modos de extracción, configuración, procesamiento por lotes, manejo de errores y plugins en varios runtimes. Eso la hace mucho más útil que un prompt genérico de “analiza este documento” cuando necesitas código que realmente puedas ejecutar.

Cómo usar la skill kreuzberg

Instala y confirma el runtime de destino

Para una kreuzberg install rápida, parte del runtime que de verdad vas a desplegar:

pip install kreuzberg
npm install @kreuzberg/node
cargo install kreuzberg-cli

Después, lee primero la referencia de API que corresponda: references/python-api.md, references/nodejs-api.md o references/rust-api.md. Si vas a usar la CLI, empieza por references/cli-reference.md. La skill funciona mejor cuando eliges primero un runtime y un tipo de documento, en lugar de pedirlo todo a la vez.

Convierte una petición vaga en un prompt útil

Un buen prompt de kreuzberg usage nombra el tipo de archivo, el objetivo de extracción, el runtime y las restricciones. Por ejemplo: “Usa kreuzberg en Python para extraer texto de facturas, tablas y OCR de PDFs escaneados, conserva los saltos de línea y devuelve JSON apto para parsing posterior”. Eso es mejor que “extrae datos de PDFs”, porque le indica a la skill si debe optimizar tablas, OCR o texto limpio.

Lee primero estos archivos

Para trabajar de forma práctica con la kreuzberg guide, lee en este orden: SKILL.md, references/configuration.md, el archivo de API del runtime y references/supported-formats.md. Después abre references/advanced-features.md si necesitas plugins, ajuste de OCR o comportamiento por lotes. Ese orden deja a la vista las decisiones que más influyen en la adopción: forma de instalación, entradas compatibles y valores predeterminados de configuración.

Usa el flujo que encaje con tu trabajo

Si vas a procesar un solo archivo, empieza con una llamada simple extract_file o con extract en la CLI, y añade pistas de MIME o configuración solo si la salida es incorrecta. Si vas a procesar muchos archivos, revisa pronto las ayudas para batch y el manejo de errores. Para kreuzberg for PDF Processing, los ajustes de OCR y el formato de salida suelen importar más que la llamada base de extracción, así que valida eso antes de escalar.

Preguntas frecuentes sobre la skill kreuzberg

¿kreuzberg es solo para PDFs?

No. El PDF es un caso de uso principal, pero la skill también cubre documentos de Office, imágenes, HTML, correo, archivos comprimidos y formatos académicos. Si tu carga de trabajo combina varios formatos, kreuzberg encaja mejor que una herramienta solo para PDF.

¿Necesito conocer la biblioteca antes de usar la skill?

No, pero sí necesitas saber cuál es tu runtime de destino y cuál es tu objetivo de salida. La kreuzberg skill es fácil de usar si puedes describir el tipo de documento, si hace falta OCR y si quieres texto plano, markdown, JSON o metadatos estructurados.

¿Cuándo no debería usar kreuzberg?

Evita kreuzberg si tu tarea es principalmente de resumen semántico y no de extracción, o si solo necesitas un prompt manual rápido para un único documento sin generar código. También puede ser excesivo si tu pipeline no necesita OCR, tablas ni compatibilidad con varios formatos.

¿En qué se diferencia de un prompt normal?

Un prompt normal puede describir la tarea, pero kreuzberg usage se centra en obtener la instalación correcta, la llamada a la API adecuada, la configuración y el manejo de fallos para la extracción de documentos. Eso la hace mejor cuando la calidad de salida depende de la configuración del runtime, de la elección del backend OCR o de detalles del procesamiento por lotes.

Cómo mejorar la skill kreuzberg

Indica desde el principio la forma de entrada

Los mejores resultados de la kreuzberg skill salen de prompts que especifican el tipo de archivo, la calidad de la fuente y la salida deseada. Incluye detalles como “PDF escaneado”, “PDF digital”, “tablas de facturas”, “adjuntos de correo” o “conservar encabezados”. Esos detalles cambian si el valor predeterminado debe ser OCR, chunking o extracción simple.

Señala el modo de fallo que quieres evitar

Si la primera salida no es buena, dile a la skill qué salió mal: tablas faltantes, saltos de línea rotos, OCR lento, mala detección de idioma o imágenes con ruido. Para kreuzberg for PDF Processing, esto ayuda a acotar si hay que ajustar el backend OCR, la configuración o el formato de salida, en lugar de reescribir todo el flujo.

Itera con ejemplos concretos

Un ciclo de mejora más sólido consiste en pegar la descripción de un archivo que falla y un resultado objetivo, por ejemplo: “Esta factura escaneada debería producir número de factura, total, proveedor y líneas de detalle en JSON”. Eso es mucho más útil que pedir que “sea más precisa”, porque la skill puede afinar las recomendaciones de extracción según el esquema y el tipo de documento reales.

Empieza con algo acotado y luego amplía

Comienza con un runtime, un formato y un modo de extracción. Cuando la kreuzberg install base y la ruta de extracción ya funcionen, añade procesamiento por lotes, plugins o configuración avanzada. Así reduces la confusión y te resulta más fácil verificar si el problema está en la instalación, el OCR o el parsing posterior.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

pdf

por anthropics

La skill pdf guía tareas de procesamiento de PDF como extracción de texto, combinación y división de archivos, renderizado de páginas a imágenes y flujos de trabajo con formularios PDF. Resulta especialmente útil para comprobar campos rellenables, extraer metadatos de formularios y validar con scripts diseños de formularios no rellenables.

PDF Processing

Favoritos 0GitHub 105.1k

azure-ai-document-intelligence-ts

por microsoft

azure-ai-document-intelligence-ts es una skill en TypeScript para extraer texto, tablas, campos clave-valor y datos estructurados con Azure Document Intelligence. Úsala para OCR Extraction en facturas, recibos, documentos de identidad y formularios, o cuando necesites flujos de trabajo con modelos preconstruidos y personalizados en Node.js con autenticación de Azure REST SDK.

OCR Extraction

Favoritos 0GitHub 2.3k

azure-ai-contentunderstanding-py

por microsoft

azure-ai-contentunderstanding-py es la skill de Python para Azure AI Content Understanding. Extrae contenido estructurado de documentos, imágenes, audio y video para flujos de trabajo RAG y automatización. Úsala cuando necesites extracción multimodal fiable, autenticación con Azure y resultados repetibles, listos para integrar en pipelines.

RAG Workflows

Favoritos 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

por microsoft

azure-ai-document-intelligence-dotnet ayuda a desarrolladores de .NET a instalar y usar Azure AI Document Intelligence para extraer texto, tablas, pares clave-valor y campos estructurados de facturas, recibos, documentos de identidad y documentos personalizados. Incluye guía práctica de configuración, autenticación y extracción OCR para un análisis de documentos fiable.

OCR Extraction

Favoritos 0GitHub 2.2k

nutrient-document-processing

por PSPDFKit-labs

nutrient-document-processing es una skill de flujo de trabajo para el procesamiento de PDF con Nutrient DWS. Te ayuda a instalar, entender y usar flujos documentales repetibles para convertir, combinar, dividir, aplicar OCR, extraer, redactar, firmar, optimizar y generar salidas de cumplimiento como PDF/A o PDF/UA.

PDF Processing

Favoritos 0GitHub 0

visa-doc-translate

por affaan-m

visa-doc-translate traduce imágenes de documentos para solicitudes de visa al inglés y crea un PDF bilingüe con la página original y la traducción. Está pensado para trámites de visa estructurados, con respaldo OCR, manejo de rotación y preservación de nombres, fechas y cantidades.

Translation

Favoritos 0GitHub 156.3k

nutrient-document-processing

por affaan-m

Skill de nutrient-document-processing para procesar PDF y automatizar documentos con la API de Nutrient DWS. Convierte, aplica OCR, extrae, redacta, firma, añade marcas de agua y completa archivos como PDFs, DOCX, XLSX, PPTX, HTML e imágenes.

PDF Processing

Favoritos 0GitHub 156.2k

hv-analysis

por KKKKhazix

hv-analysis es una habilidad de investigación horizontal-vertical para convertir un producto, empresa, concepto, tecnología o persona en un informe de análisis estructurado. Usa la habilidad hv-analysis para investigación en profundidad, comparación competitiva y resultados listos para informe, especialmente cuando necesites hv-analysis para análisis de datos o un flujo de trabajo pulido en PDF.

Data Analysis

Favoritos 0GitHub 9k

azure-ai-formrecognizer-java

por microsoft

La skill azure-ai-formrecognizer-java ayuda a los desarrolladores Java a usar Azure AI Document Intelligence para extracción OCR, tablas, pares clave-valor, facturas, recibos, documentos de identidad y modelos de documento personalizados. Está alineada con el SDK actual `com.azure:azure-ai-documentintelligence` y resulta útil cuando necesitas una configuración práctica en Java, guía de API y análisis de documentos repetible.

OCR Extraction

Favoritos 0GitHub 2.2k

markitdown

por K-Dense-AI

markitdown convierte archivos y documentos de oficina a Markdown para facilitar la lectura, la fragmentación, la búsqueda y los flujos de trabajo con LLM. Esta skill de markitdown admite PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, imágenes con OCR y transcripción de audio, por lo que es una guía práctica de markitdown para la conversión de formatos.

Format Conversion

Favoritos 0GitHub 0

analyzing-malicious-pdf-with-peepdf

por mukul975

analyzing-malicious-pdf-with-peepdf es una skill de análisis estático de malware para PDFs sospechosos. Usa peepdf, pdfid y pdf-parser para clasificar adjuntos de phishing, inspeccionar objetos, extraer JavaScript o shellcode incrustado y revisar de forma segura flujos sospechosos sin ejecución.

Malware Analysis

Favoritos 0GitHub 0

analyzing-pdf-malware-with-pdfid

por mukul975

analyzing-pdf-malware-with-pdfid es una habilidad de triaje de malware PDF para detectar JavaScript incrustado, marcadores de exploits, object streams, adjuntos y acciones sospechosas antes de abrir un archivo. Admite análisis estático para investigación de PDF maliciosos, respuesta a incidentes y flujos de trabajo de auditoría de seguridad con analyzing-pdf-malware-with-pdfid.

Security Audit

Favoritos 0GitHub 0

pdf

por openai

Usa la skill pdf para tareas de procesamiento de PDF en las que importan el diseño, la paginación y el resultado renderizado. Te ayuda a leer, crear, editar y revisar PDF con un flujo de trabajo visual: renderiza páginas, inspecciona el resultado y luego ajusta. Úsala cuando necesites una instalación fiable de pdf, uso de pdf y una guía práctica de pdf para asegurar la precisión de documentos.

PDF Processing

Favoritos 0GitHub 0

pdf

por K-Dense-AI

La skill pdf es una guía práctica de procesamiento de PDF cuando necesitas leer, extraer, transformar o crear archivos PDF en un flujo de trabajo que puedas poner en producción. Cubre extracción de texto, combinación, división, rotación, relleno de formularios, cifrado, extracción de imágenes y OCR para PDFs escaneados. Úsala cuando necesites una guía pdf repetible en lugar de un prompt aislado.

PDF Processing

Favoritos 0GitHub 0

Resume Formatter

por Paramchoudhary

Resume Formatter ayuda a convertir currículums desordenados en documentos limpios y compatibles con ATS, con jerarquía clara, espaciado equilibrado y una estructura profesional. Es útil para Resume Formatter en redacción de currículums, solicitudes de empleo y rediseños que deban seguir siendo legibles en pantalla y en papel.

Resume Writing

Favoritos 0GitHub 443

minimax-pdf

por MiniMax-AI

La skill minimax-pdf te ayuda a crear, rellenar o reformatear PDFs pulidos cuando importan la calidad visual y la identidad del documento. Úsala para flujos CREATE, FILL o REFORMAT con un sistema de diseño basado en tokens que convierte entradas aproximadas en resultados listos para impresión. Esta guía cubre la instalación de minimax-pdf, su uso y la elección de ruta para lograr mejores resultados.

PDF Processing

Favoritos 0GitHub 0