kreuzberg

作者 kreuzberg-dev

kreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取，支持 91+ 种格式，包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流，适用于 OCR、表格、元数据、批量处理以及实用的解析指导。

Stars0

收录时间2026年5月9日

分类PDF 处理

安装命令

npx skills add kreuzberg-dev/kreuzberg --skill kreuzberg

编辑评分

该技能得分 91/100，属于目录用户的强候选项：触发意图明确、覆盖真实且广泛的工作流，并提供了足够的操作细节，便于 agent 在较少猜测的情况下完成安装和使用。仓库清楚说明了何时使用 Kreuzberg、如何在多个运行时中安装，以及去哪里查找更深入的 API、CLI 和参考文档。

91/100

亮点

触发意图明确且可执行：可从 91+ 种格式中抽取文本、表格、元数据和图片，覆盖 Python、Node.js/TypeScript、Rust 和 CLI。
操作覆盖全面：技能说明和参考文档都提到了安装、同步/异步抽取、配置、批量处理、OCR、错误处理和插件。
渐进式信息展开做得好：多份参考文件分别提供语言专属 API、CLI 命令、配置、支持格式和高级功能。

注意点

安装路径分散在多份参考文档中，首次接入的用户可能需要阅读 SKILL.md 之外的内容，才能选对运行时和功能集。
SKILL.md 本身没有安装命令，因此仅依赖技能文件的用户可能需要查阅参考文档，才能获得准确的配置细节和功能开关。

Python Node.js TypeScript Rust Cli API MCP Documents

概览

kreuzberg skill 概览

kreuzberg 的作用

kreuzberg skill 可以帮助你使用 Kreuzberg 从 91+ 种文档格式中提取文本、表格、元数据、图像以及基于 OCR 的内容，并原生支持 Python、Node.js/TypeScript、Rust 和 CLI。它更适合需要可靠文档处理代码的人，而不是只靠一次性提示词去“猜”解析结果。

适合安装给谁

如果你的任务是把 PDF、Office 文件、图片、HTML、邮件、压缩包或学术文件转换成结构化输出，尤其是在扫描质量、批量处理或语言特定 OCR 很关键时，就应该安装 kreuzberg。它非常适合接入摄取管道、文档检索、RAG 准备和抽取工具链。

它为什么不同

kreuzberg skill 的核心价值在于它偏实现导向：它覆盖安装方式、抽取模式、配置、批处理、错误处理，以及跨多个运行时的插件支持。对于需要真正能运行的代码来说，它比“分析这个文档”这种泛化提示词更有用。

如何使用 kreuzberg skill

安装并确认目标运行时

要快速完成 kreuzberg install，先从你实际要交付的运行时开始：

pip install kreuzberg
npm install @kreuzberg/node
cargo install kreuzberg-cli

然后先阅读对应的 API 参考：references/python-api.md、references/nodejs-api.md 或 references/rust-api.md。如果你使用的是 CLI，就先看 references/cli-reference.md。这个 skill 最有效的方式，是先选定一个运行时和一种文档类型，而不是一开始就要求把所有情况都覆盖。

把粗略需求改成可用提示词

一个好的 kreuzberg usage 提示词，应当写清文件类型、抽取目标、运行时和约束。例如：“用 Python 的 kreuzberg 从扫描版 PDF 中提取发票文本、表格和 OCR 结果，保留换行，并返回适合后续解析的 JSON。” 这比“从 PDF 提取数据”更好，因为它明确告诉 skill 应该优先优化表格、OCR 还是纯文本清洗。

先读这些文件

做实用的 kreuzberg guide 工作时，建议按这个顺序阅读：SKILL.md、references/configuration.md、对应运行时的 API 文件，以及 references/supported-formats.md。如果你需要插件、OCR 调优或批处理行为，再打开 references/advanced-features.md。这个顺序能先暴露最影响落地的决策：安装形态、支持的输入类型和默认配置。

采用与你的任务匹配的工作流

如果你只处理单个文件，就先用简单的 extract_file 或 CLI extract 调用，只有在输出不对时再补 MIME 提示或配置。如果你要处理很多文件，就应该尽早检查批处理辅助方法和错误处理。对于 kreuzberg for PDF Processing 来说，OCR 设置和输出格式通常比基础抽取调用更重要，所以在扩展规模之前，先验证这些部分。

kreuzberg skill 常见问题

kreuzberg 只适用于 PDF 吗？

不是。PDF 确实是主要用例，但这个 skill 也覆盖 Office 文档、图片、HTML、邮件、压缩包和学术格式。如果你的工作流是混合格式摄取，kreuzberg 会比只做 PDF 的工具更合适。

使用这个 skill 前需要先懂库吗？

不需要，但你必须知道目标运行时和输出目标。只要你能说明文档类型、是否需要 OCR，以及你想要纯文本、markdown、JSON 还是结构化元数据，kreuzberg skill 就算对新手也很友好。

什么时候不该用 kreuzberg？

如果你的任务主要是语义总结而不是抽取，或者你只需要对单个文档做一次手工提示、并且不需要代码输出，那就可以跳过 kreuzberg。如果你的管道不需要 OCR、表格或多格式支持，它也可能显得过重。

它和普通提示词有什么不同？

普通提示词可以描述任务，但 kreuzberg usage 关注的是文档抽取所需的正确安装方式、API 调用、配置和故障处理。也就是说，当输出质量取决于运行时设置、OCR 后端选择或批处理细节时，它会更有优势。

如何改进 kreuzberg skill

先把输入形态说清楚

最好的 kreuzberg skill 结果，来自那些明确说明文件类型、源质量和期望输出的提示词。可以直接写明“扫描版 PDF”“数字版 PDF”“发票表格”“邮件附件”或“保留标题”。这些信息会改变默认方案应该选 OCR、分块还是直接抽取。

说明你想避免的失败模式

如果第一次输出不理想，要直接告诉 skill 哪里出了问题：表格丢失、换行错乱、OCR 太慢、语言识别错误，或者图片噪点太多。对于 kreuzberg for PDF Processing 来说，这能帮助快速判断是要调整 OCR 后端、配置还是输出格式，而不是重写整个工作流。

用具体例子迭代

更有效的改进方式，是贴出一个失败文件的描述和一个目标结果，例如：“这份扫描发票应该在 JSON 中输出发票号、总金额、供应商和明细行。” 这比说“让它更准确”更有用，因为 skill 可以据此把抽取建议调整到真实 schema 和文档类型上。

先收窄范围，再逐步扩展

先从一个运行时、一种格式和一种抽取模式开始。等基础的 kreuzberg install 和抽取流程跑通后，再加入批处理、插件或高级配置。这样能减少混乱，也更容易判断问题究竟出在安装、OCR，还是下游解析。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

pdf

作者 anthropics

pdf skill 可处理多种 PDF Processing 任务，包括文本提取、合并与拆分、页面渲染为图片，以及 PDF 表单流程。它尤其适合检查可填写字段、提取表单元数据，并通过脚本验证不可填写表单的版式。

PDF 处理

收藏 0GitHub 105.1k

azure-ai-document-intelligence-ts

作者 microsoft

azure-ai-document-intelligence-ts 是一个 TypeScript 技能，用于借助 Azure Document Intelligence 提取文本、表格、键值字段和结构化数据。它适合发票、收据、身份证和表单的 OCR 提取，也适合在 Node.js 中结合 Azure REST SDK 认证来使用预置和自定义模型工作流。

OCR 提取

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

作者 microsoft

azure-ai-document-intelligence-dotnet 帮助 .NET 开发者安装并使用 Azure AI Document Intelligence，从发票、收据、身份证件和自定义文档中提取文本、表格、键值对和结构化字段。它包含实用的配置、身份验证以及 OCR 提取指导，便于进行可靠的文档分析。

OCR 提取

收藏 0GitHub 2.2k

nutrient-document-processing

作者 PSPDFKit-labs

nutrient-document-processing 是一个基于 Nutrient DWS 的 PDF 处理工作流技能。它帮助你安装、理解并使用可重复的文档工作流，用于转换、合并、拆分、OCR、提取、脱敏、签署、优化，以及生成 PDF/A 或 PDF/UA 等合规输出。

PDF 处理

收藏 0GitHub 0

visa-doc-translate

作者 affaan-m

visa-doc-translate 可将签证申请文件图片翻译成英文，并生成包含原页与译文的双语 PDF。它面向结构化签证材料，支持 OCR 兜底、旋转处理，并尽量保留姓名、日期和金额等关键信息。

翻译

收藏 0GitHub 156.3k

nutrient-document-processing

作者 affaan-m

nutrient-document-processing 技能，基于 Nutrient DWS API 进行 PDF 处理和文档自动化。可转换、OCR、提取、编辑脱敏、签名、加水印，并填写 PDF、DOCX、XLSX、PPTX、HTML 和图片等文件。

PDF 处理

收藏 0GitHub 156.2k

hv-analysis

作者 KKKKhazix

hv-analysis 是一项横向-纵向研究技能，可将产品、公司、概念、技术或个人转化为结构化分析报告。适合用于深度研究、竞品比较和可直接交付的报告输出，尤其是在你需要用 hv-analysis 做 Data Analysis 或打磨成 PDF 工作流时。

数据分析

收藏 0GitHub 9k

azure-ai-formrecognizer-java

作者 microsoft

azure-ai-formrecognizer-java 技能帮助 Java 开发者使用 Azure AI Document Intelligence 进行 OCR 提取，并处理表格、键值对、发票、收据、身份证件和自定义文档模型。它与当前的 `com.azure:azure-ai-documentintelligence` SDK 保持一致，适合需要实用的 Java 配置、API 指南和可重复文档分析的场景。

OCR 提取

收藏 0GitHub 2.2k

markitdown

作者 K-Dense-AI

markitdown 可将文件和办公文档转换为 Markdown，便于阅读、分块、检索和 LLM 工作流。这个 markitdown 技能支持 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、带 OCR 的图片以及音频转写，是一份实用的 markitdown 格式转换指南。

格式转换

收藏 0GitHub 0

analyzing-malicious-pdf-with-peepdf

作者 mukul975

analyzing-malicious-pdf-with-peepdf 是一项面向可疑 PDF 的静态恶意软件分析技能。可使用 peepdf、pdfid 和 pdf-parser 对钓鱼附件进行初步研判，检查对象，提取内嵌 JavaScript 或 shellcode，并在不执行文件的情况下安全审查可疑流。

恶意软件分析

收藏 0GitHub 0

analyzing-pdf-malware-with-pdfid

作者 mukul975

analyzing-pdf-malware-with-pdfid 是一个用于 PDF 恶意代码初筛的技能，可在打开文件前检测嵌入式 JavaScript、利用特征标记、对象流、附件以及可疑行为。它支持用于恶意 PDF 取证、事件响应，以及 Security Audit 工作流中的静态分析。

安全审计

收藏 0GitHub 0

pdf

作者 openai

在涉及版式、分页和渲染结果的 PDF 处理任务中，使用 pdf skill。它支持你以“先渲染、再检查、后调整”的可视化优先流程来读取、创建、编辑和审阅 PDF。适合需要可靠的 PDF 安装、pdf 用法，以及面向文档准确性的实用 pdf 指南时使用。

PDF 处理

收藏 0GitHub 0

pdf

作者 K-Dense-AI

pdf skill 是一份实用的 PDF 处理指南，适合在工作流中需要读取、提取、转换或创建 PDF 文件时使用。它涵盖文本提取、合并、拆分、旋转、表单填充、加密、图像提取，以及扫描版 PDF 的 OCR。当你需要一份可重复使用的 pdf 指南，而不是一次性提示词时，它尤其合适。

PDF 处理

收藏 0GitHub 0

Resume Formatter

作者 Paramchoudhary

Resume Formatter 可将杂乱的简历整理为清晰、适配 ATS 的文档，强调层次分明、留白均衡和专业结构。它适合用于 Resume Formatter、求职申请以及需要在屏幕和纸面上都保持易读性的简历重设计。

简历写作

收藏 0GitHub 443

minimax-pdf

作者 MiniMax-AI

minimax-pdf 技能可帮助你在重视视觉质量和文档一致性的场景下创建、填充或重排精美 PDF。它适用于 CREATE、FILL 或 REFORMAT 工作流，采用基于 token 的设计系统，把粗糙输入转成可直接印刷的输出。本指南涵盖 minimax-pdf 的安装、使用方法，以及如何选择合适的路由以获得更好结果。

PDF 处理

收藏 0GitHub 0