kreuzberg
作者 kreuzberg-devkreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取,支持 91+ 种格式,包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流,适用于 OCR、表格、元数据、批量处理以及实用的解析指导。
该技能得分 91/100,属于目录用户的强候选项:触发意图明确、覆盖真实且广泛的工作流,并提供了足够的操作细节,便于 agent 在较少猜测的情况下完成安装和使用。仓库清楚说明了何时使用 Kreuzberg、如何在多个运行时中安装,以及去哪里查找更深入的 API、CLI 和参考文档。
- 触发意图明确且可执行:可从 91+ 种格式中抽取文本、表格、元数据和图片,覆盖 Python、Node.js/TypeScript、Rust 和 CLI。
- 操作覆盖全面:技能说明和参考文档都提到了安装、同步/异步抽取、配置、批量处理、OCR、错误处理和插件。
- 渐进式信息展开做得好:多份参考文件分别提供语言专属 API、CLI 命令、配置、支持格式和高级功能。
- 安装路径分散在多份参考文档中,首次接入的用户可能需要阅读 SKILL.md 之外的内容,才能选对运行时和功能集。
- SKILL.md 本身没有安装命令,因此仅依赖技能文件的用户可能需要查阅参考文档,才能获得准确的配置细节和功能开关。
kreuzberg skill 概览
kreuzberg 的作用
kreuzberg skill 可以帮助你使用 Kreuzberg 从 91+ 种文档格式中提取文本、表格、元数据、图像以及基于 OCR 的内容,并原生支持 Python、Node.js/TypeScript、Rust 和 CLI。它更适合需要可靠文档处理代码的人,而不是只靠一次性提示词去“猜”解析结果。
适合安装给谁
如果你的任务是把 PDF、Office 文件、图片、HTML、邮件、压缩包或学术文件转换成结构化输出,尤其是在扫描质量、批量处理或语言特定 OCR 很关键时,就应该安装 kreuzberg。它非常适合接入摄取管道、文档检索、RAG 准备和抽取工具链。
它为什么不同
kreuzberg skill 的核心价值在于它偏实现导向:它覆盖安装方式、抽取模式、配置、批处理、错误处理,以及跨多个运行时的插件支持。对于需要真正能运行的代码来说,它比“分析这个文档”这种泛化提示词更有用。
如何使用 kreuzberg skill
安装并确认目标运行时
要快速完成 kreuzberg install,先从你实际要交付的运行时开始:
pip install kreuzberg
npm install @kreuzberg/node
cargo install kreuzberg-cli
然后先阅读对应的 API 参考:references/python-api.md、references/nodejs-api.md 或 references/rust-api.md。如果你使用的是 CLI,就先看 references/cli-reference.md。这个 skill 最有效的方式,是先选定一个运行时和一种文档类型,而不是一开始就要求把所有情况都覆盖。
把粗略需求改成可用提示词
一个好的 kreuzberg usage 提示词,应当写清文件类型、抽取目标、运行时和约束。例如:“用 Python 的 kreuzberg 从扫描版 PDF 中提取发票文本、表格和 OCR 结果,保留换行,并返回适合后续解析的 JSON。” 这比“从 PDF 提取数据”更好,因为它明确告诉 skill 应该优先优化表格、OCR 还是纯文本清洗。
先读这些文件
做实用的 kreuzberg guide 工作时,建议按这个顺序阅读:SKILL.md、references/configuration.md、对应运行时的 API 文件,以及 references/supported-formats.md。如果你需要插件、OCR 调优或批处理行为,再打开 references/advanced-features.md。这个顺序能先暴露最影响落地的决策:安装形态、支持的输入类型和默认配置。
采用与你的任务匹配的工作流
如果你只处理单个文件,就先用简单的 extract_file 或 CLI extract 调用,只有在输出不对时再补 MIME 提示或配置。如果你要处理很多文件,就应该尽早检查批处理辅助方法和错误处理。对于 kreuzberg for PDF Processing 来说,OCR 设置和输出格式通常比基础抽取调用更重要,所以在扩展规模之前,先验证这些部分。
kreuzberg skill 常见问题
kreuzberg 只适用于 PDF 吗?
不是。PDF 确实是主要用例,但这个 skill 也覆盖 Office 文档、图片、HTML、邮件、压缩包和学术格式。如果你的工作流是混合格式摄取,kreuzberg 会比只做 PDF 的工具更合适。
使用这个 skill 前需要先懂库吗?
不需要,但你必须知道目标运行时和输出目标。只要你能说明文档类型、是否需要 OCR,以及你想要纯文本、markdown、JSON 还是结构化元数据,kreuzberg skill 就算对新手也很友好。
什么时候不该用 kreuzberg?
如果你的任务主要是语义总结而不是抽取,或者你只需要对单个文档做一次手工提示、并且不需要代码输出,那就可以跳过 kreuzberg。如果你的管道不需要 OCR、表格或多格式支持,它也可能显得过重。
它和普通提示词有什么不同?
普通提示词可以描述任务,但 kreuzberg usage 关注的是文档抽取所需的正确安装方式、API 调用、配置和故障处理。也就是说,当输出质量取决于运行时设置、OCR 后端选择或批处理细节时,它会更有优势。
如何改进 kreuzberg skill
先把输入形态说清楚
最好的 kreuzberg skill 结果,来自那些明确说明文件类型、源质量和期望输出的提示词。可以直接写明“扫描版 PDF”“数字版 PDF”“发票表格”“邮件附件”或“保留标题”。这些信息会改变默认方案应该选 OCR、分块还是直接抽取。
说明你想避免的失败模式
如果第一次输出不理想,要直接告诉 skill 哪里出了问题:表格丢失、换行错乱、OCR 太慢、语言识别错误,或者图片噪点太多。对于 kreuzberg for PDF Processing 来说,这能帮助快速判断是要调整 OCR 后端、配置还是输出格式,而不是重写整个工作流。
用具体例子迭代
更有效的改进方式,是贴出一个失败文件的描述和一个目标结果,例如:“这份扫描发票应该在 JSON 中输出发票号、总金额、供应商和明细行。” 这比说“让它更准确”更有用,因为 skill 可以据此把抽取建议调整到真实 schema 和文档类型上。
先收窄范围,再逐步扩展
先从一个运行时、一种格式和一种抽取模式开始。等基础的 kreuzberg install 和抽取流程跑通后,再加入批处理、插件或高级配置。这样能减少混乱,也更容易判断问题究竟出在安装、OCR,还是下游解析。
