kreuzberg

作者 kreuzberg-dev

這個 kreuzberg 技能可協助你安裝並使用 Kreuzberg 進行文件擷取，支援 91 種以上格式，包括 PDF、Office 檔案、圖片、HTML、電子郵件與壓縮檔。內容涵蓋 Python、Node.js/TypeScript、Rust 與 CLI 工作流程，適用於 OCR、表格、中繼資料、批次處理，以及實務解析指引。

Stars0

評論0

加入時間2026年5月9日

分類PDF 处理

安裝指令

npx skills add kreuzberg-dev/kreuzberg --skill kreuzberg

編輯評分

這個技能評分為 91/100，代表它很適合作為目錄使用者的收錄候選：觸發性高、涵蓋真實且廣泛的工作流程，並提供足夠的操作細節，讓代理能夠較少猜測地完成安裝與使用。該儲存庫清楚說明何時該使用 Kreuzberg、如何在多種執行環境中安裝，以及要到哪些參考資料進一步查找 API／CLI／參考文件。

91/100

亮點

明確且可操作的觸發條件：可從 91 種以上格式擷取文字、表格、中繼資料與圖片，支援 Python、Node.js/TypeScript、Rust 與 CLI。
操作面覆蓋完整：安裝、同步／非同步擷取、設定、批次處理、OCR、錯誤處理與外掛都在技能說明與參考資料中有明確提及。
資訊揭露層次良好：多個參考檔分別提供各語言 API、CLI 指令、設定、支援格式與進階功能。

注意事項

安裝路徑分散在多個參考文件中，初次導入者可能需要讀超過 SKILL.md 來選定合適的執行環境與功能組合。
SKILL.md 本身沒有安裝指令，因此只依賴技能檔的使用者，可能還是要查閱參考文件才能取得精確的設定步驟與功能旗標。

Python Node.js TypeScript Rust Cli API MCP Documents

總覽

kreuzberg 技能總覽

kreuzberg 的用途

kreuzberg skill 可協助你用 Kreuzberg 從 91 種以上的文件格式中擷取文字、表格、後設資料、圖片，以及由 OCR 支援的內容，並原生支援 Python、Node.js/TypeScript、Rust 與 CLI。它特別適合需要可靠文件處理程式碼的人，而不只是丟一段提示詞、讓模型猜怎麼解析。

誰適合安裝

如果你的工作是把 PDF、Office 檔、圖片、HTML、電子郵件、壓縮檔，或學術文件轉成結構化輸出，就很適合安裝 kreuzberg，尤其是在你很在意掃描品質、批次執行，或語言特定的 OCR 時。它很適合用在資料匯入流程、文件搜尋、RAG 前處理，以及擷取工具鏈。

為什麼它不一樣

kreuzberg skill 的主要價值在於它是以實作為導向：涵蓋安裝路徑、擷取模式、設定、批次處理、錯誤處理，以及跨多種 runtime 的外掛。當你需要的是能實際執行的程式碼，而不是一個籠統的「幫我分析這份文件」提示詞時，它會比一般做法更有用。

如何使用 kreuzberg skill

先安裝並確認目標 runtime

若要快速完成 kreuzberg install，請從你實際要交付的 runtime 開始：

pip install kreuzberg
npm install @kreuzberg/node
cargo install kreuzberg-cli

接著先讀對應的 API 參考文件：references/python-api.md、references/nodejs-api.md，或 references/rust-api.md。如果你用的是 CLI，則先看 references/cli-reference.md。這個 skill 最有效的方式，是先選定一個 runtime 和一種文件類型，而不是一開始就要求包山包海。

把粗略需求改寫成可用提示

一個好的 kreuzberg usage 提示詞，會明確寫出檔案類型、擷取目標、runtime 與限制。比如說：「用 Python 的 kreuzberg 擷取掃描版 PDF 的發票文字、表格與 OCR 內容，保留換行，並回傳可供下游解析的 JSON。」這比「擷取 PDF 資料」更好，因為它能告訴 skill 要優先優化表格、OCR，還是乾淨文字。

先讀這些檔案

要做實際的 kreuzberg guide 工作，建議依序閱讀：SKILL.md、references/configuration.md、對應 runtime 的 API 檔，以及 references/supported-formats.md。若你需要外掛、OCR 調校或批次行為，再打開 references/advanced-features.md。這個順序能先浮現最影響採用的決策：安裝方式、支援的輸入，以及設定預設值。

依照你的工作型態選流程

如果你只處理單一檔案，可以先用簡單的 extract_file 或 CLI extract，只有在輸出不對時才再加 MIME 提示或設定。如果你要處理很多檔案，就應該提早確認批次輔助工具與錯誤處理。對於 kreuzberg for PDF Processing 而言，OCR 設定與輸出格式通常比基本擷取呼叫更重要，所以在擴大規模前，先驗證這兩項。

kreuzberg skill 常見問題

kreuzberg 只能用來處理 PDF 嗎？

不是。PDF 當然是主要使用情境之一，但這個 skill 也涵蓋 Office 文件、圖片、HTML、電子郵件、壓縮檔，以及學術格式。如果你的工作負載是混合格式匯入，kreuzberg 會比只支援 PDF 的工具更合適。

使用這個 skill 前一定要先懂 library 嗎？

不用，但你需要知道目標 runtime 和輸出目標。只要你能描述文件類型、是否需要 OCR，以及你要的是純文字、markdown、JSON，還是結構化後設資料，kreuzberg skill 就算對初學者也算友善。

什麼情況下不適合用 kreuzberg？

如果你的任務主要是語意摘要而不是擷取，或你只需要針對單一文件做一次性的人工提示、且不需要程式碼輸出，那就可以跳過 kreuzberg。如果你的流程不需要 OCR、表格，或多格式支援，它也可能太重。

它跟一般提示詞有什麼不同？

一般提示詞可以描述任務，但 kreuzberg usage 重點在於取得正確的安裝方式、API 呼叫、設定，以及文件擷取時的錯誤處理。當輸出品質取決於 runtime 設定、OCR 後端選擇，或批次處理細節時，它就會更有優勢。

如何改進 kreuzberg skill

先把輸入形態說清楚

最好的 kreuzberg skill 結果，通常來自明確指定檔案類型、來源品質與目標輸出。請加入像「掃描版 PDF」、「數位 PDF」、「發票表格」、「電子郵件附件」或「保留標題」這類細節。這些資訊會直接影響預設應該用 OCR、分段處理，還是直接擷取純文字。

指出你想避免的失敗模式

如果第一次輸出不理想，直接告訴 skill 哪裡出問題：表格不見了、換行被打亂、OCR 太慢、語言偵測錯誤，或圖片雜訊太多。對 kreuzberg for PDF Processing 來說，這能幫助縮小是要調整 OCR 後端、設定，還是輸出格式，而不是整個流程重寫。

用具體範例反覆調整

更有效的改進方式，是貼上一個失敗的檔案描述，再加上一個目標結果，例如：「這份掃描版發票應該輸出發票號碼、總金額、供應商和明細列，格式為 JSON。」這比單純說「請提高準確度」更有用，因為 skill 可以依照實際 schema 與文件類型來調整擷取建議。

先從小範圍開始，再逐步擴充

先從一個 runtime、一種格式、以及一種擷取模式開始。等基礎的 kreuzberg install 和擷取流程都能正常運作後，再加入批次處理、外掛，或進階設定。這樣可以減少混亂，也更容易判斷問題到底出在安裝、OCR，還是下游解析。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

pdf

作者 anthropics

pdf skill 可支援多種 PDF 處理工作，包括文字擷取、合併與拆分、頁面轉圖片，以及 PDF 表單流程。特別適合用腳本檢查可填欄位、擷取表單中繼資料，並驗證不可填表單版面。

PDF 处理

收藏 0GitHub 105.1k

azure-ai-document-intelligence-ts

作者 microsoft

azure-ai-document-intelligence-ts 是一個 TypeScript 技能，可用 Azure Document Intelligence 擷取文字、表格、鍵值欄位與結構化資料。適合用於發票、收據、身分證件與表單的 OCR 擷取，也適合在 Node.js 中搭配 Azure REST SDK 驗證，處理預建與自訂模型工作流程。

OCR 提取

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可從文件、圖片、音訊與影片中擷取結構化內容，適合 RAG 工作流程與自動化。當你需要可靠的多模態擷取、Azure 驗證，以及可重複、可直接接入管線的輸出時，這個技能很合適。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

作者 microsoft

azure-ai-document-intelligence-dotnet 協助 .NET 開發者安裝並使用 Azure AI Document Intelligence，從發票、收據、證件與自訂文件中擷取文字、表格、鍵值對與結構化欄位。內容涵蓋實用的設定、驗證與 OCR 擷取指引，幫助你穩定完成文件分析。

OCR 提取

收藏 0GitHub 2.2k

nutrient-document-processing

作者 PSPDFKit-labs

nutrient-document-processing 是一個用於搭配 Nutrient DWS 進行 PDF 處理的工作流程技能。它可協助你安裝、理解並使用可重複的文件工作流程，涵蓋轉換、合併、分割、OCR、擷取、遮罩、簽署、最佳化，以及 PDF/A、PDF/UA 這類合規輸出。

PDF 处理

收藏 0GitHub 0

visa-doc-translate

作者 affaan-m

visa-doc-translate 可將簽證申請文件影像翻譯成英文，並產生包含原始頁面與譯文的雙語 PDF。它針對結構化的簽證文件而設計，支援 OCR 備援、旋轉處理，並盡量保留姓名、日期與金額。

翻译

收藏 0GitHub 156.3k

nutrient-document-processing

作者 affaan-m

nutrient-document-processing 技能可透過 Nutrient DWS API 進行 PDF 處理與文件自動化。可轉換、OCR、擷取、遮罩、簽署、加浮水印，並填寫 PDF、DOCX、XLSX、PPTX、HTML 與圖片等檔案。

PDF 处理

收藏 0GitHub 156.2k

hv-analysis

作者 KKKKhazix

hv-analysis 是一套橫向－縱向研究技能，可將產品、公司、概念、技術或人物轉化為結構化分析報告。當你需要用 hv-analysis 進行深度研究、競品比較，或產出可直接交付的報告時，這套技能特別適合；尤其是在 Data Analysis 或精緻 PDF 工作流程中使用 hv-analysis 更有幫助。

数据分析

收藏 0GitHub 9k

azure-ai-formrecognizer-java

作者 microsoft

azure-ai-formrecognizer-java 技能可協助 Java 開發者使用 Azure AI Document Intelligence 進行 OCR 擷取、表格、鍵值對、發票、收據、身分證件，以及自訂文件模型分析。此內容對應目前的 `com.azure:azure-ai-documentintelligence` SDK，適合在你需要實用的 Java 安裝設定、API 指引與可重複的文件分析流程時參考。

OCR 提取

收藏 0GitHub 2.2k

markitdown

作者 K-Dense-AI

markitdown 可將檔案與 Office 文件轉換為 Markdown，讓內容更容易閱讀、切分、搜尋，也更適合 LLM 工作流程。這個 markitdown 技能支援 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、含 OCR 的圖片，以及音訊轉錄，是一份實用的 markitdown 格式轉換指南。

格式转换

收藏 0GitHub 0

analyzing-malicious-pdf-with-peepdf

作者 mukul975

analyzing-malicious-pdf-with-peepdf 是一個用於可疑 PDF 的靜態惡意程式分析技能。可搭配 peepdf、pdfid 和 pdf-parser 進行釣魚附件初步判讀、檢查物件、擷取內嵌 JavaScript 或 shellcode，並在不執行檔案的情況下安全檢視可疑串流。

Malware Analysis

收藏 0GitHub 0

analyzing-pdf-malware-with-pdfid

作者 mukul975

analyzing-pdf-malware-with-pdfid 是一個 PDF 惡意程式初步判讀技能，可在開啟檔案前偵測內嵌 JavaScript、利用程式標記、物件串流、附件與可疑動作。它支援惡意 PDF 調查、事件應變與分析流程中的靜態分析，適合用於 Security Audit 工作流中的 analyzing-pdf-malware-with-pdfid。

安全稽核

收藏 0GitHub 0

pdf

作者 openai

這個 pdf skill 適合處理 PDF Processing 任務，當版面、分頁與渲染後的輸出很重要時特別有用。它能幫助你以以視覺為優先的工作流程來讀取、建立、編輯與審閱 PDF：先渲染頁面、檢查結果，再進行調整。當你需要可靠的 PDF 安裝方式、pdf 使用方式，以及一份實用的 pdf 指南來確保文件精準時，這個 skill 很適合派上用場。

PDF 处理

收藏 0GitHub 0

pdf

作者 K-Dense-AI

pdf skill 是一份實用的 PDF Processing 指南，適合你在可直接交付的工作流程中讀取、擷取、轉換或建立 PDF 檔案時使用。內容涵蓋文字擷取、合併、分割、旋轉、表單填寫、加密、圖片擷取，以及掃描版 PDF 的 OCR。當你需要一份可重複使用的 pdf 指南，而不是一次性的提示詞時，就很適合用它。

PDF 处理

收藏 0GitHub 0

Resume Formatter

作者 Paramchoudhary

Resume Formatter 可將雜亂的履歷整理成乾淨、符合 ATS 的文件，具備清楚的層級、均衡的留白與專業的版面結構。它適合用於 Resume Formatter for Resume Writing、求職申請，以及需要在螢幕與紙本上都保持易讀性的重新設計。

Resume Writing

收藏 0GitHub 443

minimax-pdf

作者 MiniMax-AI

minimax-pdf skill 可在你重視視覺品質與文件辨識度時，協助你建立、填寫或重新排版出精緻的 PDF。適合 CREATE、FILL 或 REFORMAT 工作流程，搭配以 token 為基礎的設計系統，將粗略輸入轉成可直接印刷的輸出。本指南涵蓋 minimax-pdf 安裝、minimax-pdf 使用方式，以及如何選擇路由以獲得更好的結果。

PDF 处理

收藏 0GitHub 0