kreuzberg

作成者 kreuzberg-dev

このkreuzbergスキルは、PDF、Officeファイル、画像、HTML、メール、アーカイブなど91種類以上の形式に対応するKreuzbergの導入と活用を支援します。OCR、表、メタデータ、バッチ処理、実用的な解析の進め方まで、Python、Node.js/TypeScript、Rust、CLI の各ワークフローをカバーします。

スター0

お気に入り0

追加日2026年5月9日

カテゴリーPDF Processing

インストールコマンド

npx skills add kreuzberg-dev/kreuzberg --skill kreuzberg

編集スコア

このスキルの評価は91/100で、ディレクトリ利用者にとって有力な掲載候補です。トリガーされやすく、実際の業務フローを幅広くカバーし、エージェントが大きな迷いなく導入・利用できるだけの実務情報も備えています。Kreuzbergをいつ使うべきか、複数ランタイムでどうインストールするか、さらに詳細なAPI/CLI/リファレンス情報をどこで確認するかが、リポジトリ内で明確に説明されています。

91/100

強み

抽出対象が明確で実用的: 91種類以上の形式から、Python、Node.js/TypeScript、Rust、CLIでテキスト、表、メタデータ、画像を取り出せます。
運用面の説明が厚い: インストール、同期/非同期抽出、設定、バッチ処理、OCR、エラー処理、プラグインまでスキル説明と参照情報で押さえています。
段階的に理解しやすい: 複数の参照ファイルで、言語別API、CLIコマンド、設定、対応形式、上級機能を順を追って確認できます。

注意点

インストール手順が複数の参照先に分散しているため、初めて使う場合はSKILL.mdだけでなく、適切なランタイムや機能セットを選ぶために周辺資料の確認が必要になることがあります。
SKILL.md自体にはインストールコマンドがないため、スキルファイルだけを見て進めるユーザーは、正確なセットアップ手順や機能フラグを参照先で確認する必要があります。

Python Node.js TypeScript Rust Cli API MCP Documents

概要

kreuzberg skill の概要

kreuzberg でできること

kreuzberg skill は、Kreuzberg を使って 91 種類以上の文書形式からテキスト、表、メタデータ、画像、OCR ベースのコンテンツを抽出するためのものです。Python、Node.js/TypeScript、Rust、そして CLI をネイティブにサポートしています。単発のプロンプトで「たぶんこう解析されるはず」と推測するのではなく、信頼性の高い文書処理コードが必要な人に最適です。

どんな人がインストールすべきか

PDF、Office ファイル、画像、HTML、メール、アーカイブ、学術系ファイルを構造化出力に変換したいなら、kreuzberg を導入する価値があります。とくに、スキャン品質、バッチ処理、多言語 OCR が重要なケースに向いています。取り込みパイプライン、文書検索、RAG の前処理、抽出ツール作りとの相性が良い skill です。

何が違うのか

kreuzberg skill の最大の強みは、実装寄りであることです。インストール方法、抽出モード、設定、バッチ処理、エラーハンドリング、複数ランタイムにまたがるプラグインまでカバーしています。つまり、実際に動かせるコードが必要なときに、単なる「この文書を分析して」という一般的なプロンプトよりずっと役に立ちます。

kreuzberg skill の使い方

インストールして対象ランタイムを先に確認する

手早く kreuzberg install したいなら、まずは実際に本番で使うランタイムから始めてください。

pip install kreuzberg
npm install @kreuzberg/node
cargo install kreuzberg-cli

次に、対応する API リファレンスを先に読みます: references/python-api.md、references/nodejs-api.md、references/rust-api.md のいずれかです。CLI を使う場合は references/cli-reference.md から始めてください。最初から全部を一度に聞くより、まず 1 つのランタイムと 1 つの文書タイプに絞るほうが、この skill は力を発揮します。

ざっくりした依頼を使えるプロンプトに変える

よい kreuzberg usage のプロンプトには、ファイル形式、抽出目的、ランタイム、制約を入れます。たとえば、「Python で kreuzberg を使って、スキャン済み PDF から請求書のテキスト、表、OCR を抽出し、改行は維持して、下流の解析に使える JSON を返して」といった形です。単に「PDF からデータを抽出して」よりずっと良いのは、表を優先するのか、OCR が必要なのか、きれいなテキストが欲しいのかを skill に伝えられるからです。

まず読むべきファイル

実用的な kreuzberg guide としては、読む順番が大事です。まず SKILL.md、次に references/configuration.md、その後に対象ランタイムの API ファイル、そして references/supported-formats.md を確認してください。プラグイン、OCR の調整、バッチ動作が必要なら、そこで references/advanced-features.md を開きます。この順番にすると、導入可否を左右しやすいポイント、つまりインストール形態、対応入力、設定の既定値が見えやすくなります。

仕事に合うワークフローを使う

1 ファイルだけ処理するなら、まずはシンプルな extract_file か CLI の extract を使い、出力が崩れている場合にだけ MIME ヒントや config を足してください。大量ファイルを処理するなら、早い段階でバッチ用ヘルパーとエラーハンドリングを確認しておくべきです。kreuzberg for PDF Processing では、ベースの抽出呼び出しより OCR 設定と出力形式のほうが重要になることが多いので、スケールさせる前にそこを検証してください。

kreuzberg skill の FAQ

kreuzberg は PDF 専用ですか？

いいえ。PDF は主要な用途のひとつですが、この skill は Office 文書、画像、HTML、メール、アーカイブ、学術系フォーマットも扱います。入力形式が混在する取り込み処理なら、kreuzberg は PDF 専用ツールより適しています。

skill を使う前にライブラリを知っている必要がありますか？

いいえ。ただし、対象ランタイムと出力のゴールは把握しておく必要があります。文書タイプ、OCR の要否、プレーンテキスト、Markdown、JSON、構造化メタデータのどれが欲しいかを説明できれば、kreuzberg skill は初心者にも使いやすいです。

どんな場合に kreuzberg を使わないほうがいいですか？

主な目的が抽出ではなく意味要約なら、kreuzberg は外してください。また、コード出力が不要で、1 つの文書に対して手早い手動プロンプトだけ欲しい場合も、わざわざ使う必要はありません。OCR、表、複数形式対応が要らないパイプラインなら、機能過多になることもあります。

通常のプロンプトと何が違いますか？

通常のプロンプトでも作業内容は説明できますが、kreuzberg usage で重視するのは、文書抽出に必要なインストール、API 呼び出し、config、失敗時の扱いまで含めて整えることです。出力品質がランタイム設定、OCR バックエンドの選択、バッチ処理の詳細に左右されるなら、こちらのほうが向いています。

kreuzberg skill を改善する方法

入力の形を最初に伝える

kreuzberg skill の結果を良くする一番の近道は、ファイル形式、元データの品質、欲しい出力を明示することです。「スキャン済み PDF」「デジタル PDF」「請求書の表」「メールの添付ファイル」「見出しを保持したい」といった情報を入れてください。こうした条件で、OCR、チャンク分割、単純抽出のどれを既定にするべきかが変わります。

避けたい失敗をはっきり書く

最初の出力が微妙なら、何が問題だったのかを伝えてください。たとえば、表が抜ける、改行が壊れる、OCR が遅い、言語判定が不正確、画像ノイズが多い、などです。kreuzberg for PDF Processing では、これにより OCR バックエンド、設定、出力形式のどれを調整すべきかを絞り込みやすくなり、ワークフロー全体を作り直さずに済みます。

具体例を使って反復する

改善ループとしては、失敗したファイルの状況説明と、目標結果を 1 つずつ貼るのが有効です。たとえば、「このスキャン請求書から、請求書番号、合計金額、発行元、明細行を JSON で出したい」といった具合です。「もっと正確にして」とだけ伝えるよりずっと役立ちます。skill 側で、実際のスキーマや文書タイプに合わせた抽出方針を調整しやすくなるからです。

まずは狭く始めて、あとから広げる

最初は 1 つのランタイム、1 つの形式、1 つの抽出モードに絞ってください。基本の kreuzberg install と抽出経路が動いたら、その後でバッチ処理、プラグイン、高度な設定を追加します。こうすると混乱が減り、問題がインストールなのか、OCR なのか、下流の解析なのかを切り分けやすくなります。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

pdf

作成者 anthropics

pdfスキルは、PDF Processingにおけるテキスト抽出、結合・分割、ページの画像化、PDFフォーム処理を支援します。特に、入力可能フィールドの確認、フォームメタデータの抽出、入力不可フォームのレイアウト検証をスクリプトで進めたい場面に役立ちます。

PDF Processing

お気に入り 0GitHub 105.1k

azure-ai-document-intelligence-ts

作成者 microsoft

azure-ai-document-intelligence-tsは、Azure Document Intelligenceを使ってテキスト、表、キー値フィールド、構造化データを抽出するTypeScript向けスキルです。請求書、領収書、ID、フォームなどのOCR抽出に使えるほか、Azure REST SDK認証を用いたNode.jsでの事前構築済みモデルやカスタムモデルのワークフローにも対応します。

OCR Extraction

お気に入り 0GitHub 2.3k

azure-ai-contentunderstanding-py

作成者 microsoft

azure-ai-contentunderstanding-py は、Azure AI Content Understanding 向けの Python スキルです。ドキュメント、画像、音声、動画から構造化コンテンツを抽出し、RAG ワークフローや自動化に活用できます。信頼性の高いマルチモーダル抽出、Azure 認証、再現性のあるパイプライン向け出力が必要な場合に適しています。

RAG Workflows

お気に入り 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

作成者 microsoft

azure-ai-document-intelligence-dotnet は、.NET 開発者が Azure AI Document Intelligence を導入・活用し、請求書、領収書、ID、カスタム文書からテキスト、表、キー値ペア、構造化フィールドを抽出するのを支援します。実運用で役立つセットアップ、認証、OCR 抽出のガイダンスも含み、信頼性の高い文書分析に役立ちます。

OCR Extraction

お気に入り 0GitHub 2.2k

nutrient-document-processing

作成者 PSPDFKit-labs

nutrient-document-processing は、Nutrient DWS を使った PDF Processing のためのワークフロースキルです。変換、結合、分割、OCR、抽出、墨消し、署名、最適化、さらに PDF/A や PDF/UA などのコンプライアンス出力まで、再現性のある文書ワークフローの導入、理解、活用を支援します。

PDF Processing

お気に入り 0GitHub 0

visa-doc-translate

作成者 affaan-m

visa-doc-translate は、ビザ申請書類の画像を英語に翻訳し、原本ページと翻訳ページを並べたバイリンガル PDF を作成します。構造化されたビザ書類、OCR のフォールバック、回転補正、氏名・日付・金額の保持を前提に設計されています。

Translation

お気に入り 0GitHub 156.3k

nutrient-document-processing

作成者 affaan-m

Nutrient DWS API を使って PDF 処理とドキュメント自動化を行う nutrient-document-processing skill です。PDF、DOCX、XLSX、PPTX、HTML、画像などのファイルを変換、OCR、抽出、墨消し、署名、ウォーターマーク追加、入力できます。

PDF Processing

お気に入り 0GitHub 156.2k

hv-analysis

作成者 KKKKhazix

hv-analysis は、製品・企業・概念・技術・人物を構造化された分析レポートに落とし込むための水平×垂直リサーチスキルです。深掘り調査、競合比較、レポート提出用の出力に適しており、Data Analysis 向けの hv-analysis や、整った PDF ワークフローが必要な場面で特に役立ちます。

Data Analysis

お気に入り 0GitHub 9k

azure-ai-formrecognizer-java

作成者 microsoft

azure-ai-formrecognizer-java skill は、Java 開発者が Azure AI Document Intelligence を使って OCR 抽出、表、キー値ペア、請求書、領収書、ID、カスタム文書モデルを扱うための支援をします。現在の `com.azure:azure-ai-documentintelligence` SDK に合わせてあり、実用的な Java のセットアップ、API ガイダンス、再現性のある文書解析が必要なときに役立ちます。

OCR Extraction

お気に入り 0GitHub 2.2k

markitdown

作成者 K-Dense-AI

markitdownは、ファイルやOffice文書をMarkdownに変換し、読みやすさ、分割、検索、LLMワークフローを改善します。このmarkitdownスキルは、PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、OCR付き画像、音声文字起こしに対応しており、形式変換のための実用的なmarkitdownガイドとして使えます。

Format Conversion

お気に入り 0GitHub 0

analyzing-malicious-pdf-with-peepdf

作成者 mukul975

analyzing-malicious-pdf-with-peepdf は、疑わしいPDFを対象にした静的マルウェア解析スキルです。peepdf、pdfid、pdf-parser を使ってフィッシング添付ファイルをトリアージし、オブジェクトを確認し、埋め込み JavaScript や shellcode を抽出し、実行せずに不審なストリームを安全に調査できます。

Malware Analysis

お気に入り 0GitHub 0

analyzing-pdf-malware-with-pdfid

作成者 mukul975

analyzing-pdf-malware-with-pdfid は、ファイルを開く前に埋め込み JavaScript、エクスプロイトの痕跡、オブジェクトストリーム、添付ファイル、疑わしい動作を検出するための PDF マルウェア初動分析スキルです。悪意ある PDF の調査、インシデント対応、Security Audit のワークフローに向けた静的解析をサポートします。

Security Audit

お気に入り 0GitHub 0

pdf

作成者 openai

レイアウト、ページネーション、レンダリング結果が重要な PDF 処理タスクには、pdf スキルを使ってください。ページをレンダリングして結果を確認し、その後に調整するという、ビジュアル重視のワークフローで PDF を読み取り、作成、編集、レビューするのに役立ちます。信頼できる PDF の導入方法、pdf の使い方、文書の正確性を重視した実用的な pdf ガイドが必要なときに向いています。

PDF Processing

お気に入り 0GitHub 0

pdf

作成者 K-Dense-AI

pdfスキルは、実運用できるワークフローの中でPDFファイルを読み取り、抽出し、変換し、作成する必要があるときに役立つ実践ガイドです。テキスト抽出、結合、分割、回転、フォーム入力、暗号化、画像抽出、スキャンPDF向けOCRまでカバーします。一度きりのプロンプトではなく、再現性のあるpdfガイドが必要な場面で使ってください。

PDF Processing

お気に入り 0GitHub 0

Resume Formatter

作成者 Paramchoudhary

Resume Formatter は、崩れたレジュメを、見出しの階層が明確で、余白のバランスがよく、プロらしい構成の、すっきりした ATS 対応ドキュメントに整えるのに役立ちます。Resume Formatter for Resume Writing、応募書類作成、画面でも紙でも読みやすさを保ちたいリデザインに向いています。

Resume Writing

お気に入り 0GitHub 443

minimax-pdf

作成者 MiniMax-AI

minimax-pdfスキルは、見た目の品質と文書としての一貫性が重要なときに、完成度の高いPDFを作成・入力・整形し直すのに役立ちます。CREATE、FILL、REFORMAT の各ワークフローで使え、トークンベースのデザインシステムにより、荒い入力を印刷対応の仕上がりへと変換します。このガイドでは、minimax-pdf のインストール方法、使い方、そしてより良い結果を得るためのルート選択を解説します。

PDF Processing

お気に入り 0GitHub 0