kreuzberg

작성자 kreuzberg-dev

이 kreuzberg 스킬은 PDF, Office 파일, 이미지, HTML, 이메일, 아카이브를 포함한 91개 이상 형식에서 Kreuzberg를 설치하고 사용하는 방법을 안내합니다. OCR, 표, 메타데이터, 일괄 처리, 실전 파싱 가이드를 아우르며 Python, Node.js/TypeScript, Rust, CLI 워크플로까지 폭넓게 다룹니다.

Stars0

즐겨찾기0

추가됨2026년 5월 9일

카테고리PDF Processing

설치 명령어

npx skills add kreuzberg-dev/kreuzberg --skill kreuzberg

큐레이션 점수

이 스킬의 점수는 91/100으로, 디렉터리 사용자에게 매우 유력한 등록 후보입니다. 트리거 가능성이 높고, 실제 업무 흐름을 폭넓게 다루며, 에이전트가 큰 시행착오 없이 설치하고 사용할 수 있을 만큼 운영 정보를 충분히 제공합니다. 저장소에는 Kreuzberg를 언제 사용해야 하는지, 여러 런타임에서 어떻게 설치하는지, 그리고 더 깊은 API/CLI/참조 정보를 어디서 확인해야 하는지가 명확하게 정리되어 있습니다.

91/100

강점

명확하고 실행 가능한 트리거: Python, Node.js/TypeScript, Rust, CLI 전반에서 91개 이상 형식의 텍스트, 표, 메타데이터, 이미지를 추출.
운영 범위가 탄탄함: 설치, 동기/비동기 추출, 설정, 일괄 처리, OCR, 오류 처리, 플러그인까지 스킬 설명과 참조 문서에 모두 포함.
단계적 정보 제공이 좋음: 여러 참조 파일에서 언어별 API, CLI 명령, 설정, 지원 형식, 고급 기능을 각각 확인 가능.

주의점

설치 경로가 여러 참조 문서에 분산되어 있어, 처음 사용하는 사람은 적절한 런타임과 기능 구성을 고르기 위해 SKILL.md를 넘어 추가 문서를 읽어야 할 수 있습니다.
SKILL.md 자체에는 설치 명령이 없어, 스킬 파일만 보는 사용자는 정확한 설정 방법과 기능 플래그를 찾기 위해 참조 문서를 확인해야 할 수 있습니다.

Python Node.js TypeScript Rust Cli API MCP Documents

개요

kreuzberg 스킬 개요

kreuzberg가 하는 일

kreuzberg skill은 Kreuzberg를 사용해 91개 이상의 문서 형식에서 텍스트, 표, 메타데이터, 이미지, OCR 기반 콘텐츠를 추출하도록 도와줍니다. Python, Node.js/TypeScript, Rust, 그리고 CLI를 기본적으로 지원합니다. 단발성 프롬프트로 파싱을 추측하는 수준이 아니라, 실제로 믿고 쓸 수 있는 문서 처리 코드를 필요로 하는 사용자에게 가장 적합합니다.

누가 설치하면 좋은가

PDF, Office 파일, 이미지, HTML, 이메일, 아카이브, 학술 파일을 구조화된 결과로 바꿔야 한다면 kreuzberg를 설치하는 것이 좋습니다. 특히 스캔 품질, 배치 실행, 언어별 OCR이 중요한 작업에 잘 맞습니다. 수집 파이프라인, 문서 검색, RAG 준비, 추출 도구 구성에 강한 선택지입니다.

무엇이 다른가

kreuzberg skill의 핵심 가치는 구현 지향적이라는 점입니다. 여러 런타임에 걸쳐 설치 경로, 추출 모드, 설정, 배치 처리, 오류 처리, 플러그인까지 다룹니다. 그래서 단순히 “이 문서를 분석해줘”라는 일반 프롬프트보다, 실제로 실행 가능한 코드를 얻어야 할 때 훨씬 유용합니다.

kreuzberg 스킬 사용 방법

설치하고 대상 런타임부터 확인하기

빠르게 kreuzberg install을 진행하려면, 실제로 배포할 런타임부터 시작하세요:

pip install kreuzberg
npm install @kreuzberg/node
cargo install kreuzberg-cli

그다음에는 맞는 API 문서를 먼저 읽는 것이 좋습니다: references/python-api.md, references/nodejs-api.md, references/rust-api.md. CLI를 쓴다면 references/cli-reference.md부터 보세요. 이 스킬은 모든 것을 한 번에 묻기보다, 하나의 런타임과 하나의 문서 유형부터 정하는 방식에서 가장 효과적입니다.

거친 요청을 실제로 쓸 수 있는 프롬프트로 바꾸기

좋은 kreuzberg usage 프롬프트는 파일 형식, 추출 목표, 런타임, 제약을 분명하게 적습니다. 예를 들어: “Python에서 kreuzberg를 사용해 스캔된 PDF에서 청구서 텍스트, 표, OCR을 추출하고, 줄바꿈은 유지한 채 후속 파싱에 적합한 JSON으로 반환해줘.”처럼 요청하는 것이 좋습니다. 단순히 “PDF에서 데이터를 추출해줘”라고 하는 것보다 훨씬 낫습니다. 왜냐하면 표, OCR, 깔끔한 텍스트 중 무엇을 우선해야 하는지 알려주기 때문입니다.

먼저 읽어야 할 파일

실용적인 kreuzberg guide 작업이라면 다음 순서로 읽으세요: SKILL.md, references/configuration.md, 해당 런타임의 API 파일, references/supported-formats.md. 플러그인, OCR 튜닝, 배치 동작이 필요할 때만 references/advanced-features.md를 여세요. 이 순서는 채택에 가장 큰 영향을 주는 결정들, 즉 설치 구조, 지원 입력, 기본 설정을 가장 먼저 드러내 줍니다.

작업에 맞는 워크플로를 사용하기

한 개의 파일만 처리한다면, 먼저 단순한 extract_file 호출이나 CLI extract로 시작한 뒤 출력이 잘못될 때만 MIME 힌트나 설정을 더하세요. 여러 파일을 처리한다면, 초기에 배치 헬퍼와 오류 처리를 확인해야 합니다. kreuzberg for PDF Processing에서는 기본 추출 호출보다 OCR 설정과 출력 형식이 더 중요한 경우가 많으니, 규모를 키우기 전에 그 부분부터 검증하는 것이 좋습니다.

kreuzberg 스킬 FAQ

kreuzberg는 PDF 전용인가요?

아닙니다. PDF가 중요한 사용 사례이긴 하지만, 이 스킬은 Office 문서, 이미지, HTML, 이메일, 아카이브, 학술 형식도 다룹니다. 형식이 섞인 수집 작업이라면 kreuzberg가 PDF 전용 도구보다 더 잘 맞습니다.

스킬을 쓰기 전에 라이브러리를 알아야 하나요?

아니요. 다만 대상 런타임과 출력 목표는 알고 있어야 합니다. 문서 유형, OCR 필요 여부, 그리고 일반 텍스트, 마크다운, JSON, 구조화된 메타데이터 중 무엇을 원하는지 설명할 수 있다면 kreuzberg skill은 초보자에게도 충분히 친화적입니다.

언제 kreuzberg를 쓰지 말아야 하나요?

작업의 핵심이 추출이 아니라 의미 요약이라면, 또는 코드 출력이 필요 없는 단일 문서를 빠르게 다루는 수동 프롬프트만 필요하다면 kreuzberg를 생략하세요. OCR, 표, 다중 형식 지원이 전혀 필요 없는 파이프라인이라면 과한 선택일 수도 있습니다.

일반 프롬프트와 무엇이 다른가요?

일반 프롬프트는 작업을 설명할 수는 있지만, kreuzberg usage는 문서 추출에 맞는 설치, API 호출, 설정, 실패 처리까지 제대로 맞추는 데 초점이 있습니다. 그래서 출력 품질이 런타임 설정, OCR 백엔드 선택, 배치 처리 세부사항에 좌우될 때 더 유리합니다.

kreuzberg 스킬 개선 방법

입력 형태를 처음부터 분명히 밝히기

가장 좋은 kreuzberg skill 결과는 파일 형식, 원본 품질, 원하는 출력이 명확한 프롬프트에서 나옵니다. “스캔된 PDF”, “디지털 PDF”, “청구서 표”, “이메일 첨부파일”, “헤딩 유지”처럼 구체적으로 적으세요. 이런 정보에 따라 OCR, 청킹, 단순 추출 중 무엇을 기본값으로 삼을지가 달라집니다.

피하고 싶은 실패 양상을 말하기

첫 결과가 만족스럽지 않다면, 무엇이 문제였는지 정확히 알려주세요: 표 누락, 줄바꿈 깨짐, 느린 OCR, 잘못된 언어 감지, 노이즈가 많은 이미지 등입니다. kreuzberg for PDF Processing에서는 이렇게 해야 OCR 백엔드, 설정, 출력 형식 중 무엇을 조정할지 좁혀지므로, 전체 워크플로를 다시 쓰지 않아도 됩니다.

구체적인 예시로 반복 개선하기

더 나은 개선 루프는 실패한 파일 설명 한 개와 목표 결과 한 개를 함께 제시하는 것입니다. 예를 들어: “이 스캔된 청구서는 청구서 번호, 총액, 공급업체, 항목별 내역을 JSON으로 만들어야 해.”라고 말하는 식입니다. “더 정확하게 해줘”보다 훨씬 유용합니다. 스킬이 실제 스키마와 문서 유형에 맞춰 추출 조언을 조정할 수 있기 때문입니다.

좁게 시작한 뒤 범위를 넓히기

처음에는 하나의 런타임, 하나의 형식, 하나의 추출 모드로 시작하세요. 기본 kreuzberg install과 추출 경로가 동작하면 그다음에 배치 처리, 플러그인, 고급 설정을 추가하면 됩니다. 이렇게 하면 혼란을 줄일 수 있고, 문제가 설치인지, OCR인지, 아니면 후속 파싱인지 확인하기도 쉬워집니다.

평점 및 리뷰

아직 평점이 없습니다

리뷰 남기기

이 스킬의 평점과 리뷰를 남기려면 로그인하세요.

0/10000

최신 리뷰

저장 중...

이 카테고리의 다른 스킬

pdf

작성자 anthropics

pdf 스킬은 텍스트 추출, 병합·분할, 페이지 이미지 렌더링, PDF 폼 처리 같은 PDF Processing 작업을 안내합니다. 채울 수 있는 필드 확인, 폼 메타데이터 추출, 스크립트를 통한 비입력형 폼 레이아웃 검증에 특히 유용합니다.

PDF Processing

즐겨찾기 0GitHub 105.1k

azure-ai-document-intelligence-ts

작성자 microsoft

azure-ai-document-intelligence-ts는 Azure Document Intelligence로 텍스트, 표, 키-값 필드, 구조화된 데이터를 추출하는 TypeScript 스킬입니다. 송장, 영수증, 신분증, 양식에서 OCR 추출이 필요할 때, 또는 Node.js에서 Azure REST SDK 인증을 사용해 사전 빌드 및 사용자 지정 모델 워크플로가 필요할 때 적합합니다.

OCR Extraction

즐겨찾기 0GitHub 2.3k

azure-ai-contentunderstanding-py

작성자 microsoft

azure-ai-contentunderstanding-py는 Azure AI Content Understanding용 Python 스킬입니다. 문서, 이미지, 오디오, 비디오에서 구조화된 콘텐츠를 추출해 RAG 워크플로와 자동화에 활용할 수 있습니다. 신뢰할 수 있는 멀티모달 추출, Azure 인증, 그리고 반복 가능한 파이프라인용 출력을 필요로 할 때 적합합니다.

RAG Workflows

즐겨찾기 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

작성자 microsoft

azure-ai-document-intelligence-dotnet은 .NET 개발자가 Azure AI Document Intelligence를 설치하고 활용해 송장, 영수증, 신분증, 사용자 지정 문서에서 텍스트, 표, 키-값 쌍, 구조화된 필드를 추출하도록 돕습니다. 신뢰할 수 있는 문서 분석을 위한 실무 중심의 설정, 인증, OCR 추출 가이드를 포함합니다.

OCR Extraction

즐겨찾기 0GitHub 2.2k

nutrient-document-processing

작성자 PSPDFKit-labs

nutrient-document-processing은 Nutrient DWS를 활용한 PDF 처리용 워크플로 스킬입니다. 변환, 병합, 분할, OCR, 추출, 삭제(redact), 서명, 최적화, 그리고 PDF/A나 PDF/UA 같은 컴플라이언스 출력까지, 반복 가능한 문서 워크플로를 설치하고 이해하고 활용하는 데 도움을 줍니다.

PDF Processing

즐겨찾기 0GitHub 0

visa-doc-translate

작성자 affaan-m

visa-doc-translate는 비자 신청 서류 이미지를 영어로 번역하고, 원본 페이지와 번역본을 함께 담은 이중언어 PDF를 생성합니다. 구조화된 비자 서류, OCR 대체 처리, 회전 보정, 이름·날짜·금액 보존을 고려해 설계되었습니다.

Translation

즐겨찾기 0GitHub 156.3k

nutrient-document-processing

작성자 affaan-m

Nutrient DWS API를 활용한 PDF 처리 및 문서 자동화용 nutrient-document-processing skill입니다. PDF, DOCX, XLSX, PPTX, HTML, 이미지 같은 파일을 변환, OCR, 추출, 마스킹, 서명, 워터마크 추가, 채우기까지 처리할 수 있습니다.

PDF Processing

즐겨찾기 0GitHub 156.2k

hv-analysis

작성자 KKKKhazix

hv-analysis는 제품, 회사, 개념, 기술, 인물을 구조화된 분석 보고서로 바꾸는 수평-수직 리서치 스킬입니다. 심층 조사, 경쟁 비교, 보고서용 결과물이 필요할 때 hv-analysis를 사용하세요. 특히 Data Analysis나 세련된 PDF 워크플로우를 위한 hv-analysis가 필요할 때 유용합니다.

Data Analysis

즐겨찾기 0GitHub 9k

azure-ai-formrecognizer-java

작성자 microsoft

azure-ai-formrecognizer-java 스킬은 Java 개발자가 Azure AI Document Intelligence를 활용해 OCR 추출, 표, 키-값 쌍, 청구서, 영수증, 신분증, 사용자 지정 문서 모델을 다루는 데 도움을 줍니다. 현재 `com.azure:azure-ai-documentintelligence` SDK와 맞춰져 있으며, 실무적인 Java 설정, API 안내, 반복 가능한 문서 분석이 필요할 때 유용합니다.

OCR Extraction

즐겨찾기 0GitHub 2.2k

markitdown

작성자 K-Dense-AI

markitdown은 파일과 오피스 문서를 Markdown으로 변환해 더 쉽게 읽고, 청킹하고, 검색하고, LLM 워크플로에 활용할 수 있게 해줍니다. 이 markitdown 스킬은 PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, OCR이 포함된 이미지, 음성 전사까지 지원해 형식 변환용 markitdown 가이드로 실용적입니다.

Format Conversion

즐겨찾기 0GitHub 0

analyzing-malicious-pdf-with-peepdf

작성자 mukul975

analyzing-malicious-pdf-with-peepdf는 의심스러운 PDF를 위한 정적 악성코드 분석 skill입니다. peepdf, pdfid, pdf-parser를 사용해 피싱 첨부파일을 분류하고, 객체를 검사하고, 포함된 JavaScript나 shellcode를 추출하며, 실행 없이 수상한 스트림을 안전하게 검토할 수 있습니다.

Malware Analysis

즐겨찾기 0GitHub 0

analyzing-pdf-malware-with-pdfid

작성자 mukul975

analyzing-pdf-malware-with-pdfid는 파일을 열기 전에 내장 JavaScript, 익스플로잇 흔적, 오브젝트 스트림, 첨부 파일, 수상한 동작을 찾아내는 PDF 악성코드 분류 스킬입니다. 악성 PDF 조사, 사고 대응, Security Audit 워크플로에서의 정적 분석을 지원합니다.

Security Audit

즐겨찾기 0GitHub 0

pdf

작성자 openai

레이아웃, 페이지 구성, 렌더링 결과가 중요한 PDF Processing 작업에 pdf 스킬을 사용하세요. 페이지를 렌더링해 결과를 확인하고, 그다음 조정하는 시각 중심 워크플로로 PDF를 읽고, 만들고, 편집하고, 검토할 수 있습니다. 신뢰할 수 있는 PDF 설치, pdf 사용법, 문서 정확도를 위한 실용적인 pdf 가이드가 필요할 때 적합합니다.

PDF Processing

즐겨찾기 0GitHub 0

pdf

작성자 K-Dense-AI

pdf skill은 워크플로에 바로 넣어 쓸 수 있는 PDF Processing 실무 가이드입니다. PDF 파일을 읽고, 추출하고, 변환하거나 새로 만들 때 도움이 되며, 텍스트 추출, 병합, 분할, 회전, 폼 입력, 암호화, 이미지 추출, 스캔 PDF용 OCR까지 다룹니다. 일회성 프롬프트 대신 반복해서 쓸 수 있는 pdf 가이드가 필요할 때 적합합니다.

PDF Processing

즐겨찾기 0GitHub 0

Resume Formatter

작성자 Paramchoudhary

Resume Formatter는 어수선한 이력서를 명확한 계층 구조, 균형 잡힌 여백, 전문적인 구성의 깔끔한 ATS 친화적 문서로 다듬는 데 도움을 줍니다. 이 스킬은 Resume Formatter for Resume Writing, 구직 지원, 그리고 화면과 종이에서 모두 읽기 쉬워야 하는 재디자인 작업에 유용합니다.

Resume Writing

즐겨찾기 0GitHub 443

minimax-pdf

작성자 MiniMax-AI

minimax-pdf 스킬은 시각적 완성도와 문서 고유성이 중요한 상황에서 세련된 PDF를 만들고, 채우고, 재구성하는 데 도움을 줍니다. 거친 입력을 인쇄용 출력물로 바꾸는 토큰 기반 디자인 시스템을 통해 CREATE, FILL, REFORMAT 워크플로우에 활용할 수 있습니다. 이 가이드는 minimax-pdf 설치, minimax-pdf 사용법, 그리고 더 나은 결과를 위한 경로 선택을 다룹니다.

PDF Processing

즐겨찾기 0GitHub 0