pdf

pdf skill 可处理多种 PDF Processing 任务，包括文本提取、合并与拆分、页面渲染为图片，以及 PDF 表单流程。它尤其适合检查可填写字段、提取表单元数据，并通过脚本验证不可填写表单的版式。

Stars105.1k

收录时间2026年3月28日

分类PDF 处理

安装命令

npx skills add anthropics/skills --skill pdf

编辑评分

该 skill 评分为 84/100，说明它很适合收录到需要处理 PDF 的 agent 目录中。对目录用户来说，它提供了广泛的触发覆盖、较充实的流程说明，以及明确的辅助脚本，尤其适用于表单填写相关场景，因此 agent 通常比依赖通用提示词时更少猜测；不过，运行环境和安装前提在 skill 本身中说明得还不够完整。

84/100

亮点

触发覆盖非常强：描述明确说明，只要用户提到 `.pdf` 或要求生成 PDF，就应使用它，并列举了许多常见的 PDF 任务。
工作流内容有很强的实操价值：`SKILL.md` 提供了核心 PDF 操作示例，`forms.md` 则针对可填写与不可填写表单给出了按顺序组织的说明和命令级步骤。
内置脚本带来直接可执行性：仓库提供了多个实用工具，可用于检查表单字段、提取结构、将 PDF 转为图片、验证边界框，以及填写表单。

注意点

安装与运行要求更多是隐含信息，而不是清晰打包说明：`SKILL.md` 没有提供安装命令，尽管该 skill 依赖 Python 库和命令行工具。
覆盖范围虽广，但部分高级能力被放在参考材料中，用户仍可能需要在不同库和实现方式之间自行选择。

PDF OCR Python Cli 工作流

概览

pdf skill 概览

pdf skill 能做什么

pdf skill 是一套面向 PDF Processing 的实用指南，最有价值的地方在于日常文档操作和表单处理流程。它能帮助 agent 为读取 PDF、提取文本、合并或拆分页、将页面渲染为图片，尤其是正确填写 PDF 表单这类任务，选择合适的工具和执行步骤。

谁适合安装 pdf skill

如果你经常在自动化、数据录入、文档流水线或 agent 工作流里处理 PDF，这个 pdf skill 会非常合适。尤其当你不满足于一句泛泛的“用某个 PDF library 就行”，而是需要针对可填写表单与不可填写表单、页面渲染以及结果校验给出明确路径时，它的价值会更明显。

它真正解决的工作问题

大多数用户并不需要一份宽泛的 PDF 理论说明，而是需要一套可靠的方法来回答这些实际问题：

“怎么从这个 PDF 里提取文本？”
“怎么安全地合并或拆分页？”
“这个表单到底有没有真正可填写的字段？”
“如果没有，我该怎么定位每个值应该填在页面哪里？”
“我该怎么验证字段框之间没有重叠？”

这个 skill 的实用性就在于：它把这些问题变成了可执行的工作流，而不是让 agent 自己猜。

pdf 和普通提示词有什么不同

它和通用 prompt 最大的区别，在于对表单处理有明确的方法纪律。仓库里不仅有 forms.md 这样的专门说明，还有一组辅助脚本，例如：

scripts/check_fillable_fields.py
scripts/extract_form_field_info.py
scripts/extract_form_structure.py
scripts/fill_fillable_fields.py
scripts/fill_pdf_form_with_annotations.py
scripts/check_bounding_boxes.py
scripts/create_validation_image.py

这意味着这个 pdf guide 不只是告诉你有哪些库可用；它还给出了一条围绕表单判断与校验的决策路径，而这恰恰是很多 PDF 自动化最容易失败的地方。

最适合与不太适合的使用场景

当你需要面向 Python 的可执行流程，用于图像转换、页面渲染或表单填写时，就很适合使用 pdf for PDF Processing。

但如果你只想找一个标准库调用的单行提醒，或者你的技术栈完全不在 Python 里、也不想根据 reference.md 自行转写示例，那它的吸引力就没那么强。

如何使用 pdf skill

pdf 的安装背景

从 Anthropic skills 仓库安装这个 skill：

npx skills add https://github.com/anthropics/skills --skill pdf

安装后，不要只快速扫一眼最外层文件；这个 skill 最有价值的内容分散在 SKILL.md、forms.md、reference.md 和 scripts/ 目录中，建议直接在 skill 目录里查看。

建议先读这些文件

如果你想尽快上手，建议按这个顺序打开：

SKILL.md
forms.md
reference.md
scripts/check_fillable_fields.py
scripts/extract_form_field_info.py
scripts/fill_fillable_fields.py

这个顺序之所以重要，是因为：

SKILL.md 先覆盖常见操作和库的选型方向。
forms.md 给出了表单任务必须遵循的分支判断逻辑。
reference.md 扩展到了渲染和 JavaScript 方案。
这些脚本则直接展示了真实的输入输出形式。

写代码前先选对工作流

一个好的 pdf usage 模式，第一步是先给任务分类：

文本提取
页面操作
将 PDF 页面渲染为图片
填写表单
根据数据生成 PDF

这一步一定要先做，因为表单类任务和合并、拆分、提取这类任务走的是完全不同的路径。仓库里也明确强调，表单填写不应该从临时拼凑的 ad hoc 代码开始。

常规 PDF 操作应该怎么做

对于基础的 PDF Processing，这个 skill 优先推荐 pypdf。它是以下任务的默认路线：

读取 PDF
统计页数
提取文本
合并文件
拆分页

如果你的需求是“把这些文件合并起来”或“按页提取文本”，那么 SKILL.md 里的示例就是最快的起点。

页面渲染和图像转换怎么处理

如果你的目标是生成页面截图、预览、做可视化检查，或者为后续的图像处理提供输入，就该看以渲染为中心的材料：

reference.md 里的 pypdfium2
用于 PNG 转换的 scripts/convert_pdf_to_images.py

这一点在仅靠文本提取不够用时尤其重要，比如扫描版 PDF、需要人工目检的表单，或者在加注释前要先验证页面布局的场景。

PDF 表单的关键分支

处理表单时，这个 skill 提供的流程比普通 prompt 更严格。先从这里开始：

python scripts/check_fillable_fields.py <file.pdf>

这一步会先回答一个拦住很多自动化流程的关键问题：

如果 PDF 有可填写字段，就提取字段信息并直接填充这些字段。
如果没有，就转到 forms.md 中的不可填写表单工作流，依赖页面视觉结构和 bounding boxes 来处理。

跳过这一步，是最常见的时间浪费来源。

哪些输入能让 pdf 的结果更好

调用 pdf skill 时，最好明确提供：

准确的文件路径或文件名
PDF 是数字版还是扫描版
你希望得到的输出格式
表单是否可填写
你更看重文本保真、版式保真，还是视觉输出
你是否能在本地运行 Python 脚本

一个较弱的请求：

“帮我处理这个 PDF。”

一个更强的请求：

“我需要填写一个 6 页的政府表单 PDF。先判断它是否有可填写字段；如果有，就把字段元数据提取成 JSON；如果没有，就把每页转成图片，识别填写区域，并在落值前先生成一张 validation image。”

后者能让 agent 一开始就进入正确路径。

如何更好地提示 pdf skill

一种稳定的提示格式是：

goal
file(s)
constraints
desired output
validation requirement

示例：

Goal: 提取 report.pdf 中的表格和逐页文本
Constraints: 仅限 Python，不用 cloud OCR
Desired output: CSV tables 加上每页一份 text dump
Validation: 保留页码，并标出没有文本的页面

这比只说“做 PDF extraction”更好，因为这个 skill 覆盖了多种方法，而结果质量很大程度取决于你是否选对了路径。

可填写 PDF 的表单工作流

如果这个 PDF 确实有真实字段，下一步最有用的命令是：

python scripts/extract_form_field_info.py <input.pdf> <field_info.json>

提取出的 JSON 会包含字段 ID、页码、矩形区域以及字段类型，例如：

text
checkbox
radio_group
choice

这正是表单场景下这个 pdf guide 的实用核心：它给你的是结构化目标，而不是靠视觉去猜。

不可填写 PDF 的表单工作流

如果 PDF 不可填写，forms.md 明确指出，你必须通过视觉方式判断各个值应该落在什么位置。配套脚本体现出的流程大致是：

将 PDF 转成图片
推断表单结构和 bounding boxes
校验这些框的位置
写入 annotations 或生成填写后的输出

这条路比处理可填写字段更慢，但仓库给出的方案比一句“直接 OCR 一下”要现实得多。

在信任输出前先用校验脚本

有两个脚本能明显提升可靠性：

scripts/check_bounding_boxes.py
scripts/create_validation_image.py

当你处理不可填写表单，或者需要根据推断出来的字段位置落值时，应该优先使用它们。它们能在最终输出生成前，帮你发现填写区域重叠、标签碰撞和位置偏移等问题。

这也是这次 pdf install 的一个真实优势：它不只是给转换代码，还给了校验辅助工具。

skill 里涉及的库与工具如何分工

仓库里的实用工具分工大致如下：

pypdf：标准文档操作
pypdfium2：渲染和面向图像的处理
pdf2image：在辅助脚本中用于转换为 PNG
pdf-lib：在 reference.md 中提供 JavaScript 的创建/操作示例

如果你正在判断这个 pdf skill 值不值得安装，这样的工具覆盖面是有参考价值的：它并没有被锁死在单一库上，但又保留了清晰的默认路径。

pdf skill 常见问题

这个 pdf skill 只适合填表吗？

不是。pdf skill 同样覆盖提取、合并/拆分、渲染、生成以及通用 PDF 操作。但和普通 prompt 相比，它在表单工作流上的决策价值最高。

pdf 适合新手吗？

适合，前提是你能运行 Python 脚本。对新手来说，最好的入门路径是先看 SKILL.md 处理简单操作，只有当任务真的涉及表单时再进入 forms.md。这些脚本能大幅减少猜测，但默认你具备本地 Python 环境和基本命令行操作能力。

它比普通的 LLM prompt 强在哪？

它提供了一个具体工作流，帮助你在可填写 PDF 和不可填写 PDF 之间做分支判断，同时还带有校验工具。普通 prompt 可能只会建议一些库；这个 skill 会进一步告诉你什么时候该检查字段、什么时候该渲染页面，以及怎样验证 bounding boxes。

什么情况下不该用这个 pdf guide？

以下情况不建议依赖这个 pdf guide：

你需要的是一个完整打包好的终端用户应用，而不是 skill/workflow
你无法执行本地脚本
你需要的是仓库未明确支持的高级 OCR-first 流水线
你希望得到一个单一、强约束的生产级框架，而不是混合参考型工具集

pdf 也支持 JavaScript 吗？

部分支持。主工作流仍然是 Python 优先，但 reference.md 里包含了 pdf-lib 的 JavaScript 示例。如果你的团队以 JS 为主，这个 skill 依然能帮助你梳理概念和任务拆解；只是从可直接执行的支持力度看，最强的部分仍在 Python。

这个 skill 能处理扫描版 PDF 吗？

可以处理一部分。它能帮助你把页面渲染成图片，并围绕视觉处理组织工作流。但扫描版 PDF 往往还需要 OCR 或更复杂的视觉定位逻辑，因此结果高度依赖文档质量以及你后续选用的工具。

如何改进 pdf skill 的使用效果

先做正确的 PDF 诊断

想提升 pdf usage 效果，最有效的方法是先把文档分类清楚：

文本型还是扫描型
可填写还是不可填写
是文档提取还是表单填写
更看重视觉保真还是文本保真

大多数失败，不是代码语法不好，而是一开始路径就选错了。

提供更强的任务输入

输入越具体，输出通常越好。尽量补充：

示例文件名
页数
是否包含表格、表单或签名
你需要的是可编辑输出，还是只要提取数据
需要填写的准确字段，最好以 JSON 映射提供

对于表单任务，这比写一段自然语言列表好得多，因为这些脚本和工作流本身就更适合接结构化数据。

放大规模前先做校验

不要一上来就先在 200 个 PDF 上测试。先拿一个有代表性的文件运行 pdf skill，重点检查：

文本提取质量
字段元数据是否完整
页面图像渲染效果
bounding box 重叠告警
最终视觉输出

这种小批量验证，能提前抓住那些后期会变得很昂贵的问题。

pdf 工作流中的常见失败模式

这些问题要重点留意：

没检查就默认 PDF 可填写
对扫描文件直接做文本提取，结果几乎是空的
没先检查字段 ID 和字段类型，就直接写入字段值
对不可填写表单跳过 validation image
把渲染输出误当成结构化文本提取结果

这些正是仓库脚本最能帮你兜底的地方。

通过要求完整工作流来改进提示

一个更好的 pdf for PDF Processing 提示，应该要求 agent：

识别文档类型
选择库/工具路径
展示中间输出
在最终定稿前做校验

示例：
“Use the pdf skill to inspect application.pdf. First check if it has fillable fields. If yes, extract field metadata and propose a JSON payload for completion. If no, convert each page to images, identify entry regions, generate a validation image for page 1, and only then suggest the filling approach.”

这种提示方式，通常能同时提升准确率和可验证性。

拿到第一次结果后继续迭代

如果第一版结果不理想，不要只说“再好一点”。要提出更窄、更明确的修正要求：

“改用 rendered images 重新跑，因为文本提取几乎没有内容。”
“把所有 checkbox 和 radio 字段单独列出来。”
“为第 2 页和第 3 页生成 validation overlays。”
“保持原始页序，并按每页输出一个文件。”

这种具体的迭代要求，会让 pdf skill 比宽泛重试有效得多。

把仓库脚本当作事实锚点

当 agent 输出和文档实际情况不一致时，优先相信仓库脚本，而不是自由发挥的推理。对于这个 skill 来说，脚本才是最强的操作事实来源，因为它们明确了预期输入、字段结构以及校验方式。

了解采用这个 pdf install 的取舍

如果你的工作里经常涉及 PDF 表单、版式敏感型流程，或者需要反复处理文档，那么这个 pdf install 值得上。反过来，如果你的需求只是偶尔合并几页，一个通用 prompt 可能就够了。这个 skill 最能体现价值的场景，是你需要可重复、可校验的 PDF Processing，而不是一次性的建议。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

kreuzberg

作者 kreuzberg-dev

kreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取，支持 91+ 种格式，包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流，适用于 OCR、表格、元数据、批量处理以及实用的解析指导。

PDF 处理

收藏 0GitHub 0

azure-ai-document-intelligence-ts

作者 microsoft

azure-ai-document-intelligence-ts 是一个 TypeScript 技能，用于借助 Azure Document Intelligence 提取文本、表格、键值字段和结构化数据。它适合发票、收据、身份证和表单的 OCR 提取，也适合在 Node.js 中结合 Azure REST SDK 认证来使用预置和自定义模型工作流。

OCR 提取

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

作者 microsoft

azure-ai-document-intelligence-dotnet 帮助 .NET 开发者安装并使用 Azure AI Document Intelligence，从发票、收据、身份证件和自定义文档中提取文本、表格、键值对和结构化字段。它包含实用的配置、身份验证以及 OCR 提取指导，便于进行可靠的文档分析。

OCR 提取

收藏 0GitHub 2.2k

nutrient-document-processing

作者 PSPDFKit-labs

nutrient-document-processing 是一个基于 Nutrient DWS 的 PDF 处理工作流技能。它帮助你安装、理解并使用可重复的文档工作流，用于转换、合并、拆分、OCR、提取、脱敏、签署、优化，以及生成 PDF/A 或 PDF/UA 等合规输出。

PDF 处理

收藏 0GitHub 0

visa-doc-translate

作者 affaan-m

visa-doc-translate 可将签证申请文件图片翻译成英文，并生成包含原页与译文的双语 PDF。它面向结构化签证材料，支持 OCR 兜底、旋转处理，并尽量保留姓名、日期和金额等关键信息。

翻译

收藏 0GitHub 156.3k

nutrient-document-processing

作者 affaan-m

nutrient-document-processing 技能，基于 Nutrient DWS API 进行 PDF 处理和文档自动化。可转换、OCR、提取、编辑脱敏、签名、加水印，并填写 PDF、DOCX、XLSX、PPTX、HTML 和图片等文件。

PDF 处理

收藏 0GitHub 156.2k

hv-analysis

作者 KKKKhazix

hv-analysis 是一项横向-纵向研究技能，可将产品、公司、概念、技术或个人转化为结构化分析报告。适合用于深度研究、竞品比较和可直接交付的报告输出，尤其是在你需要用 hv-analysis 做 Data Analysis 或打磨成 PDF 工作流时。

数据分析

收藏 0GitHub 9k

azure-ai-formrecognizer-java

作者 microsoft

azure-ai-formrecognizer-java 技能帮助 Java 开发者使用 Azure AI Document Intelligence 进行 OCR 提取，并处理表格、键值对、发票、收据、身份证件和自定义文档模型。它与当前的 `com.azure:azure-ai-documentintelligence` SDK 保持一致，适合需要实用的 Java 配置、API 指南和可重复文档分析的场景。

OCR 提取

收藏 0GitHub 2.2k

markitdown

作者 K-Dense-AI

markitdown 可将文件和办公文档转换为 Markdown，便于阅读、分块、检索和 LLM 工作流。这个 markitdown 技能支持 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、带 OCR 的图片以及音频转写，是一份实用的 markitdown 格式转换指南。

格式转换

收藏 0GitHub 0

analyzing-malicious-pdf-with-peepdf

作者 mukul975

analyzing-malicious-pdf-with-peepdf 是一项面向可疑 PDF 的静态恶意软件分析技能。可使用 peepdf、pdfid 和 pdf-parser 对钓鱼附件进行初步研判，检查对象，提取内嵌 JavaScript 或 shellcode，并在不执行文件的情况下安全审查可疑流。

恶意软件分析

收藏 0GitHub 0

analyzing-pdf-malware-with-pdfid

作者 mukul975

analyzing-pdf-malware-with-pdfid 是一个用于 PDF 恶意代码初筛的技能，可在打开文件前检测嵌入式 JavaScript、利用特征标记、对象流、附件以及可疑行为。它支持用于恶意 PDF 取证、事件响应，以及 Security Audit 工作流中的静态分析。

安全审计

收藏 0GitHub 0

pdf

作者 openai

在涉及版式、分页和渲染结果的 PDF 处理任务中，使用 pdf skill。它支持你以“先渲染、再检查、后调整”的可视化优先流程来读取、创建、编辑和审阅 PDF。适合需要可靠的 PDF 安装、pdf 用法，以及面向文档准确性的实用 pdf 指南时使用。

PDF 处理

收藏 0GitHub 0

pdf

作者 K-Dense-AI

pdf skill 是一份实用的 PDF 处理指南，适合在工作流中需要读取、提取、转换或创建 PDF 文件时使用。它涵盖文本提取、合并、拆分、旋转、表单填充、加密、图像提取，以及扫描版 PDF 的 OCR。当你需要一份可重复使用的 pdf 指南，而不是一次性提示词时，它尤其合适。

PDF 处理

收藏 0GitHub 0

Resume Formatter

作者 Paramchoudhary

Resume Formatter 可将杂乱的简历整理为清晰、适配 ATS 的文档，强调层次分明、留白均衡和专业结构。它适合用于 Resume Formatter、求职申请以及需要在屏幕和纸面上都保持易读性的简历重设计。

简历写作

收藏 0GitHub 443

minimax-pdf

作者 MiniMax-AI

minimax-pdf 技能可帮助你在重视视觉质量和文档一致性的场景下创建、填充或重排精美 PDF。它适用于 CREATE、FILL 或 REFORMAT 工作流，采用基于 token 的设计系统，把粗糙输入转成可直接印刷的输出。本指南涵盖 minimax-pdf 的安装、使用方法，以及如何选择合适的路由以获得更好结果。

PDF 处理

收藏 0GitHub 0