azure-ai-formrecognizer-java

作者 microsoft

azure-ai-formrecognizer-java 技能帮助 Java 开发者使用 Azure AI Document Intelligence 进行 OCR 提取，并处理表格、键值对、发票、收据、身份证件和自定义文档模型。它与当前的 `com.azure:azure-ai-documentintelligence` SDK 保持一致，适合需要实用的 Java 配置、API 指南和可重复文档分析的场景。

Stars2.2k

收录时间2026年5月7日

分类OCR 提取

安装命令

npx skills add microsoft/skills --skill azure-ai-formrecognizer-java

编辑评分

该技能得分为 78/100，说明它是目录中一个不错的候选项，适合想要 Java 版 Azure Document Intelligence/Form Recognizer 工作流的用户。它提供了足够的触发语、版本指引和代码示例，能帮助 agent 决定是否安装，并以比通用提示更少的猜测开始使用，不过一些运行细节仍然不够完整。

78/100

亮点

对 Java 文档智能任务的触发性很清晰，包括明确的触发短语和直接聚焦 Azure SDK。
操作指引很具体：点出了当前包名、旧版重命名说明、依赖片段和环境变量。
代码示例放在独立的 references 文件中，有助于 agent 更快完成客户端初始化和分析流程。

注意点

技能正文摘录在元数据里显示的工作流信号有限，因此 agent 可能仍需从示例中推断部分任务边界。
没有提供安装命令或辅助脚本，这可能会降低希望获得更完整引导式配置的用户的即开即用体验。

Java Azure OCR PDF Documents 表单文件微软

概览

azure-ai-formrecognizer-java 技能概览

这个技能的用途

azure-ai-formrecognizer-java 技能可帮助你使用 Azure AI Document Intelligence Java SDK 处理 OCR、表单提取、表格捕获、键值对识别、发票和收据解析，以及自定义文档模型。它适合那些需要的不只是一个通用提示词的场景：你希望得到能够连接 Azure、提交文档并稳定处理结构化抽取的 Java 代码。

适合谁安装

如果你正在构建一个需要从 PDF、图片、扫描件、身份证件或业务表单中获取文档智能能力的 Java 应用，就应该安装 azure-ai-formrecognizer-java 技能。它尤其适合想要一个可直接起步的 Azure SDK 示例，而不是只看 OCR 原理介绍的工程师。

核心决策点

当你的任务更偏实现层面时，这个技能最有价值：要选对客户端、接好凭据和 endpoint 配置，并针对文档类型使用正确的分析调用。如果你只是想临时提取一段文本，一个通用提示词可能就够了；如果你需要可重复的 Java 集成，这个技能能节省配置时间，也能减少对 SDK 的试错成本。

如何使用 azure-ai-formrecognizer-java 技能

安装并确认包版本

在你的技能目录中使用 azure-ai-formrecognizer-java install 流程，或者添加包含它的 Microsoft skills 包。仓库证据显示，这个技能现在以 com.azure:azure-ai-documentintelligence 为中心，而不再是旧的 azure-ai-formrecognizer 包。编码前，请先确认项目当前使用的 SDK 版本，避免把旧 API 和新 API 混在一起。

从正确的文件开始

先阅读 SKILL.md，再打开 references/examples.md 查看具体的 Java 初始化和分析模式。这些文件能最快帮助你从依赖配置走到一个可以分析本地文件或远程来源的客户端。如果你是在生产仓库里做改造，还要查看项目把 endpoint 配置、密钥以及请求时的文档路径放在什么位置。

把模糊需求变成可用提示词

一个高质量的 azure-ai-formrecognizer-java usage 提示词应该明确说明：

文档类型：发票、收据、身份证、PDF、图片或自定义表单
输入来源：本地文件、URL 或流
认证方式：API key 或 DefaultAzureCredential
输出需求：纯文本、表格、字段，或类似 JSON 的结构化数据
需要同步还是异步

示例：“使用 azure-ai-formrecognizer-java 在 Java 中分析本地发票 PDF，返回供应商、总额、税额和行项目，并展示一个使用 DefaultAzureCredential 的同步客户端示例。”

避免返工的实用流程

先从 references/examples.md 里选出匹配的分析模式。然后在应用配置中接好 endpoint 和认证。接着用一份具有代表性的文档先做测试，再扩展到批量文件或自定义模型。为了得到更好的结果，提示词要和具体的 Azure 资源以及文档类型保持一致，因为抽取行为会随着模型选择和输入质量而变化。

azure-ai-formrecognizer-java 技能常见问题

这和 Azure AI Form Recognizer 是一回事吗？

能力上大体是同一类东西，但当前这个技能已经对齐到 Azure AI Document Intelligence 的命名和包用法。仓库明确说明了这次更名，并把新项目指向 com.azure:azure-ai-documentintelligence。如果你是从零开始，应该直接走新版 SDK 路径。

什么情况下不该用这个技能？

如果你不用 Java 编码、不会调用 Azure 服务，或者你只需要简单 OCR 而不需要结构化字段抽取，就不该用 azure-ai-formrecognizer-java。如果你被锁定在旧的 azure-ai-formrecognizer API 上、又无法迁移，这个技能也不合适。

它适合新手吗？

如果你已经会基本的 Java 依赖管理，也能设置环境变量，那么它是适合新手的。相比手动翻 SDK 文档，这个技能更容易上手，因为它会把你收敛到正确的客户端配置和示例流程上，但你仍然需要有效的 Azure 资源和认证信息。

它和通用提示词有什么区别？

通用提示词可能会解释 OCR 概念，但 azure-ai-formrecognizer-java usage 依赖的是具体的 SDK 类、包名和分析模式。这个技能在“正确性”重要时更有优势：依赖、endpoint 命名和文档处理细节，都是工作的一部分。

如何改进 azure-ai-formrecognizer-java 技能

先把文档形态说清楚

最大的质量提升来自对输入的清晰描述。要说明你用的是扫描 PDF、照片、发票、收据、身份证，还是自定义表单，并注明文档是干净文本还是噪声较多的 OCR。对于 azure-ai-formrecognizer-java for OCR Extraction 来说，这会直接决定输出应更侧重原始文本、版面布局，还是关键字段。

明确输出契约

强提示词会直接写清楚你要返回哪些字段。比如，“提取发票编号、到期日、小计、税额和总额到 Java DTO 中”就比“分析这张发票”更好。如果你需要表格，一定要明确要求按行和列处理，因为表格抽取正是很多第一次尝试最容易把结果说得不够具体的地方。

注意常见失败模式

最常见的问题包括把旧包名和新包名混用、漏掉 Azure endpoint，以及指望一个模型就能把所有文档类型都处理得很好。另一个常见问题是，实际需要的是结构化抽取，却只按 OCR 去提问。如果第一次结果过于笼统，就要把提示词改得更精确：明确文档类别、认证方式，以及你希望返回的数据形态。

用真实样本迭代，不要靠抽象描述

要提升 azure-ai-formrecognizer-java skill 的输出，最好拿一份有代表性的样本文档，并告诉技能“什么才算正确”。如果第一次提取漏了字段，就补上缺失字段名，说明这些值是在表格里还是页眉里出现的，并要求生成一个与项目 SDK 版本匹配的修订版 Java 示例。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

kreuzberg

作者 kreuzberg-dev

kreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取，支持 91+ 种格式，包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流，适用于 OCR、表格、元数据、批量处理以及实用的解析指导。

PDF 处理

收藏 0GitHub 0

pdf

作者 anthropics

pdf skill 可处理多种 PDF Processing 任务，包括文本提取、合并与拆分、页面渲染为图片，以及 PDF 表单流程。它尤其适合检查可填写字段、提取表单元数据，并通过脚本验证不可填写表单的版式。

PDF 处理

收藏 0GitHub 105.1k

azure-ai-document-intelligence-ts

作者 microsoft

azure-ai-document-intelligence-ts 是一个 TypeScript 技能，用于借助 Azure Document Intelligence 提取文本、表格、键值字段和结构化数据。它适合发票、收据、身份证和表单的 OCR 提取，也适合在 Node.js 中结合 Azure REST SDK 认证来使用预置和自定义模型工作流。

OCR 提取

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-document-intelligence-dotnet

作者 microsoft

azure-ai-document-intelligence-dotnet 帮助 .NET 开发者安装并使用 Azure AI Document Intelligence，从发票、收据、身份证件和自定义文档中提取文本、表格、键值对和结构化字段。它包含实用的配置、身份验证以及 OCR 提取指导，便于进行可靠的文档分析。

OCR 提取

收藏 0GitHub 2.2k

nutrient-document-processing

作者 PSPDFKit-labs

nutrient-document-processing 是一个基于 Nutrient DWS 的 PDF 处理工作流技能。它帮助你安装、理解并使用可重复的文档工作流，用于转换、合并、拆分、OCR、提取、脱敏、签署、优化，以及生成 PDF/A 或 PDF/UA 等合规输出。

PDF 处理

收藏 0GitHub 0

nutrient-document-processing

作者 affaan-m

nutrient-document-processing 技能，基于 Nutrient DWS API 进行 PDF 处理和文档自动化。可转换、OCR、提取、编辑脱敏、签名、加水印，并填写 PDF、DOCX、XLSX、PPTX、HTML 和图片等文件。

PDF 处理

收藏 0GitHub 156.2k

transcribe-video

作者 rameerez

transcribe-video 技能可使用 AWS Transcribe 将视频或音频文件转换为 .srt、.vtt 和 .txt 输出。适合需要字幕、可检索转写稿，或将口语内容整理为干净文本版本的 transcribe-video 场景。它也适用于 transcribe-video 的 Format Conversion 工作流。

格式转换

收藏 0GitHub 23

pdf

作者 K-Dense-AI

pdf skill 是一份实用的 PDF 处理指南，适合在工作流中需要读取、提取、转换或创建 PDF 文件时使用。它涵盖文本提取、合并、拆分、旋转、表单填充、加密、图像提取，以及扫描版 PDF 的 OCR。当你需要一份可重复使用的 pdf 指南，而不是一次性提示词时，它尤其合适。

PDF 处理

收藏 0GitHub 0

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一项工作流技能，用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景，比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策，而不是泛泛的只靠提示词生成视频请求。

视频编辑

收藏 0GitHub 2.7k

skill-creator

作者 anthropics

skill-creator 是一个用于 Skill 编写的元技能，可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案，并借助仓库脚本和审查工具优化触发描述。

Skill 编写

收藏 2GitHub 105.1k

azure-identity-py

作者 microsoft

azure-identity-py 帮助你在 Python 中使用 Microsoft Entra ID 配置 Azure 身份验证。它适合用于选择 DefaultAzureCredential、managed identity 或 service principal 认证，配置环境变量，并排查访问控制和凭据链问题。安装说明、使用模式和实用的配置提示均基于 repo skill file。

访问控制

收藏 0GitHub 2.2k

claude-api

作者 anthropics

claude-api 是一项实用技能，帮助开发者安装并使用 Claude API 与 Anthropic SDK。它可协助选择合适的 SDK 或原生 HTTP 方案，识别对应语言文档，并更稳妥地实现流式输出、tool use、文件、批处理和错误处理，减少试错成本。

API 开发

收藏 0GitHub 105k

wrangler

作者 cloudflare

wrangler 技能可帮助你找到 Cloudflare Workers 的正确 CLI 命令、配置结构和部署步骤。可用于 wrangler 的使用、wrangler 安装检查，以及在构建或交付 Workers 时获取一份实用的 wrangler 指南，适合 Backend Development 场景。

后端开发

收藏 0GitHub 1.3k