read-file

作者 duckdb

read-file 帮助代理使用 DuckDB 读取和检查 CSV、JSON、Parquet、Avro、Excel、SQLite、空间文件或远程 URL。可用于预览行、查看 schema、分析数据，并回答“这个文件里有什么”。它更适合读取真实数据制品，不适合源代码。

Stars443

收录时间2026年5月9日

分类办公文档

安装命令

npx skills add duckdb/duckdb-skills --skill read-file

编辑评分

该技能得分为 74/100，适合在目录中收录：它确实提供了一个可用的工作流，能借助 DuckDB 读取多种文件类型和远程 URL；但在可发现性和安装/适配说明上仍有一定不足。用户大概率可以成功触发它，但在配置和适用场景判断上可能还需要多一点经验。

74/100

亮点

触发性强：frontmatter 明确说明它用于读取数据文件或远程 URL，并且明确排除了源代码，有助于代理准确路由请求。
操作流程具体：给出了分步骤的 DuckDB 命令模式，包括一个内联宏，以及针对 HTTP、S3、GCS 和 Azure 的协议特定处理方式。
对代理很有帮助：一个技能覆盖多种数据格式（CSV、JSON、Parquet、Avro、Excel、空间文件、SQLite、blob），相比通用提示更少猜测成本。

注意点

安装决策所需的上下文略显不足：description 很短，也没有支持文件、引用或 README 来帮助用户判断边界情况或集成适配性。
该文件偏重工作流，但预览内容并不完全自包含；用户可能仍需查看完整的 SQL/bash 示例，才能理解其具体行为和限制。

Duckdb 文件 CSV JSON Parquet Excel Sqlite XLSX

概览

read-file 技能概览

read-file 技能帮助 agent 使用 DuckDB 读取并检查数据文件，而不是只根据文件名猜内容。它最适合需要快速预览、结构检查，或对 CSV、JSON、Parquet、Avro、Excel、SQLite、空间文件，或者远程 URL 做轻量分析的用户。如果你的任务是“告诉我这个文件里有什么”或“概括这个数据集”，read-file 技能很合适；如果你要编辑源代码，它就不适合。

read-file 是做什么的

它的核心工作是快速理解数据：读取文件、识别格式，并回答关于内容、结构或明显问题的具体问题。相比通用提示词，这种方式更有用，因为这个技能是围绕 DuckDB 的文件读取器构建的，既支持本地路径，也支持常见的远程来源，例如 https:// 和 s3://。

read-file 最适合什么场景

当输入是一个真实的数据产物，而且你需要一个基于文件本身的答案时，使用 read-file 技能最合适。它尤其适合在把数据载入 notebook、pipeline 或 BI 工具之前，先做第一轮分析。

read-file 的关键差异点

read-file 的主要优势在于支持格式广、而且是一条命令就能跑通的工作流。它的设计目标是减少环境搭建摩擦，解析裸文件名，并处理多种存储后端，而不需要 agent 从零发明一个解析器。

如何使用 read-file 技能

安装并调用 read-file

先在仓库的技能系统里安装 read-file 技能，然后传入一个路径或 URL，再加一个简短问题。一个实用的调用示例是：read-file sales_q1.csv what columns exist and are there nulls? 之所以要走 read-file install 流程，是因为这个技能依赖 DuckDB 支持的环境，而不是普通的纯聊天提示。

给 read-file 输入正确的内容

好的 read-file usage 应该从一个明确的文件引用开始，并配上与文件类型匹配的问题。高质量输入会同时说明文件名、来源和你想要的结果：read-file s3://bucket/events.parquet summarize row count, key columns, and date range。像“分析一下这个”这种模糊输入，会迫使技能自己猜重点。

先阅读仓库文件

做 read-file guide 相关工作时，先看 SKILL.md，再检查相邻的仓库文件，了解约定或 agent 行为。在这个仓库里，SKILL.md 是主要事实来源；没有 rules/、resources/ 或 scripts/ 这些辅助目录来扩展工作流。这意味着，最重要的判断点是理解基于宏的 DuckDB 读取路径，以及远程文件前缀。

能显著提升输出的工作流建议

在调用技能前，先把模糊任务改写成具体分析请求。可以直接要求你真正需要的切片，例如“展示列名、类型、前 20 行，以及可疑空值”，或者“比较这个 Excel 文件里的各个 sheet”。对于 read-file for Office Documents，如果你已经知道工作簿或 sheet，最好明确指出，这样能减少误读，也能节省工具调用次数。

read-file 技能 FAQ

read-file 只适合数据文件吗？

是的。这个技能面向结构化或半结构化数据，不适合应用源代码或纯文字文档。如果用户要做代码审查，应使用其他技能，或者直接用代码阅读类提示词。

使用它需要懂 DuckDB 吗？

不需要。这个技能已经把大部分 DuckDB 复杂性隐藏起来了，但如果你给出聚焦的问题，效果会更好。新手只要能指向一个文件，并说清楚想知道什么，就可以安全使用。

这和直接让 AI“打开文件”有什么不同？

read-file 更可靠，因为它采用明确的文件读取工作流和按格式选择的加载器。这能减少凭空编造的摘要，并改善它在混合文件类型、远程 URL 和较大数据集上的表现。

什么情况下不应该用 read-file？

当文件是源代码、你需要大规模转换，或者输入根本不是文件或 URL 时，不要使用它。如果你需要的是完整的数据库操作，而不是检查和概述，它也不合适。

如何改进 read-file 技能

提出你真正需要的分析

质量提升最大的地方，在于把任务收窄。不要只说“总结这个表格”，而是改成“找出前 10 个类别、每一列的缺失值，以及任何可疑异常值”。read-file 技能最擅长回答能直接对应表格检查的问题。

提供与格式相关的提示

如果文件是 Excel 工作簿，说明你只关心某一个 sheet，还是所有 sheet。若是远程文件，请写全 URL，并在相关时注明存储类型。这些细节能帮助技能选择正确的读取路径，避免不必要的探测。

留意常见失败模式

最常见的问题是歧义：只有裸文件名、存在多个相似文件，或者没有定义数据切片，却要求一个业务结论。另一个失败模式，是把 read-file 当成编辑或 ETL 技能来用。要始终把任务重心放在读取、概况分析和解释文件内容上。

在第一轮之后继续迭代

用第一轮输出来细化下一条提示词。如果初次读取已经暴露了列信息，就只针对重要字段继续深入检查：重复值、空值模式、日期覆盖范围，或分组级汇总。这样能在不把第一轮调用压得过重的前提下，最快拿到更好的 read-file 结果。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

docx

作者 anthropics

docx skill 可帮助智能体创建、检查、转换和编辑 .docx 文件，提供围绕 pandoc、unpack/repack、批注、修订跟踪以及基于 LibreOffice 的转换等实用工作流。

DOCX 工作流

收藏 1GitHub 0

xlsx

作者 anthropics

xlsx skill 适合在交付物必须是电子表格时，让智能体读取、编辑、修复、创建并转换 .xlsx、.xlsm、.csv 和 .tsv 文件。它尤其擅长保留模板的更新、尽量不破坏公式的工作簿编辑、杂乱表格清洗，以及借助仓库脚本完成打包、校验和重算的实用电子表格工作流。

电子表格工作流

收藏 0GitHub 105.1k

nutrient-document-processing

作者 PSPDFKit-labs

nutrient-document-processing 是一个基于 Nutrient DWS 的 PDF 处理工作流技能。它帮助你安装、理解并使用可重复的文档工作流，用于转换、合并、拆分、OCR、提取、脱敏、签署、优化，以及生成 PDF/A 或 PDF/UA 等合规输出。

PDF 处理

收藏 0GitHub 0

minimax-xlsx

作者 MiniMax-AI

minimax-xlsx 技能可帮助你以 Excel 优先的工作流创建、读取、编辑、验证和格式化 Excel 工作簿。适用于需要保留公式、样式、工作表布局和工作簿行为的结构化文件处理场景。它支持 .xlsx、.xlsm、.csv 和 .tsv 任务，包括分析、新建工作簿、最小侵入式编辑、公式修复和校验。minimax-xlsx 指南面向真实工作簿交付，而不是扁平表格。

电子表格工作流

收藏 0GitHub 0

analyzing-macro-malware-in-office-documents

作者 mukul975

analyzing-macro-malware-in-office-documents 帮助恶意软件分析师检查 Word、Excel 和 PowerPoint 文件中的恶意 VBA，解码混淆，并提取 IOC、执行路径和载荷分阶段逻辑，适用于钓鱼分流、事件响应和文档恶意软件分析。

恶意软件分析

收藏 0GitHub 0

notion-knowledge-capture

作者 makenotion

notion-knowledge-capture 可将对话转化为结构化的 Notion 文档、wiki、FAQ 和决策记录。它会提取关键信息，组织成合适的内容类型，并保存到他人容易找到的位置。最适合用于知识库写作场景，适合团队参考其实际用法与指南细节。

知识库写作

收藏 0GitHub 107

pptx-generator

作者 MiniMax-AI

pptx-generator 技能可帮助你更少靠猜测地创建、编辑和检查 PowerPoint 文件。适用于基于笔记、大纲、模板或现有 .pptx 文件制作 Slide Decks，支持 PptxGenJS 生成、基于 XML 的编辑以及 markitdown 文本提取。它是一份实用的 pptx-generator 指南，适合商务、产品、教学和评审等工作流。

演示文稿

收藏 0GitHub 0

visa-doc-translate

作者 affaan-m

visa-doc-translate 可将签证申请文件图片翻译成英文，并生成包含原页与译文的双语 PDF。它面向结构化签证材料，支持 OCR 兜底、旋转处理，并尽量保留姓名、日期和金额等关键信息。

翻译

收藏 0GitHub 156.3k

nutrient-document-processing

作者 affaan-m

nutrient-document-processing 技能，基于 Nutrient DWS API 进行 PDF 处理和文档自动化。可转换、OCR、提取、编辑脱敏、签名、加水印，并填写 PDF、DOCX、XLSX、PPTX、HTML 和图片等文件。

PDF 处理

收藏 0GitHub 156.2k

minimax-docx

作者 MiniMax-AI

minimax-docx 是一项面向 DOCX 的技能，专用于使用 OpenXML SDK 和 .NET 创建、编辑和格式化 Word 文档。它支持三种路径：从零创建、编辑现有内容，以及通过 XSD 验证应用模板格式。适合需要真实 .docx 文件、保留结构与样式、并尽量减少版面意外的场景。

DOCX 工作流

收藏 0GitHub 11.7k

azure-ai-formrecognizer-java

作者 microsoft

azure-ai-formrecognizer-java 技能帮助 Java 开发者使用 Azure AI Document Intelligence 进行 OCR 提取，并处理表格、键值对、发票、收据、身份证件和自定义文档模型。它与当前的 `com.azure:azure-ai-documentintelligence` SDK 保持一致，适合需要实用的 Java 配置、API 指南和可重复文档分析的场景。

OCR 提取

收藏 0GitHub 2.2k

markitdown

作者 K-Dense-AI

markitdown 可将文件和办公文档转换为 Markdown，便于阅读、分块、检索和 LLM 工作流。这个 markitdown 技能支持 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、带 OCR 的图片以及音频转写，是一份实用的 markitdown 格式转换指南。

格式转换

收藏 0GitHub 0

docx

作者 K-Dense-AI

docx 技能可帮助你创建、查看和编辑 Microsoft Word .docx 文件，同时保留文档结构、格式、批注、修订痕迹和图片。适用于报告、备忘录、信函、模板，或对现有文档进行编辑的场景——当最终交付必须保持 Word 格式，且文件保真度比纯文本输出更重要时，尤其合适。

DOCX 工作流

收藏 0GitHub 0

notion-meeting-intelligence

作者 makenotion

notion-meeting-intelligence 技能通过从 Notion 汇总上下文、在有用时加入 Claude 调研，并在 Notion 中创建内部预读材料和对外议程，帮助你做好会议准备。适用于决策评审、状态更新、客户沟通，以及其他需要清晰、可共享结构的 Meeting Prep 工作流。

会议准备

收藏 0GitHub 0

notion-knowledge-capture

作者 makenotion

notion-knowledge-capture 可将对话上下文转化为结构化的 Notion 页面，包括操作指南、FAQ、决策记录和 wiki 更新。它适用于知识库写作场景：当你需要 `notion-knowledge-capture` 这个技能来对内容分类、找到合适的 Notion 目标位置，并让页面更容易被发现时，这个技能会很有帮助。

知识库写作

收藏 0GitHub 0

gws-sheets

作者 googleworkspace

gws-sheets 是 googleworkspace/cli 中用于 Google Sheets 的技能，可通过 Sheets API 读取、写入、追加和更新电子表格。适合需要比通用提示词更细致控制的可重复电子表格工作流，也适合查看面向 API 任务的实用 gws-sheets 指南。

电子表格工作流

收藏 0GitHub 0