dummy-dataset

dummy-dataset 可生成逼真的测试数据，输出为 CSV、JSON、SQL 或 Python 脚本格式。它通过让你定义列、行数和约束条件，帮助制作模拟数据集、演示样例、数据库初始化数据、QA 测试数据以及数据清洗用的示例记录。

Stars11.1k

收录时间2026年5月12日

分类数据清洗

安装命令

npx skills add phuryn/pm-skills --skill dummy-dataset

编辑评分

该技能得分为 68/100，说明可以收录，但需要注明使用前提。目录用户能看到明确的用途、可直接使用的参数，以及一步一步的数据生成流程；相比泛泛的提示词，这些内容更便于 agent 触发执行、减少猜测。不过，它看起来只有一个 `SKILL.md`，没有配套脚本或参考资料，因此适用性信心属于中等，而不是很强。

68/100

亮点

触发条件和使用场景清晰：为测试、演示和开发生成逼真的 dummy 数据集。
操作结构明确，提供了产品、数据集类型、行数、列数、格式和约束等命名参数。
一步一步的工作流加上输出格式（CSV、JSON、SQL、Python script），让 agent 有清晰的执行路径。

注意点

仓库证据显示没有配套脚本、参考资料或其他资源，因此可信度和深度都主要取决于提示文本本身。
实验性/测试性质的信号较明显，更适合示例数据任务，不太适合生产级的数据生成流程。

数据集 CSV JSON Sql Python

概览

dummy-dataset 技能概览

dummy-dataset 的作用

dummy-dataset 技能可以帮你快速生成逼真的测试数据：CSV、JSON、SQL，或者一个之后可再次生成数据的 Python 脚本。它特别适合需要看起来可信的样本记录的人，比如 QA、演示、种子数据，或原型管道，而不只是随手凑出来的填充内容。dummy-dataset 技能的真正价值在于，你可以直接描述业务领域、字段、行数和约束，让输出可用，而不是一眼就能看出是合成数据。

什么时候适合用这个技能

当你在做 Data Cleaning、产品测试、分析 mockup、表单校验和数据库 seeding，并且需要跨字段看起来一致的数据时，适合使用 dummy-dataset。如果你很在意日期、类别、ID 或真实范围这类关系，它会非常合适。反过来，如果你只是需要一次性的玩具示例，或者任务依赖于生产环境里已经存在的真实 schema，那它就没那么有用。

它和普通做法有什么不同

和泛泛的提示词不同，dummy-dataset 技能从一开始就围绕输出格式和约束来设计。这一点很重要，因为你需要的是能真正导入或执行的数据，而不只是“看起来像那么回事”的内容。关键决策点在于：你想要直接可用的文件，还是可复现的生成脚本；这个技能两者都支持。

如何使用 dummy-dataset 技能

安装 dummy-dataset

在你的 skills 环境中安装 dummy-dataset 技能：

npx skills add phuryn/pm-skills --skill dummy-dataset

安装后，先打开技能文件，先弄清楚它期待什么输入、输出风格是什么，再把它放进更大的工作流里去提问。

先读对文件

先看 SKILL.md，然后再检查 README.md、AGENTS.md、metadata.json，以及环境中如果存在的话，rules/、resources/、references/ 或 scripts/ 目录。对这个仓库来说，SKILL.md 是主要事实来源，因为这个技能本身很紧凑，不依赖配套文件。如果你打算把 dummy-dataset 用在真实工作流里，在要最终输出之前，先读生成模板和示例部分。

给出一个技能能执行的提示词

一条好的 dummy-dataset 使用请求，应该包含数据集用途、字段、行数、格式和约束。比如：“Generate a 500-row dummy-dataset for a SaaS billing app with columns for customer_id, plan, signup_date, churned, and MRR in CSV format; keep IDs unique, dates within the last 18 months, and churned consistent with subscription status.” 这比“做一些样本数据”要好得多，因为它给了技能足够的结构，能让数据集保持可信。

提高输出质量的最佳工作流

最好分两步用这个技能：先定义数据集规格，再检查字段和约束是否现实，然后继续微调。如果你要把 dummy-dataset 用在 Data Cleaning 场景里，可以有意要求边界情况，比如缺失值、重复项、格式错误的 email，或者不一致的日期格式。如果你需要脚本，务必一开始就说明语言和执行环境，这样输出才能和你的工具链匹配。

dummy-dataset 技能常见问题

dummy-dataset 适合生产级风格的测试数据吗？

适合，前提是你需要的是结构可控、看起来可信的模拟记录。dummy-dataset 技能在下游工具依赖字段一致性时很有用，但它仍然是合成数据，所以不应把它当作真实用户数据，也不应把它当作你业务的统计模型。

使用它需要编程知识吗？

不需要。初学者完全可以用自然语言描述数据集，并说明想要的格式来使用 dummy-dataset。输入越精确，结果通常越好，但除非你想要 Python 脚本或 SQL insert 输出，否则不需要写代码。

什么时候不该用这个技能？

当你需要对真实记录做匿名化、需要符合法规的合成数据生成，或者需要一个带敏感约束的生产 schema 精确副本时，不要用 dummy-dataset。在这些情况下，专门的数据管道或具备隐私保护能力的工具，往往比基于提示词的 dummy-dataset 指南更合适。

它比普通提示词更好吗？

通常是的，因为 dummy-dataset 技能会推动你把字段、业务规则和输出格式一起定义。普通提示词往往会漏掉其中一项，结果就是数据乍看没问题，但在导入、测试或校验时出错。

如何改进 dummy-dataset 技能

提供更紧的 dataset 规格

提升质量最大的办法，是按字段和规则来定义业务域，而不是只说一个主题。不要只写“生成客户数据”，而是明确要求像 customer_id、segment、signup_date、lifetime_value、status 这样的字段，再加上规则，例如“lifetime_value 应该随 segment 不同而变化”或“signup_date 不能晚于今天”。这样 dummy-dataset 技能会稳定得多。

加上真正会影响下游的约束

如果你打算清洗、校验或导入这些数据，就要说清楚生成后必须满足什么条件。要提到唯一性、空值比例、日期范围、允许的枚举值、类外键关系，以及格式要求。对于用于 Data Cleaning 的 dummy-dataset，可以故意要求受控错误，这样数据才真正能覆盖你的清洗逻辑。

从缺陷迭代，不要从偏好迭代

拿到第一版输出后，修正重点应该放在真正破坏工作流的地方：列名不对、范围不真实、缺少边界情况，或者格式很难加载。然后只针对一两个具体变化，要求一个修正版 dummy-dataset，不要把整个需求从头复述一遍。这样输出更实用，也能避免为了表面细节而过拟合。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

read-file

作者 duckdb

read-file 帮助代理使用 DuckDB 读取和检查 CSV、JSON、Parquet、Avro、Excel、SQLite、空间文件或远程 URL。可用于预览行、查看 schema、分析数据，并回答“这个文件里有什么”。它更适合读取真实数据制品，不适合源代码。

办公文档

收藏 0GitHub 443

data-quality-frameworks

作者 wshobson

data-quality-frameworks 技能可帮助团队使用 dbt tests、Great Expectations 和 data contracts 规划生产环境数据校验。你可以借助它选择合适的检查项、映射到测试金字塔，并为 Data Cleaning 与数据管道可靠性设计适合 CI/CD 的数据质量工作流。

数据清洗

收藏 0GitHub 32.6k

data-analyst

作者 Shubhamsaboo

data-analyst 是一个轻量级 GitHub skill，用于引导代理通过 SQL、pandas 和基础统计分析来完成数据探索。它尤其适合希望仅通过一层 `SKILL.md` 提示，就获得有代码支撑的查询、数据转换与结果解读的用户。

数据分析

收藏 0GitHub 104.2k

frontend-design

作者 anthropics

frontend-design 帮你把模糊的 UI 想法，转化为有审美导向的量产级界面，实现真实可用的前端代码，而不是千篇一律的 AI 风格。

UI 设计

收藏 1GitHub 105.2k

create-colleague

作者 titanwings

create-colleague 可将同事文档、聊天记录、邮件、截图、Feishu 和 DingTalk 数据整理为可编辑的 AI 技能，并分别产出工作风格与人物画像内容，还提供持续迭代的更新流程。

Skill 编写

收藏 1GitHub 747

hyperframes

作者 heygen-com

hyperframes 是一项工作流技能，用于在 HyperFrames 中构建基于 HTML 的视频合成。适用于需要结构化、以代码为先的 hyperframes 视频编辑场景，比如标题卡、叠加层、字幕、配音、音频驱动动效和场景转场。它更强调布局、时序和动画决策，而不是泛泛的只靠提示词生成视频请求。

视频编辑

收藏 0GitHub 2.7k

kreuzberg

作者 kreuzberg-dev

kreuzberg 技能可帮助你安装并使用 Kreuzberg 进行文档抽取，支持 91+ 种格式，包括 PDF、Office 文件、图片、HTML、邮件和压缩包。它覆盖 Python、Node.js/TypeScript、Rust 和 CLI 工作流，适用于 OCR、表格、元数据、批量处理以及实用的解析指导。

PDF 处理

收藏 0GitHub 0

skill-creator

作者 anthropics

skill-creator 是一个用于 Skill 编写的元技能，可用于起草新技能、修改现有 `SKILL.md`、运行评测、对比不同方案，并借助仓库脚本和审查工具优化触发描述。

Skill 编写

收藏 2GitHub 105.1k

azure-identity-py

作者 microsoft

azure-identity-py 帮助你在 Python 中使用 Microsoft Entra ID 配置 Azure 身份验证。它适合用于选择 DefaultAzureCredential、managed identity 或 service principal 认证，配置环境变量，并排查访问控制和凭据链问题。安装说明、使用模式和实用的配置提示均基于 repo skill file。

访问控制

收藏 0GitHub 2.2k

claude-api

作者 anthropics

claude-api 是一项实用技能，帮助开发者安装并使用 Claude API 与 Anthropic SDK。它可协助选择合适的 SDK 或原生 HTTP 方案，识别对应语言文档，并更稳妥地实现流式输出、tool use、文件、批处理和错误处理，减少试错成本。

API 开发

收藏 0GitHub 105k

wrangler

作者 cloudflare

wrangler 技能可帮助你找到 Cloudflare Workers 的正确 CLI 命令、配置结构和部署步骤。可用于 wrangler 的使用、wrangler 安装检查，以及在构建或交付 Workers 时获取一份实用的 wrangler 指南，适合 Backend Development 场景。

后端开发

收藏 0GitHub 1.3k

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是面向数据库工程的 ClickHouse 最佳实践技能。它围绕 schema 设计、查询调优、写入策略和 agent 连接提供基于规则的建议，让 clickhouse-best-practices 在 ClickHouse 工作流中的触发、审阅和引用都更容易。

数据库工程

收藏 0GitHub 412

clickhouse-architecture-advisor

作者 ClickHouse

clickhouse-architecture-advisor 可帮助设计 ClickHouse 工作负载，并针对数据摄取、分区、JOIN、字典、upsert 和预聚合做出符合工作负载的决策。它尤其适用于后端开发、可观测性、SIEM、产品分析、IoT 遥测和金融数据管道。该技能会将建议标记为 official、derived 或 field。

后端开发

收藏 0GitHub 412

figma-generate-library

作者 figma

figma-generate-library 可帮助你从代码库出发，按顺序完成 tokens、组件库、文档以及浅色/深色主题的设计系统构建或更新。需要的是面向 Design Systems 的实用指南，而不是一次性的 mockup 时，就该用 figma-generate-library。它与 figma-use 互补，用于 Plugin API 调用。

设计系统

收藏 0GitHub 0

winui-app

作者 openai

winui-app 技能可帮助你使用 C# 和 Windows App SDK 启动、构建并排查 WinUI 3 桌面应用。适用于环境准备、新应用初始化、Shell 与导航方案选择、XAML 控件、主题、可访问性、部署，以及面向 Frontend Development 的启动修复工作流。

前端开发

收藏 0GitHub 0

speech

作者 openai

使用 speech 技能将文本转换为可朗读的音频，适用于旁白、配音、IVR 提示、无障碍朗读和批量语音生成。它基于 OpenAI Audio API，内置 voices，附带 CLI，并在实际运行时需要 `OPENAI_API_KEY`。不支持自定义 voice 创建。

设计实现

收藏 0GitHub 0