data-analytics

作者 markdown-viewer

data-analytics 技能可生成用于数据分析工作流的 PlantUML 图，包括 ETL、ELT、数据湖、数据仓库、流式管道、日志分析和 BI 仪表盘。它针对清晰的源到目标流向、AWS 分析/数据库图形符号，以及实用的数据分析指南式输出进行了优化，而不是通用的软件图或云架构图。

Stars1.1k

收录时间2026年4月13日

分类数据分析

安装命令

npx skills add markdown-viewer/skills --skill data-analytics

编辑评分

该技能得分 78/100，属于目录用户的可靠候选项。它提供了足够具体的工作流指引，能帮助代理更准确地生成所需输出——即数据分析与管道的 PlantUML 图——比通用提示更少依赖猜测；但用户也应预期一些落地上的缺口，例如缺少安装命令和支持文件较少。

78/100

亮点

触发性强：frontmatter 明确将技能限定为数据分析和管道图，并清楚写明 NOT-use 指引，避免被误用到通用 UML 或云建模场景。
工作流实用：包含快速开始、关键规则以及 PlantUML 专属约束，例如 `@startuml`/`@enduml`、从左到右的流向和异步虚线连接。
安装决策价值高：多个示例文件覆盖了 ETL、数据湖、数据仓库、CDC、日志分析和 BI 仪表盘等真实分析模式。

注意点

未提供支持文件或安装命令，因此实际接入主要依赖 `SKILL.md` 和示例，而不是可执行工具链。
该技能高度聚焦 AWS/MxGraph 分析图形符号，因此对非 AWS 的分析架构或通用制图场景帮助较小。

分析 Data Engineering Data Pipelines Business Analytics Dashboard Aws PlantUML

概览

data-analytics 技能概览

data-analytics 技能可以帮助你生成分析系统的 PlantUML 图：ETL 流程、数据湖、数据仓库、流式管道、日志分析和 BI 仪表板。它适合你需要一份 data-analytics 指南，把粗略架构转成一张清晰图表，并使用 AWS 分析与数据库 stencil，而不是只给出一个点名组件的泛化提示词的时候。

如果你想为数据分析工作流快速生成易读的图，而且管道顺序很重要——来源、采集、转换、存储、可视化——就该用这个 data-analytics 技能。它尤其适合展示治理、分层暂存、目录编目，或跨系统的近实时流转。

最适合管道图和数据仓库图的场景

这个技能最强的地方，是能把数据如何流动讲清楚，而不只是列出有哪些工具。它适用于 ETL/ELT、CDC、lakehouse 风格布局、以 Redshift 为中心的数据仓库，以及从业务系统到分析系统的交接。如果你的目标是做一张 data-analytics for Data Analysis 图，让利益相关者一眼扫过去就能看懂，这个技能很合适。

这个技能与众不同的地方

这个仓库对图表结构和语法有明确偏好：它要求使用 PlantUML 代码块、@startuml / @enduml、从左到右的流向，以及 mxgraph.aws4.* stencil 图标。这样生成的图比自由发挥的提示词更统一，也减少了在图标选择和布局上的猜测成本。

什么时候不该用它

不要把 data-analytics 用在通用软件架构、UML 类图，或者大而全的云基础设施图上。如果主线是应用组件而不是数据流动，那么别的技能会产出更好的结果，也更少需要返工。

如何使用 data-analytics 技能

安装并验证技能上下文

对于常规的 data-analytics install，先从仓库安装技能，然后优先检查顶层说明文件：

使用 npx skills add markdown-viewer/skills --skill data-analytics 安装。
打开 SKILL.md，确认图表规则。
在开始自己写提示词之前，先查看 examples/ 里的示例文件。

这个技能很精简，所以示例比长篇规则说明更重要。它们展示了模型应当遵循的实际语法模式。

先从工作流出发，不要先列工具清单

一个优秀的 data-analytics usage 请求，应该按阶段描述数据故事，而不是把一堆 AWS 服务堆在一起。比如，不要只说“画一个包含 Redshift 和 Glue 的数据仓库图”，而要用下面这种方式来说明：

来源：RDS、S3、Kafka、DynamoDB
采集路径：批处理、流式、CDC 或定时 ETL
转换：校验、模式映射、增强
目标：S3 lake、Redshift、Athena 或 OpenSearch
使用方：仪表板、分析师、ML 特征或告警

这种结构能帮助技能选对 stencil 和箭头。

先读最相关的示例

想最快上手，建议按下面顺序预览这些文件：

SKILL.md
examples/etl-pipeline.md
examples/data-lake.md
examples/data-warehouse.md
examples/real-time-streaming.md
examples/multi-source-bi.md

如果你的场景比较特殊，还可以继续查看 examples/cdc-pipeline.md、examples/log-analytics.md 或 examples/ml-feature-pipeline.md。这些示例展示了 data-analytics 技能如何处理异步流、仓库加载和特征工程等边界情况。

能明显提升输出质量的提示技巧

这个技能的好提示词，会提供足够的领域细节来避免图表过于泛化。要包含源系统、流转方式是批处理还是流式，以及数据“完成”时的状态。例如，“展示 PostgreSQL 中的每日订单进入 S3 Parquet，再通过 Glue ETL 进入 Redshift 用于 QuickSight 报表”，就比“画一条分析管道”好得多。

如果你想要更紧凑的结果，可以明确指定哪些阶段需要显示，哪些阶段要省略。这样能让图表更聚焦，也避免不必要的方框。

data-analytics 技能 FAQ

这只适合 AWS 图吗？

基本上是的。data-analytics 技能是围绕 mxgraph.aws4.* stencil 构建的，所以当架构里本身就包含 AWS 服务，或者你想使用 AWS 风格的分析符号时，它最合适。如果你的技术栈大多不是 AWS，它仍然可能可用，但输出会显得不那么自然。

它和普通提示词有什么不同？

普通提示词也能描述管道，但 data-analytics 技能把图表语法、流向和图标约定都编码进去了。当你想要稳定的 PlantUML 输出，而不是一次性的草图时，这一点很重要。对于 data-analytics usage 来说，这个技能更可复用，因为它会把模型往一致的结构上引导。

对新手友好吗？

友好，只要你能用自然语言描述自己的数据流。你不需要精通 PlantUML，但必须把主要阶段和端点说清楚。新手通常最容易拿到好结果的方法，是先复制一个示例模式，再把里面的系统替换成自己的。

什么时候该换别的技能？

如果你需要通用 UML、应用服务拓扑，或者厂商中立的云基础设施图，就应该用别的技能。data-analytics 最擅长的是数据的流动与转换，而不是应用部署本身。

如何改进 data-analytics 技能

先把业务目标交代清楚

最好的 data-analytics 结果，来自能说明图表用途的提示词。要写明受众是工程师、分析师还是管理层，以及这张图需要突出延迟、治理、成本还是报表。这会影响哪些阶段应该在视觉上更突出。

补充会影响设计的约束条件

如果管道里有 schema drift、迟到事件、合规边界或多个消费方，一定要提前说明。这些约束能帮助技能选择更有意义的元素，比如 crawler、catalog、staging bucket 或异步箭头，而不是简单的一条直线。

用具体输入和期望形态来描述

更强的输入通常长这样：

“来自 Salesforce 和 PostgreSQL 的批处理 ETL 进入 S3，再进入 Redshift，带 Glue crawler 和数据质量门禁”
“来自 Kinesis 的实时点击流先经 Lambda enrichment，再进入 OpenSearch 和 S3 archive”
“来自 Aurora 和 DynamoDB 的 CDC 进入数据仓库，包含暂存和回放处理”

这些都比模糊请求更有效，因为它们定义的是路径，而不只是终点。

先检查最薄弱的阶段，再迭代

生成第一版图之后，优先检查最容易破坏可信度的部分：来源标注、转换命名，或 sink 选择。如果流程对了但范围太大，就把提示词收窄到单条管道。如果图是对的，但信息太少，就补上一个真正影响运维的阶段，例如目录编目、校验步骤，或 BI 消费方。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是面向数据库工程的 ClickHouse 最佳实践技能。它围绕 schema 设计、查询调优、写入策略和 agent 连接提供基于规则的建议，让 clickhouse-best-practices 在 ClickHouse 工作流中的触发、审阅和引用都更容易。

数据库工程

收藏 0GitHub 412

chdb-datastore

作者 ClickHouse

chdb-datastore 是一个兼容 pandas 的技能，借助 ClickHouse-backed DataStore API 提供快速数据分析。它支持文件、数据库和云端连接器，支持跨数据源联表，并且只需对 pandas 风格工作流做少量代码改动。若你希望为更大规模数据集提供一个可直接替换的分析层，这份 chdb-datastore 指南会很合适。

数据分析

收藏 0GitHub 0

sympy

作者 K-Dense-AI

使用 sympy 技能在 Python 中进行精确的符号数学运算，涵盖代数、微积分、矩阵、物理公式、数论、几何和代码生成。它能帮助你保持表达式精确，选择合适的 SymPy 模块，并避免大量浮点数带来的错误。适合需要一份实用 sympy 指南来处理符号工作流，以及用于 Data Analysis 的 sympy 的用户。

数据分析

收藏 0GitHub 21.4k

interpreting-culture-index

作者 trailofbits

interpreting-culture-index 可帮助解读 Culture Index 调查、个人档案导出内容以及相关的招聘或辅导记录。这个 interpreting-culture-index 技能适用于岗位匹配、团队动力、倦怠风险、候选人复盘、入职规划和冲突调解。它强调基于箭头相对关系的阅读、反模式检查，以及面向数据分析和决策支持的实用输出。

数据分析

收藏 0GitHub 5k

azure-search-documents-py

作者 microsoft

azure-search-documents-py 是面向后端开发的 Python 版 Azure AI Search 技能，覆盖安装、身份验证、索引设计、向量搜索、混合搜索、语义排序和 agentic retrieval。当前你需要从环境搭建一路做到可用查询模式时，可以使用 azure-search-documents-py 技能获取实操指引。

后端开发

收藏 0GitHub 2.3k

gget

作者 K-Dense-AI

gget 是一款生物信息学技能，可通过 CLI 或 Python 快速、统一地访问 20+ 个基因组数据库和分析工具。适合查询基因信息、BLAST 相关检索、AlphaFold 结构、表达数据、疾病关联以及富集分析等场景，也很适合用于快速探索和 gget 数据分析工作流。

数据分析

收藏 0GitHub 0

channel-economics

作者 alirezarezvani

channel-economics 帮助 RevOps 和商业负责人从完整 cost-to-serve、ROI 视角及受约束的 channel-mix 建议出发，对比直销、合作伙伴、marketplace、reseller 或 OEM 等渠道。包含 Python 脚本、数据模板，以及 channel-economics 使用指南。

收入运营

收藏 0GitHub 22.1k

torch-geometric

作者 K-Dense-AI

面向 PyTorch Geometric 图神经网络的 torch-geometric 技能指南。适用于 torch-geometric 安装帮助、torch-geometric 使用、图分类、节点分类、链接预测、异构图、自定义 MessagePassing 层，以及面向 Machine Learning 工作流的 GNN 扩展与性能优化。

机器学习

收藏 0GitHub 21.4k

rdkit

作者 K-Dense-AI

rdkit 技能适用于需要精细控制的化学信息学工作流：解析 SMILES、SDF、MOL、PDB 和 InChI；计算描述符；生成指纹；执行子结构检索；处理反应；以及构建 2D/3D 坐标。将这份 rdkit 指南用于高级控制、自定义 sanitize，以及面向数据分析的 rdkit 工作流。

数据分析

收藏 0GitHub 21.4k

huggingface-vision-trainer

作者 huggingface

huggingface-vision-trainer 帮你安装并使用一个用于视觉训练任务的 Hugging Face 技能：目标检测、图像分类以及 SAM/SAM2 分割。内容涵盖数据集准备、云端 GPU 配置、评估、Trackio 日志记录和结果推送到 Hub。适合后端自动化和可重复的训练工作流。

后端开发

收藏 0GitHub 10.4k

seo-dataforseo

作者 AgriciDaniel

seo-dataforseo 通过 DataForSEO MCP server 将 Claude 连接到实时 SEO 数据，可用于 SERP 检查、关键词研究、反向链接、页面分析、竞品研究、商家信息和 AI 可见性追踪。它最适合需要真实搜索证据、清晰安装指引以及实用 seo-dataforseo 用法的数据驱动工作流。

关键词研究

收藏 0GitHub 6.2k

pymc

作者 K-Dense-AI

PyMC 是一项用于在 Python 中构建、拟合、检查和比较概率模型的贝叶斯建模技能。可将 pymc 用于分层回归、多层分析、时间序列、缺失数据、测量误差，以及使用 LOO 或 WAIC 进行模型比较。

数据分析

收藏 0GitHub 0

pymatgen

作者 K-Dense-AI

pymatgen 是一个面向 Python 的材料科学工具包，支持晶体结构、相图、电子结构和文件转换。这个 pymatgen 技能可帮助处理涉及 CIF、POSCAR、VASP 和 Materials Project 数据的科研工作流。

科学

收藏 0GitHub 0

geopandas

作者 K-Dense-AI

面向 Python 地理空间矢量数据分析的 geopandas 技能，涵盖 shapefile、GeoJSON 和 GeoPackage 文件。可用于读取、清洗、连接、缓冲区分析、裁剪、重投影和导出空间数据，减少试错成本。

数据分析

收藏 0GitHub 0

analyzing-threat-intelligence-feeds

作者 mukul975

analyzing-threat-intelligence-feeds 可帮助你摄取 CTI 情报源、规范化指标、评估情报源质量，并为 STIX 2.1 工作流丰富 IOC。这个 analyzing-threat-intelligence-feeds 技能面向威胁情报运营和数据分析，提供 TAXII、MISP 及商业情报源的实用指导。

数据分析

收藏 0GitHub 0

azure-ai-textanalytics-py

作者 microsoft

azure-ai-textanalytics-py 是面向 Python 的 Azure AI Text Analytics 技能。它可帮助你完成情感分析、实体识别、关键词提取、语言检测、PII 检测和医疗 NLP。适合需要快速完成 Azure 客户端配置、身份验证，以及在应用、notebook 或数据分析流程中落地文本分析的场景。

数据分析

收藏 0GitHub 0