data-analyst

作者 Shubhamsaboo

data-analyst 是一个轻量级 GitHub skill，用于引导代理通过 SQL、pandas 和基础统计分析来完成数据探索。它尤其适合希望仅通过一层 `SKILL.md` 提示，就获得有代码支撑的查询、数据转换与结果解读的用户。

Stars104.2k

收录时间2026年4月1日

分类数据分析

安装命令

npx skills add Shubhamsaboo/awesome-llm-apps --skill data-analyst

编辑评分

该技能评分为 66/100，说明它可以作为目录中的可选项，适合想要轻量级数据分析提示辅助的用户，但不应期待太强的实际落地深度。仓库对何时调用该技能以及涵盖哪些主题说明得较为清楚，但尚未提供足够具体的工作流、示例或实现产物，因此在减少使用者猜测成本方面，仍弱于更成熟的技能。

66/100

亮点

描述和“适用场景”部分清楚说明了何时触发该技能，适合处理数据分析、SQL、pandas 和统计相关请求。
它围绕常见分析师任务定义了连贯的范围，包括查询、清洗、转换和模式发现等工作。
输出指导要求提供带注释的 SQL/pandas 代码、示例结果、性能说明和结果解读，比单纯的角色提示更具可执行性。

注意点

没有可直接运行的示例、配套文件或安装/使用命令，因此代理需要根据较为通用的说明自行推断具体执行细节。
技能列出了较广的能力范围，但在具体场景下如何选择 SQL、pandas 或统计方法，提供的约束与决策规则仍然偏少。

Sql Python 分析

概览

data-analyst skill 概览

data-analyst skill 是一个轻量、聚焦的提示层，面向需要 SQL、pandas 和基础统计推理的 Data Analysis 场景。它最适合这类用户：已经有数据集、表结构、查询目标或探索性问题，希望拿到比通用聊天提示更稳定、更可执行的分析输出。

data-analyst 主要是为了解决什么问题

这个 data-analyst skill 会把 agent 的行为引导到以下方向：

编写用于提取和转换的 SQL
使用 pandas 做清洗、分组、重塑以及时间序列相关处理
应用描述性统计、相关性检查和基础假设检验逻辑
返回代码和解释，而不只是泛泛而谈的评论

它真正要解决的，不是抽象地“更有分析能力”，而是把“找出流失驱动因素”或“帮我探索这个 CSV”这类模糊请求，转成可执行的分析步骤、代码以及可供你核查的结论。

谁适合安装 data-analyst skill

最适合的人群：

想更快产出第一版 SQL 或 pandas 工作流的分析师
偶尔需要做数据探索的工程师
希望得到代码支撑答案、而不只是高层建议的 AI 用户
使用 agent 做临时分析、数据清洗或探索性诊断的团队

不太理想的情况：

期待这个 skill 单独完成图表渲染、notebook 执行或数据库连接的用户
需要严格模型选择、因果推断或生产级 ML pipeline 的高级统计/算法使用者

这个 data-analyst skill 和通用提示词有什么不同

data-analyst 的核心优势在于边界清晰。这个 skill 明确把重点放在 SQL、pandas 和统计分析上，因此 agent 更容易：

根据问题选对分析工具
输出结构化代码，而不是空泛解释
附带注释、示例输出、性能说明和结果解读
始终围绕常见数据分析工作流展开

相比宽泛的“分析这份数据”提示，这种方式在真实工作里更有用，尤其是在你需要一份能直接运行或快速改造的结果时。

仓库里实际包含什么

这个 skill 是刻意保持极简的。从仓库可见信息来看，只有一个 SKILL.md 文件，没有辅助脚本、规则文件、参考资料或示例数据集。这一点会直接影响是否值得采用：

安装和上手都很简单
行为边界容易理解
隐藏逻辑更少
输出质量会高度依赖你的提示质量和数据上下文

如果你要的是一个带强约束框架、测试资产或决策树的方案，那它不是这一类。如果你想要一个干净、可快速调用的 data-analyst skill，专门处理 SQL / pandas / 统计分析任务，它就很合适。

如何使用 data-analyst skill

data-analyst skill 的安装上下文

如果你的 agent 环境支持 GitHub 托管的 skills，可以从包含它的仓库安装 data-analyst：

npx skills add Shubhamsaboo/awesome-llm-apps --skill data-analyst

如果你的客户端使用的是其他 skills loader，可以把源路径改成：

awesome_agent_skills/data-analyst

由于这个仓库只暴露了 SKILL.md，所以在决定是否试用前，你不需要额外检查其他依赖文件。

使用 data-analyst 之前先读这个文件

先看这里：

awesome_agent_skills/data-analyst/SKILL.md

这个 skill 目录中没有配套的 README.md、metadata.json、rules/ 或 resources/ 文件，所以几乎所有可用指导都集中在这一个文件里。读它是为了弄清楚：

什么时候应该调用这个 skill
它预期擅长哪些能力范围
推荐的输出风格是什么

data-analyst skill 需要什么样的输入

data-analyst install 本身很简单；真正决定结果好坏的，是安装后你提供给 agent 的输入。至少应提供以下信息中的一部分：

表结构或 CSV 列名
数据类型和日期字段
业务问题
示例行
期望粒度、筛选条件或时间范围
输出偏好：SQL、pandas、统计解释，或三者都要

弱输入：

“Analyze my sales data.”

强输入：

“Use the data-analyst skill. I have an orders table with order_id, customer_id, order_date, country, channel, revenue, and is_refunded. Write SQL to calculate monthly revenue, refund rate, and repeat-purchase rate for 2024 by country and channel. Then explain what patterns to look for.”

更强的版本能显著减少在指标、维度和时间范围上的猜测空间。

如何把模糊目标改写成可用提示词

一个好的 data-analyst usage 提示，通常包含五个部分：

Context — 你手头有什么数据集或系统
Question — 你要回答什么决策问题或洞察问题
Structure — schema、字段、join 关系、日期规则
Constraints — SQL dialect、只能用 pandas、不画图等
Output format — 查询、代码、解释、校验步骤

示例提示词：

“Use the data-analyst skill for Data Analysis. I need pandas code to inspect a customer support CSV. Columns: ticket_id, created_at, resolved_at, priority, channel, csat_score, agent_id. Clean missing values, compute resolution time in hours, summarize by priority and channel, flag outliers, and explain what metrics might indicate process issues. Assume the file is already loaded into a DataFrame named df.”

SQL 任务的最佳工作流

如果工作以 SQL 为主，建议按这个顺序来：

提供 schema 和 join key
精确定义指标
如果 SQL 方言有区别，要明确写出
要求同时给出 query 和解释
在运行前要求检查 edge case

一个很实用的补充提示：

“State any assumptions about nulls, duplicate keys, and date boundaries before writing the final query.”

这样能改善输出质量，因为 SQL 出错很多时候不是语法问题，而是那些没说出口的假设。

pandas 任务的最佳工作流

做 pandas 任务时，最好明确告诉这个 skill：

DataFrame 名称
日期是否已经解析
预期行数或内存约束
你要一次性分析代码，还是可复用的转换代码

一个更强的 pandas 请求写法：

“Use pandas only. df has 4 million rows, so avoid unnecessary copies. Show memory-conscious cleaning steps, groupby summaries, and missing-value diagnostics.”

这会帮助 agent 产出更实用的代码，而不是演示性质的 toy example。

如何更有效地提出统计分析需求

当统计问题足够具体时，data-analyst guide 才最有价值。建议你明确说明：

假设是什么
涉及哪些变量
是否存在对比组
你需要多高程度的严谨性

更好的问法：

“Compare average order value between paid search and organic traffic. Recommend an appropriate significance test, explain assumptions, and show pandas code to run it.”

更差的问法：

“Do some stats on this data.”

这个 skill 能覆盖描述性统计、相关性分析和基础检验逻辑，但如果你的决策风险很高，它不能替代专业统计审查。

使用 data-analyst 时可以期待什么输出

根据 skill 定义，高质量输出通常应包含：

SQL 查询或 pandas 代码
清晰注释
示例结果
性能方面的考虑
对结论的解释

这种输出结构在实际工作里很有价值，因为它不仅给你一个可以运行的结果，也给了足够的解释，方便你在执行前先做逻辑核查。

能明显提升输出质量的实用技巧

一些小的提示词升级，就能明显改善 data-analyst for Data Analysis 的工作流效果：

明确说明你要的是探索性分析，还是最终指标。
告诉它数据是不是很脏、很稀疏，或者字段很多很宽。
提前指出你怀疑的问题，比如重复记录、时间戳缺失、分类不一致。
不只要主查询，也要求提供校验查询。
如果存在取舍，要求给出备选方案。

例如：

“After the main SQL, add a validation query to check duplicate customer_id + order_date combinations and null rates in revenue columns.”

这个 skill 不会替你完成什么

因为这个 skill 本质上只是一个提示文件，所以它本身并不会：

连接数据库
执行 SQL
加载文件
分析你的运行环境
保证统计结论一定正确

你仍然需要自己的 runtime、数据库访问能力和业务判断。这个 skill 改善的是 agent 的分析框架，不是替代工具链或领域审查。

data-analyst skill 常见问题

如果我平时已经用普通提示词了，还值得安装 data-analyst skill 吗？

通常值得，特别是当你经常让模型写 SQL、pandas 或做探索性分析时。它的价值不在于隐藏式自动化，而在于更好的默认分析姿态。通用提示词往往回答得很宽泛；data-analyst 更容易给出贴近分析师工作方式的代码、假设和解释。

data-analyst skill 对新手友好吗？

友好，但有一个前提：新手仍然需要提供 schema 和业务上下文。这个 skill 可以帮你组织分析过程，但救不了一个定义严重不足的请求。如果你刚接触 SQL 或 pandas，可以明确要求它逐步解释，并给代码加上更详细的注释。

什么情况下不该用 data-analyst？

如果你的任务主要是以下内容，就不建议用 data-analyst：

dashboard 设计
高级机器学习
因果推断
数据工程编排
强可视化导向的工作

它最擅长的是探索性分析、转换逻辑、查询，以及相对直接的统计推理。

data-analyst 支持特定数据库或库栈吗？

这个 skill 提到了 SQL、Python with pandas 和 statistical analysis，但并没有把你绑定到某一个 SQL engine 或某一种数据平台上。这种灵活性是优点，但也意味着在需要时你应该明确写出方言，比如 PostgreSQL、BigQuery、Snowflake 或 SQLite。

这个 skill 足够支撑生产级分析工作吗？

它可以加速生产工作，但本身不等于生产保障。你仍然需要检查生成 SQL 的性能、和业务方确认指标定义，并在真实数据上验证输出。这个 skill 是起草和推理辅助工具，不是执行结果的保证。

如何改进 data-analyst skill 的使用效果

给 data-analyst skill 提供更完整的分析上下文

影响质量最大的杠杆，就是上下文密度。尽量提供：

schema
业务定义
示例记录
已知数据质量问题
成功标准

缺少这些信息时，这个 skill 依然可能回答得很流畅，但分析方向可能会慢慢偏离你的真实指标逻辑。

在最终代码前先要求列出假设

提升 data-analyst skill 输出质量的最高效方法之一，就是先把假设摊开说清楚。

可以这样要求：

“Before writing the final SQL, list assumptions about joins, null handling, duplicate events, and time windows.”

这能提前暴露很多常见失败模式：

一对多 join 导致计数膨胀
日期粒度选错
类别字段理解错误
做了无效的统计比较

不只要答案，也要校验步骤

高质量的 data-analyst guide 提示词，会要求模型验证自己的结果。

有用的补充包括：

“Provide one validation query.”
“Show sanity checks for row counts before and after filtering.”
“Point out which result would be suspicious and why.”
“List possible confounders before interpreting the correlation.”

很多时候，这比单纯要求更长的解释更有价值。

如果第一轮答案太泛，就把任务拆窄

如果第一次回复里把 SQL、pandas 和统计分析全混在一起了，可以把工作流拆开：

理解 schema
编写提取 query
清洗 / 转换
统计解释
面向业务方的总结

当每一轮只聚焦一个分析目标时，data-analyst skill 的表现通常会更好。

用运行约束提升 pandas 结果质量

当你明确告诉模型哪些运行层面的因素更重要时，pandas 输出通常会更好：

是否对内存敏感
偏 notebook 风格还是 script 风格
是否优先使用向量化操作
可读性和速度之间如何取舍

例如：

“Optimize for readable notebook code, but avoid row-wise apply unless necessary.”

这类指令会实实在在改变代码质量，而这往往是通用提示词容易忽略的地方。

迭代优化时，不要只盯着代码

拿到第一版答案后，可以继续追问：

“Which conclusion is strongest, and what evidence supports it?”
“What could make this result misleading?”
“What segment cut would you check next?”
“What additional column would most improve confidence?”

这正是 data-analyst for Data Analysis 超越单纯代码生成的地方：它可以帮助你从数据提取进一步走向决策支持。

需要重点防范的常见失败模式

即使使用了 data-analyst skill，也建议你重点检查以下问题：

join 错误
没说出口的指标假设
null 处理失误
过度自信的统计结论
与你的 schema 不匹配的示例输出
大表上的低效 SQL

这个 skill 小而实用，但并没有通过规则或测试夹具做很深的约束，所以你的复核流程依然非常关键。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是面向数据库工程的 ClickHouse 最佳实践技能。它围绕 schema 设计、查询调优、写入策略和 agent 连接提供基于规则的建议，让 clickhouse-best-practices 在 ClickHouse 工作流中的触发、审阅和引用都更容易。

数据库工程

收藏 0GitHub 412

chdb-datastore

作者 ClickHouse

chdb-datastore 是一个兼容 pandas 的技能，借助 ClickHouse-backed DataStore API 提供快速数据分析。它支持文件、数据库和云端连接器，支持跨数据源联表，并且只需对 pandas 风格工作流做少量代码改动。若你希望为更大规模数据集提供一个可直接替换的分析层，这份 chdb-datastore 指南会很合适。

数据分析

收藏 0GitHub 0

sympy

作者 K-Dense-AI

使用 sympy 技能在 Python 中进行精确的符号数学运算，涵盖代数、微积分、矩阵、物理公式、数论、几何和代码生成。它能帮助你保持表达式精确，选择合适的 SymPy 模块，并避免大量浮点数带来的错误。适合需要一份实用 sympy 指南来处理符号工作流，以及用于 Data Analysis 的 sympy 的用户。

数据分析

收藏 0GitHub 21.4k

interpreting-culture-index

作者 trailofbits

interpreting-culture-index 可帮助解读 Culture Index 调查、个人档案导出内容以及相关的招聘或辅导记录。这个 interpreting-culture-index 技能适用于岗位匹配、团队动力、倦怠风险、候选人复盘、入职规划和冲突调解。它强调基于箭头相对关系的阅读、反模式检查，以及面向数据分析和决策支持的实用输出。

数据分析

收藏 0GitHub 5k

azure-search-documents-py

作者 microsoft

azure-search-documents-py 是面向后端开发的 Python 版 Azure AI Search 技能，覆盖安装、身份验证、索引设计、向量搜索、混合搜索、语义排序和 agentic retrieval。当前你需要从环境搭建一路做到可用查询模式时，可以使用 azure-search-documents-py 技能获取实操指引。

后端开发

收藏 0GitHub 2.3k

gget

作者 K-Dense-AI

gget 是一款生物信息学技能，可通过 CLI 或 Python 快速、统一地访问 20+ 个基因组数据库和分析工具。适合查询基因信息、BLAST 相关检索、AlphaFold 结构、表达数据、疾病关联以及富集分析等场景，也很适合用于快速探索和 gget 数据分析工作流。

数据分析

收藏 0GitHub 0

torch-geometric

作者 K-Dense-AI

面向 PyTorch Geometric 图神经网络的 torch-geometric 技能指南。适用于 torch-geometric 安装帮助、torch-geometric 使用、图分类、节点分类、链接预测、异构图、自定义 MessagePassing 层，以及面向 Machine Learning 工作流的 GNN 扩展与性能优化。

机器学习

收藏 0GitHub 21.4k

rdkit

作者 K-Dense-AI

rdkit 技能适用于需要精细控制的化学信息学工作流：解析 SMILES、SDF、MOL、PDB 和 InChI；计算描述符；生成指纹；执行子结构检索；处理反应；以及构建 2D/3D 坐标。将这份 rdkit 指南用于高级控制、自定义 sanitize，以及面向数据分析的 rdkit 工作流。

数据分析

收藏 0GitHub 21.4k

huggingface-vision-trainer

作者 huggingface

huggingface-vision-trainer 帮你安装并使用一个用于视觉训练任务的 Hugging Face 技能：目标检测、图像分类以及 SAM/SAM2 分割。内容涵盖数据集准备、云端 GPU 配置、评估、Trackio 日志记录和结果推送到 Hub。适合后端自动化和可重复的训练工作流。

后端开发

收藏 0GitHub 10.4k

seo-dataforseo

作者 AgriciDaniel

seo-dataforseo 通过 DataForSEO MCP server 将 Claude 连接到实时 SEO 数据，可用于 SERP 检查、关键词研究、反向链接、页面分析、竞品研究、商家信息和 AI 可见性追踪。它最适合需要真实搜索证据、清晰安装指引以及实用 seo-dataforseo 用法的数据驱动工作流。

关键词研究

收藏 0GitHub 6.2k

pymc

作者 K-Dense-AI

PyMC 是一项用于在 Python 中构建、拟合、检查和比较概率模型的贝叶斯建模技能。可将 pymc 用于分层回归、多层分析、时间序列、缺失数据、测量误差，以及使用 LOO 或 WAIC 进行模型比较。

数据分析

收藏 0GitHub 0

pymatgen

作者 K-Dense-AI

pymatgen 是一个面向 Python 的材料科学工具包，支持晶体结构、相图、电子结构和文件转换。这个 pymatgen 技能可帮助处理涉及 CIF、POSCAR、VASP 和 Materials Project 数据的科研工作流。

科学

收藏 0GitHub 0

geopandas

作者 K-Dense-AI

面向 Python 地理空间矢量数据分析的 geopandas 技能，涵盖 shapefile、GeoJSON 和 GeoPackage 文件。可用于读取、清洗、连接、缓冲区分析、裁剪、重投影和导出空间数据，减少试错成本。

数据分析

收藏 0GitHub 0

analyzing-threat-intelligence-feeds

作者 mukul975

analyzing-threat-intelligence-feeds 可帮助你摄取 CTI 情报源、规范化指标、评估情报源质量，并为 STIX 2.1 工作流丰富 IOC。这个 analyzing-threat-intelligence-feeds 技能面向威胁情报运营和数据分析，提供 TAXII、MISP 及商业情报源的实用指导。

数据分析

收藏 0GitHub 0

azure-ai-textanalytics-py

作者 microsoft

azure-ai-textanalytics-py 是面向 Python 的 Azure AI Text Analytics 技能。它可帮助你完成情感分析、实体识别、关键词提取、语言检测、PII 检测和医疗 NLP。适合需要快速完成 Azure 客户端配置、身份验证，以及在应用、notebook 或数据分析流程中落地文本分析的场景。

数据分析

收藏 0GitHub 0

chdb-sql

作者 ClickHouse

chdb-sql 是一个 GitHub skill，可在 Python 中无需服务端直接运行 ClickHouse SQL。它涵盖 `chdb.query()`、`Session`、DB-API 连接、`file()` 和 `s3()` 等表函数、参数化查询，以及面向本地文件和外部数据源的后端开发工作流。

后端开发

收藏 0GitHub 0