Data Processing

Data Processing taxonomy generated by the site skill importer.

15 个技能
A
regex-vs-llm-structured-text

作者 affaan-m

regex-vs-llm-structured-text 技能用于在结构化文本抽取中选择 regex 还是 LLM。先用确定性解析打底,再用 LLM 对低置信度边界情况做校验,并为文档、表单、发票和数据分析构建更便宜、更可靠的流水线。

数据分析
收藏 0GitHub 156.2k
K
omero-integration

作者 K-Dense-AI

omero-integration 技能面向后端开发中的 OMERO Python 工作流。可连接 OMERO,检索 projects、datasets、images、ROIs、annotations、tables,并运行批处理脚本,减少试错成本。

后端开发
收藏 0GitHub 21.3k
K
hypogenic

作者 K-Dense-AI

hypogenic 是一项用于在 LLM 支持下,对表格数据或文本衍生数据集生成并测试假设的技能。它通过将经验性问题转化为结构化、可检验的工作流,帮助你进行数据分析中的假设生成,适用于分类解释、内容分析和欺骗检测。适合需要有证据支撑的假设,而不只是头脑风暴的场景。

数据分析
收藏 0GitHub 21.3k
K
dnanexus-integration

作者 K-Dense-AI

dnanexus-integration 是一个面向 DNAnexus 云基因组学工作的实用技能。可用于构建 apps 和 applets、管理上传与下载、运行 workflows,并借助 dxpy 自动化 pipelines。dnanexus-integration 指南适用于涉及 FASTQ、BAM 和 VCF 文件的后端开发任务,同时覆盖平台特定配置和作业执行。

后端开发
收藏 0GitHub 21.3k
H
huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能,用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器,以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取
收藏 0GitHub 10.4k
V
Workspace Data Analyst

作者 VoltAgent

Workspace Data Analyst 是一款轻量级的工作区数据分析技能。它可以分析 CSV 文件、检查表头、汇总总计、平均值和异常值,并给出简洁的后续行动建议。对于在深入建模前做快速、了解文件上下文的初步审查,Workspace Data Analyst 很合适。

数据分析
收藏 0GitHub 8.5k
M
azure-storage-file-datalake-py

作者 microsoft

azure-storage-file-datalake-py 是面向 Azure Data Lake Storage Gen2 的 Python 技能。它可帮助后端开发者和 agent 安装、认证并使用 Azure SDK 处理分层文件系统任务,例如列出、上传、下载,以及管理目录和文件。

后端开发
收藏 0GitHub 2.3k
M
azure-cosmos-py

作者 microsoft

azure-cosmos-py 技能可帮助你安装、配置并使用 Azure Cosmos DB Python SDK,用于 NoSQL CRUD、查询、容器搭建、分区以及身份验证。它特别适合需要关注分区键和查询成本的数据库工程工作流。

数据库工程
收藏 0GitHub 2.2k
C
clickhouse-best-practices

作者 ClickHouse

clickhouse-best-practices 是面向数据库工程的 ClickHouse 最佳实践技能。它围绕 schema 设计、查询调优、写入策略和 agent 连接提供基于规则的建议,让 clickhouse-best-practices 在 ClickHouse 工作流中的触发、审阅和引用都更容易。

数据库工程
收藏 0GitHub 412
T
tinybird

作者 tinybirdco

Tinybird 项目文件、SQL 规则、优化模式和基于文件的工作流最佳实践。当你需要围绕 datasources、pipes、endpoints、materialized views 以及部署安全的指导,且希望建议严格遵循仓库规则时,就使用这个 tinybird skill 进行 Backend Development。

后端开发
收藏 0GitHub 16
K
pymatgen

作者 K-Dense-AI

pymatgen 是一个面向 Python 的材料科学工具包,支持晶体结构、相图、电子结构和文件转换。这个 pymatgen 技能可帮助处理涉及 CIF、POSCAR、VASP 和 Materials Project 数据的科研工作流。

科学
收藏 0GitHub 0
K
exploratory-data-analysis

作者 K-Dense-AI

exploratory-data-analysis 技能可将科学文件转换为支持格式感知的 EDA 报告。它会识别文件类型、概括结构与质量、提取关键元数据,并给出后续分析建议。适用于化学、生物信息学、显微镜、光谱学、蛋白质组学、代谢组学等各类科学文件格式的数据分析与探索性数据分析(EDA)。

数据分析
收藏 0GitHub 0
K
astropy

作者 K-Dense-AI

astropy 是一个面向天文学和天体物理工作流的 Python 工具包。这个 astropy 技能适用于天体坐标、单位、FITS 文件、时间尺度、表格、WCS、宇宙学,以及 astropy 数据分析。它能帮助完成坐标转换、单位换算和数据处理等实用天文任务。

数据分析
收藏 0GitHub 0
K
aeon

作者 K-Dense-AI

aeon 是一个与 scikit-learn 兼容的 Python 技能,用于时间序列机器学习。可用于分类、回归、聚类、预测、异常检测、分段、相似性搜索以及其他时序数据工作流。对于单变量和多变量分析,当你需要超出通用表格型 ML 的专门方法时,它尤其合适。

数据分析
收藏 0GitHub 0
S
postgres

作者 sanjay3290

postgres 技能可让你使用只读 SQL 检查在线 PostgreSQL 数据库。它适用于 schema 发现、表检查,以及跨多个连接、基于描述自动选择的 SELECT 分析。该技能面向 Database Engineering 工作流设计,并会拦截 INSERT、UPDATE、DELETE 和 DROP 等写入操作以确保安全。

数据库工程
收藏 0GitHub 0
Data Processing