optimize-for-gpu

作者 K-Dense-AI

optimize-for-gpu 可以根据合适的库选择，帮助把受 CPU 限制的 Python 代码转成 NVIDIA GPU 代码。适用于数组、DataFrame、机器学习流水线、图分析、图像处理、地理空间任务、向量检索和自定义 kernel。它会针对 CuPy、cuDF、cuML、cuGraph、cuCIM、cuVS、KvikIO、Numba CUDA 和 Warp 的选择提供实用的 optimize-for-gpu 用法与迁移建议。

Stars21.3k

收录时间2026年5月14日

分类性能优化

安装命令

npx skills add K-Dense-AI/claude-scientific-skills --skill optimize-for-gpu

编辑评分

该技能得分为 76/100，说明它是一个不错的上架候选，适合想要真实 GPU 加速工作流而不是泛泛提示词的用户。frontmatter 触发条件明确，正文内容充实，仓库还包含多个 NVIDIA Python 库的聚焦参考文档，因此目录用户可以较有把握地做出安装决策。主要限制在于，它看起来更适合人工引导式使用，而不是自动触发；但整体仍具备足够的实用价值，值得收录。

76/100

亮点

对 CUDA/GPU 加速以及 NumPy、pandas、scikit-learn、NetworkX 和地理空间/图像流水线等常见 Python 工作负载都有明确的触发覆盖。
技能正文结构完整、层级清晰，包含大量标题且没有占位标记，说明它更像真实工作流内容，而不是演示骨架。
提供了 12 个库级参考（CuPy、cuDF、cuML、cuGraph、cuSpatial、cuVS、cuCIM 等），给出具体实现指引，减少试错成本。

注意点

SKILL.md 中没有安装命令，用户可能需要结合参考文档自行推断安装步骤。
仓库证据显示有参考文档，但没有脚本或资源文件，因此部分流程可能更多依赖文字说明，而不是可执行自动化。

GPU Python 科学 Machine Learning 数据分析 CuPy Numba

概览

optimize-for-gpu 技能概览

optimize-for-gpu 的作用

optimize-for-gpu 技能帮助你把受 CPU 限制的 Python 代码迁移到 NVIDIA GPU 上，而且给出的不是泛泛的“用 CUDA”答案，而是结合具体库选择的实用建议。它面向需要在数组、dataframe、ML pipeline、图计算、图像处理、地理空间分析或自定义 kernel 上做 optimize-for-gpu for Performance Optimization 的读者。

最适合的使用场景

当你想加速 NumPy、pandas、scikit-learn、NetworkX、scikit-image、GeoPandas 或 Faiss 风格的工作流，或者你已经判断问题足够并行、适合用 GPU 执行时，就适合使用 optimize-for-gpu 技能。它尤其适合在 CuPy、cuDF、cuML、cuGraph、cuCIM、cuVS、KvikIO、Numba CUDA 和 Warp 之间做选择时使用。

它的不同之处

optimize-for-gpu 的核心价值在于库选择和迁移指导。它不会强行把所有问题都套进同一套技术栈，而是帮助你根据工作负载形态匹配合适工具；这很重要，因为选错 GPU 库可能带来额外阻力、数据转换开销，或者碰到不支持的特性。

如何使用 optimize-for-gpu 技能

安装并检查该技能

进行 optimize-for-gpu install 时，先把技能加入你的环境，然后阅读定义其决策规则的源文件。先看 SKILL.md，再打开 references/ 里与你预计会用到的库对应的参考页面。

把模糊目标转成有用的提示

想让 optimize-for-gpu usage 更强，提示里最好包含：现有代码、数据集大小、GPU 型号、目标库偏好（如果有）以及你想消除的瓶颈。弱提示是“帮我加速一下”；更强的提示会像“把这个 pandas groupby pipeline 优化到 NVIDIA GPU 上，保持输出完全一致，并尽量减少 host-device transfer”。

先读对仓库文件

如果你在判断 optimize-for-gpu 技能是否适用，建议先预览 SKILL.md、references/cupy.md、references/cudf.md，以及最贴近你工作负载的库指南，比如 references/cuml.md 或 references/cugraph.md。这样一条短路径通常比把整个仓库扫一遍更快揭示关键约束。

使用能避开错误匹配的工作流

一个好的 optimize-for-gpu guide 工作流是：先识别热点循环，再把它映射到 GPU 友好的抽象，接着确认数据传输成本，最后在直接替换和自定义 kernel 开发之间做选择。如果代码依赖不规则的 Python 控制流、很小的数据集，或者不受支持的第三方扩展，这个技能应该引导你走部分 GPU 路径，或者干脆采用非 GPU 的修复方案，而不是硬上全量迁移。

optimize-for-gpu 技能 FAQ

optimize-for-gpu 比普通提示更好吗？

通常是的，尤其当任务涉及库选择、迁移策略或 GPU 约束时。普通提示可能只会笼统建议 CUDA；而 optimize-for-gpu skill 更适合在 CuPy、RAPIDS、Numba CUDA 或 Warp 之间给出明确路径。

我需要有 GPU 经验才能用吗？

不需要。这个技能也适合初学者，只要你能清楚提供代码和目标即可。最重要的是说明代码做什么、慢在哪里、哪些结果必须保持不变，这样指导才能选择安全的迁移路径。

什么时候不该用它？

如果工作负载很小，或者延迟主要受 I/O 或序列化影响，或者代码高度依赖不受支持的仅 CPU Python 行为，就不应该使用 optimize-for-gpu。这种情况下，这个技能更应该帮你避免误导性的 GPU 重写，而不是逼你做重写。

它和 NVIDIA 技术栈里的其他方案怎么比较？

optimize-for-gpu 是一个决策和迁移技能，而不是单一库的封装。它最有价值的场景，是在真正动手编码前，先比较 CuPy 用于数组计算、cuDF 用于表格数据、cuML 用于机器学习，或者 cuGraph 用于图分析等方案。

如何改进 optimize-for-gpu 技能

提供工作负载形态，而不只是目标

想要更好的 optimize-for-gpu 结果，输入里最好能暴露计算模式：数组大小、dataframe 行数、图密度、图像尺寸、batch size，以及代码主要是向量化还是循环密集型。上下文越完整，就越容易判断 GPU 路线是否快到值得迁移。

早点说明真实约束

如果你最在意的是数值结果完全一致、低内存占用、多 GPU 扩展，还是尽量少改代码，都应该一开始就说清楚。optimize-for-gpu 技能会根据速度、兼容性或重写规模这几个优先级，做出不同取舍。

把第一次结果反馈回来继续迭代

第一轮结束后，把它建议你修改后的代码，或者它推荐的库选择发回来，再追问下一个瓶颈：transfer、kernel fusion、precision，还是 batching。这样是提升 optimize-for-gpu usage 的最快方式，因为下一轮回答就能直接聚焦真正的限制因素，而不是把整个迁移方案再重复一遍。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

vercel-react-best-practices

作者 vercel-labs

vercel-react-best-practices 是由 Vercel Engineering 提供的 skill，用优先级规则引导 AI 优化 React 和 Next.js 性能，涵盖瀑布流请求、bundle 体积和渲染等关键问题。

前端开发

收藏 0GitHub 24k

performance-optimization

作者 addyosmani

performance-optimization 技能帮助你先测量、找出真正瓶颈、完成优化，并验证结果。适用于已有性能要求、怀疑出现性能回退，或需要改善 Core Web Vitals、加载时间与交互延迟的场景。

性能优化

收藏 0GitHub 18.7k

supabase-postgres-best-practices

作者 supabase

supabase-postgres-best-practices 是一项面向 Supabase Postgres 优化的技能，覆盖查询调优、索引、Schema 设计、RLS 性能、锁竞争与连接管理等核心主题。

数据库工程

收藏 0GitHub 1.7k

wp-performance

作者 WordPress

使用 wp-performance 从后端排查并提升 WordPress 性能，无需浏览器界面。它支持先测量、后诊断的方式，适用于前台请求缓慢、后台页面、REST 路由和 WP-Cron 等场景，并提供关于 WP-CLI profile/doctor、通过 REST 头查看 Query Monitor、Server-Timing、数据库查询、autoloaded options、对象缓存、cron 和远程 HTTP 调用的指导。

性能优化

收藏 0GitHub 1.4k

web-perf

作者 cloudflare

web-perf 使用 Chrome DevTools MCP 分析 Web 性能。它可衡量 Core Web Vitals、基于 trace 的加载问题、阻塞渲染的资源、布局偏移、缓存问题以及可访问性缺口。适合用于性能优化、慢页面排障，以及依赖最新文档和实时 trace 的基于证据的 web-perf 指南式工作流。

性能优化

收藏 0GitHub 1.3k

react-native-best-practices

作者 callstackincubator

react-native-best-practices 是一份实用的 React Native 性能优化指南，聚焦启动慢、掉帧、重渲染过重、内存泄漏、bundle 体积膨胀和动画卡顿等问题。适用于需要有证据支撑的修复方案，例如 Hermes、bridge 开销、FlashList、原生模块，或排查线上版本回归性能时使用。

性能优化

收藏 0GitHub 1.3k

swift-nio

作者 Joannis

swift-nio 是一项面向 SwiftNIO 后端开发的技能，涵盖 servers、clients、pipelines、buffers、codecs，以及 EventLoop 安全的异步代码。适用于 swift-nio 使用问题、协议解析、TCP/UDP 服务、NIOAsyncChannel 集成，以及排查 EventLoop 上的阻塞工作。它是一本面向正确架构与实现的实用 swift-nio 指南。

后端开发

收藏 0GitHub 0

audit-website

作者 squirrelscan

audit-website 技能通过 squirrel CLI，基于 230+ 条规则对网站和 Web 应用进行审计，覆盖 SEO、技术、内容、性能、安全、链接和站点健康等维度，并输出可直接供 LLM 使用的可执行报告。

UX 审计

收藏 0GitHub 68

autoresearch

作者 github

autoresearch 是一套面向编码任务的自主实验循环，适用于结果可衡量的场景。它帮助开发者先明确目标、基线、指标和范围，再借助由 git 检查点支撑的流程，在代码修改、测试以及保留或回退决策之间持续迭代。

工作流自动化

收藏 0GitHub 0

godot-gdscript-patterns

作者 wshobson

godot-gdscript-patterns 可帮助 Godot 4 用户生成和审查 GDScript，改进场景结构、signals、状态机、autoloads 和 async loading 模式。适合在玩法系统、UI 流程和可维护的项目代码中引入经过验证的 Godot 架构实践，便于安装后直接用于实际开发决策。

前端开发

收藏 0GitHub 32.5k

pytorch-patterns

作者 affaan-m

pytorch-patterns 帮助你使用与设备无关的模式、可复现实验和显式张量处理来编写、审查和调试 PyTorch 代码。将 pytorch-patterns 技能用于更干净的训练循环、模型重构以及实用的 PyTorch 指南。

代码编辑

收藏 0GitHub 156.2k

nextjs-turbopack

作者 affaan-m

nextjs-turbopack 技能可帮助你在 Next.js 16+ 中使用 Turbopack，以获得更快的本地开发、HMR 以及打包器决策参考。它适合作为一份实用的 nextjs-turbopack 指南，用于安装、使用，以及在 Frontend Development 工作流中判断何时切回 webpack。

前端开发

收藏 0GitHub 156.2k

jpa-patterns

作者 affaan-m

jpa-patterns 是一份面向 Spring Boot 后端开发的实用 JPA/Hibernate 指南，涵盖实体设计、关系映射、查询调优、事务、审计、分页和连接池，帮助减少 ORM 误用并提升持久化性能。

后端开发

收藏 0GitHub 156.2k

rust-async-patterns

作者 wshobson

rust-async-patterns 是一项面向 Tokio 异步 Rust 的实用技能，涵盖任务、通道、流、超时、取消、tracing 和错误处理，适合后端开发场景。

后端开发

收藏 0GitHub 32.6k

go-concurrency-patterns

作者 wshobson

go-concurrency-patterns 帮助你以符合 Go 习惯的方式运用并发模式，涵盖 worker pools、pipelines、channels、sync primitives 以及基于 context 的取消控制。你可以根据 SKILL.md 中的指导，用它来设计更稳健的后端服务、排查竞态条件，并改进优雅关闭行为。

后端开发

收藏 0GitHub 32.6k

async-python-patterns

作者 wshobson

async-python-patterns 是一份实用指南，帮助你为 I/O 密集型 Python 系统选择更安全的 asyncio 模式。可用于了解安装与使用背景、审查用法、避免阻塞事件循环，并在设计异步 API、worker、爬虫和后端服务时，更好地权衡有界并发、取消机制，以及同步与异步之间的取舍。

后端开发

收藏 0GitHub 32.6k