generate-image

作者 K-Dense-AI

generate-image 是一个通过 OpenRouter 调用 FLUX.2 Pro、Gemini 3.1 Flash Image Preview 等 AI 模型来生成或编辑图像的技能。适合制作照片、插画、概念艺术、视觉素材和图像编辑；当你需要可重复的工作流，而不是一次性提示词时，它尤其合适。如果是图表、流程图或示意图，请改用 scientific-schematics。

Stars0

收录时间2026年5月14日

分类图像生成

安装命令

npx skills add K-Dense-AI/claude-scientific-skills --skill generate-image

编辑评分

该技能评分为 78/100，说明它对目录用户来说是一个相当扎实的候选项：触发场景明确、执行路径具体，而且具备一定的工作流细节，能够以较高把握进行安装判断，不过目前还不是完全自包含。这个分数意味着用户可以期待它带来实际的图像生成效率，但在广泛采用前，仍应先确认环境和模型可用性。

78/100

亮点

对图像生成与 scientific-schematics 的使用边界划分清晰，降低了触发条件歧义。
提供了带命令示例的快速上手，覆盖生成和编辑两种流程。
技能主体内容较充实，包含多个工作流章节以及仓库/文件引用，说明它不是一个占位式指南。

注意点

未包含安装命令或支持文件，因此设置和集成可能需要手动处理。
兼容性取决于 OpenRouter API key，这可能会让部分用户无法立即使用。

Ai Image 图片 Generation Flux Gemini OpenRouter

概览

generate-image 技能概览

generate-image 是用来做什么的

generate-image 技能是一种通过 OpenRouter 调用 FLUX.2 Pro、Gemini 3.1 Flash Image Preview 等 AI 模型来生成或编辑图片的实用方式。它最适合需要照片、插画、概念艺术、视觉素材或直接图片编辑的用户，不适合技术示意图。

适合谁安装

如果你想要的是一套可重复的图片工作流，而不是每次都临时写一段 prompt，那么就很适合安装 generate-image 技能。它适合内容创作者、产品团队、需要做演示视觉的研究人员，以及任何希望用更少试错成本获得一致图片结果的人。

它比通用 prompt 更强在哪里

generate-image 技能的核心价值在于工作流更清晰：它会告诉你什么时候该用、该避开什么，以及如何用更可执行的输入去驱动模型。这个 repo 还会引导你先从正确的文件开始，并把通用图片生成和用于图表式输出的 scientific-schematics 区分开来。

如何使用 generate-image 技能

安装 generate-image 技能

使用以下命令安装：
npx skills add K-Dense-AI/claude-scientific-skills --skill generate-image

这个 generate-image 安装流程默认你已经有可用的 OpenRouter API key。若 key 缺失，在账号和环境配置到位之前，这个技能并不能真正发挥作用。

从正确的文件开始看

先读 SKILL.md，再查看仓库指向的支持文件：README.md、AGENTS.md、metadata.json，以及任何 rules/、resources/、references/ 或 scripts/ 文件夹。在这个 repo 里，显式的实现核心集中在 scientific-skills/generate-image/SKILL.md，其中提到的快速开始脚本路径是 scripts/generate_image.py。

把模糊想法变成可用 prompt

generate-image 的强用法，关键在于把主题、风格和修改要求说具体。不要只说“做一张创业公司的图片”，而要写成类似这样：“创建一张干净的产品插画：一台笔记本电脑屏幕上显示 SaaS 仪表盘，深色背景，蓝色强调光，写实但精致，不要文字叠加。”如果是编辑任务，就明确哪些要改、哪些必须保留不变：“保持主体和构图不变，把天空换成紫色黄昏光，并让前景颜色更暖一些。”

提升输出质量的实用工作流

可以用仓库里的快速开始模式，把生成和编辑分开处理：
python scripts/generate_image.py "A beautiful sunset over mountains"
python scripts/generate_image.py "Make the sky purple" --input photo.jpg

这个工作流很重要，因为这个技能本来就是为图片生成或修改设计的，不是用来做抽象规划的。如果你的目标是流程图、电路图或系统图，就该改用 scientific-schematics，而不是硬让 generate-image 做不合适的任务。

generate-image 技能常见问题

generate-image 适合技术图表吗？

不适合。仓库明确把示意图、结构图、路径图和流程图导向 scientific-schematics。generate-image 更适合对美感或整体构图有要求的视觉内容，而不是需要精确技术标注的图。

使用 generate-image 需要特殊经验吗？

不需要，但输入越好，结果通常越好。新手可以从简短 prompt 和简单编辑指令开始；更有经验的用户，则能通过指定风格、镜头感、构图，以及哪些部分必须保持固定，获得更大收益。

generate-image 比普通 prompt 更好吗？

通常是的，尤其当你想要的是可重复安装、可直接运行的工作流、更清晰的模型选择，以及更少的请求结构决策时。普通 prompt 也许一次能用，但当你希望同样的流程可以反复复用时，generate-image 技能会更有价值。

什么情况下不该用 generate-image？

当输出必须精确、数据驱动或偏图表化时，不要用它。如果图片需要标签、准确关系或技术正确性，优先选择更偏示意图的技能会更稳妥。

如何改进 generate-image 技能

给模型那些真正会改变画面的细节

质量提升最大的时候，通常来自主题、媒介、构图和约束条件。弱 prompt 会说“做得现代一点”；更强的 prompt 会说“创作一张极简的编辑风格插画：一辆城市自行车，白色背景，侧视角，低饱和配色，不要人物，不要标签”。这类输入之所以能提升 generate-image 的结果，是因为它减少了歧义。

把创作方向和编辑指令分开说

对于 generate-image 技能，编辑类任务最有效的写法，是明确说什么要保留、什么要改。比如：“保留原始主体和裁切，柔化光线，把背景换成工作室渐变，并移除所有文字。”这样可以减少身份、构图或版式意外跑偏。

留意常见失败模式

最常见的问题是 prompt 过于宽泛、缺少风格指引，以及让这个技能去做示意图工作。如果输出质量不理想，先收紧 prompt，再考虑换模型：明确视觉目标，排除不想要的元素，并判断这项任务到底是生成还是编辑。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

openclaw-persona-forge

作者 affaan-m

openclaw-persona-forge 是一款以工作流驱动的技能，用于从零开始构建完整的 OpenClaw persona 套件。它会生成身份张力、SOUL.md 风格框架、边界规则、名字备选，以及可选的头像 prompt 指引。适合 OpenClaw 角色设计、roleplay agents 和偏 UI Design 的 persona 工作，不适合对现有 persona 做小幅修改。

UI 设计

收藏 0GitHub 156.2k

baoyu-imagine

作者 JimLiu

baoyu-imagine 是一款支持多家服务商的图像生成技能，提供类型化 CLI、必需的 EXTEND.md 配置、参考图支持、宽高比控制，以及可在 OpenAI、Azure OpenAI、Google、OpenRouter、DashScope、MiniMax、Jimeng、Seedream 和 Replicate 之间进行批量运行。

图像生成

收藏 0GitHub 13.2k

baoyu-comic

作者 JimLiu

baoyu-comic 是一项可将源文本转成教育类或传记风格漫画的技能，覆盖分镜规划、角色一致性、分格布局以及分阶段图像生成。它支持可安装的 CLI 用法，提供风格与版式选项，也支持 `--storyboard-only`、`--prompts-only`、`--regenerate` 等局部流程，便于更可控地完成漫画生产。

图像生成

收藏 0GitHub 13.2k

shader-dev

作者 MiniMax-AI

shader-dev 是一个面向 ShaderToy 风格实时视觉效果的实用 GLSL 着色器技能。使用 shader-dev 技能可以更少靠猜测地构建或调试 ray marching、SDF 场景、光照、粒子、流体运动、后期处理，以及用于 UI Design 的 shader-dev。

UI 设计

收藏 0GitHub 11.7k

videoagent-video-studio

作者 pexoai

videoagent-video-studio 是一款可根据文本、图片和参考素材生成短篇 AI 视频的技能。你可以用它测试 text-to-video 与 image-to-video 工作流，对比支持的模型，并在 Node 18+ 环境下使用托管代理或自托管方案运行。

视频编辑

收藏 0GitHub 456

seo-image-gen

作者 AgriciDaniel

seo-image-gen 是一个 GitHub skill，用于把 SEO 图片需求转化为可直接用于生产的 prompts 和设置，覆盖 OG images、社交预览图、hero banners、产品视觉图、信息图和 thumbnails。它通过 nanobanana-mcp 调用 Gemini，并默认已安装 banana extension，适合用作一份实用的 seo-image-gen 安装与工作流指南。

图像生成

收藏 0GitHub 0

baoyu-xhs-images

作者 JimLiu

baoyu-xhs-images 可将文章或笔记转换成小红书信息图轮播，提供预设、风格、版式与配置指引，帮助用户完成安装、选择输入内容，并运行 `/baoyu-xhs-images` 生成结构化的多页社交内容。

UI 设计

收藏 0GitHub 13.2k

baoyu-cover-image

作者 JimLiu

baoyu-cover-image 帮助 agent 按类型、配色、渲染、文字和氛围等维度，生成结构化的文章封面图提示词。它支持 2.35:1、16:9 和 1:1 格式，内置自动选择规则与兼容性说明，适合可重复执行的 editorial 和 UI Design 封面工作流。

UI 设计

收藏 0GitHub 13.2k

meme-factory

作者 softaworks

meme-factory 可帮助 agent 基于模板生成 meme，调用免费的 memegen.link API，也支持适合 Markdown 的文字类 meme。你可以用它生成可分享的 meme URL、选择合适模板、正确格式化文本，并借助随附的 Python helper 自动化输出。

图像生成

收藏 0GitHub 1.3k

logo-creator

作者 ReScienceLab

logo-creator 是一套面向 AI logo 设计的工作流，可用于生成创意方向、对比不同变体、裁剪图像、移除背景并导出 SVG 资产。它结合风格参考、示例提示词和辅助脚本，在 ReScienceLab/opc-skills 中支持 logo、icon、favicon 和品牌标记的创建。

品牌设计

收藏 0GitHub 0

scientific-schematics

作者 K-Dense-AI

scientific-schematics 可将自然语言提示转化为适合发表的科学图表，并通过智能迭代优化持续提升质量。它使用 Nano Banana 2 生成图像，并用 Gemini 3.1 Pro Preview 进行审阅；只有当输出低于你的文档类型阈值时才会重新生成。适用于神经网络架构、系统示意图、流程图、生物通路及其他复杂科学可视化内容。

图像生成

收藏 0GitHub 0

banner-creator

作者 ReScienceLab

banner-creator 提供结构化流程，帮助创建横幅、页眉和 hero 图片：先收集需求，再生成多个方案，结合反馈迭代优化，并使用自带脚本按平台比例裁切。

UI 设计

收藏 0GitHub 0

baoyu-article-illustrator

作者 JimLiu

baoyu-article-illustrator 可帮助 agent 将文章草稿转成结构化插图提示词、插入位置建议，以及统一的题材与风格决策，适用于解读型内容、教程、图解和多图文章。

图像生成

收藏 0GitHub 13.2k

nanobanana

作者 ReScienceLab

nanobanana 是一款面向 Google Gemini 3 Pro Image 的 Python CLI 技能，支持文生图、图像编辑、宽高比设置、2K/4K 输出，以及通过简单本地脚本进行批量生成。

图像生成

收藏 0GitHub 654

sound-fx

作者 NoizAI

使用 sound-fx 技能，把文本提示词转换成音效、拟音、环境底噪、怪物声音和 UI 音效。它适合用于音效编辑、快速原型验证和可下载音频素材制作。先通过 NoizAI/skills 安装，然后使用基于脚本的工作流，并准备有效的 Noiz API key。它不适用于语音、歌词、旋律或声音克隆。

音频编辑

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可从公开音频克隆真实人物的声音，或根据图片设计匹配的声音，再通过 TTS 生成合成回复。它支持角色扮演、旁白和语音生成等实用工作流，并提供安装、素材选择和安全使用方面的指导。

语音生成

收藏 0GitHub 498