nanobanana

作者 ReScienceLab

nanobanana 是一款面向 Google Gemini 3 Pro Image 的 Python CLI 技能，支持文生图、图像编辑、宽高比设置、2K/4K 输出，以及通过简单本地脚本进行批量生成。

Stars654

收录时间2026年3月31日

分类图像生成

安装命令

npx skills add ReScienceLab/opc-skills --skill nanobanana

编辑评分

该技能评分为 78/100，说明它是一个表现扎实的目录收录候选：代理能够获得明确的触发场景、具体命令和可直接运行的脚本来完成基于 Gemini 的图像生成与编辑，但用户仍需自行处理环境配置，以及部分与模型相关的不确定性。

78/100

亮点

触发条件明确：frontmatter 明确说明，该技能适用于使用 Gemini 图像生成能力进行图片生成或编辑。
落地性强：`SKILL.md` 提供了前置要求、`pip install` 命令、快速上手示例、CLI 用法，以及输出和编辑选项。
不只是提示词封装，具备实际工作流价值：随附的 `generate.py` 和 `batch_generate.py` 脚本支持文生图、图像编辑、宽高比设置、2K/4K 输出和批量生成。

注意点

接入前需要完成外部配置：用户必须提供 `GEMINI_API_KEY`，并安装 Python 3.10+、`google-genai` 和 Pillow。
在可信度和清晰度方面仍有一定限制：该技能依赖预览版模型 `gemini-3-pro-image-preview`，且现有材料未显示 `SKILL.md` 内包含故障排查、错误处理说明或安装自动化支持。

Gemini Google Python Cli 工作流 Batch Jobs

概览

nanobanana skill 概览

nanobanana 的用途是什么

nanobanana skill 是对 Google gemini-3-pro-image-preview 模型的一层轻量封装，适合在命令行里做实用型图片生成和图片编辑。它尤其适合那些还不想先搭一整个应用、但希望用可重复、可脚本化的方式来生成图片、测试不同 prompt 版本，或批量产出结果的人。

哪些人适合安装 nanobanana

nanobanana skill 最适合这几类用户：

已经在使用 Python 和环境变量的开发者
想把图片生成命令做成可复现流程的 AI 操作人员
需要比较风格、宽高比和输出尺寸的 prompt 测试者
同时需要 text-to-image 和基于现有图片编辑流程的用户

如果你只是偶尔想在聊天界面里随手生成一张图，那它的配置成本可能比你的实际需求更高。

nanobanana for Image Generation 真正解决的是什么任务

大多数用户并不是抽象地在找“一个图像模型”。他们真正想做的，是把一个粗略的创意目标变成可用资产：比如产品图、风景图、吉祥物、概念插画，或者对现有图片做定向修改。nanobanana for Image Generation 的价值就在于，它为这类任务提供了一条直接可用的 CLI 路径，包含 prompt 输入、可选的源图输入、宽高比选择，以及 2K/4K 输出选项。

nanobanana 和普通 prompt 方式有什么不同

它的主要差异点不在于“隐藏提示词技巧”，而在于它把工作流压缩得更直接：

提供了专门用于生成和编辑的脚本
明确支持 --ratio 和 --size 参数
通过环境变量完成 API 配置
在 scripts/batch_generate.py 里支持批量生成
在 references/prompts.md 里提供了带具体风格模式的 prompt 参考

这让 nanobanana usage 相比在通用聊天工具里反复手打临时 prompt，更一致、更容易复现。

采用 nanobanana 前你需要先确认什么

决定是否采用时，关键问题其实很简单：

你需要有一个 GEMINI_API_KEY
你需要 Python 3.10+
你需要安装 google-genai 和 pillow
你需要能接受在本地运行脚本
你也要预期图片质量会很大程度上取决于 prompt 是否具体

这是一个偏实用的 skill，不是零配置的网页应用。

如何使用 nanobanana skill

nanobanana 安装要求

在尝试 nanobanana install 之前，请先确认你具备以下条件：

Python 3.10+
有效的 GEMINI_API_KEY
可以访问 Google API 的网络环境
Python 包 google-genai 和 pillow

安装依赖：

pip install google-genai pillow

设置 API key：

export GEMINI_API_KEY="your_api_key_here"

可以在 https://aistudio.google.com/apikey 获取 key。

在你的 skills 环境中安装这个 skill

如果你在使用 skills 系统，可以通过下面的命令添加该 skill：

npx skills add ReScienceLab/opc-skills --skill nanobanana

安装完成后，建议优先阅读这些文件：

skills/nanobanana/SKILL.md
skills/nanobanana/scripts/generate.py
skills/nanobanana/references/prompts.md
skills/nanobanana/scripts/batch_generate.py

按照这个顺序看，能最快帮你从“我能不能用它？”走到“我到底该执行哪些命令？”

用 nanobanana 进行文生图的基础用法

核心命令就是调用生成脚本并传入 prompt：

python3 <skill_dir>/scripts/generate.py "a cute robot mascot, pixel art style" -o robot.png

当你是从纯文本开始生成时，就用这个方式。输出路径不是必填，但建议明确指定，这样后面不用再去找自动命名的文件。

用 nanobanana 编辑现有图片

做图片编辑时，需要同时提供 prompt 和输入图片：

python3 <skill_dir>/scripts/generate.py "make the background blue" -i input.jpg -o output.png

如果你的目标是保留原图主体，只做定向修改，这就是正确流程。prompt 应该重点描述“要改什么”，而不是把整个场景重新描述一遍；除非你本来就想要更大幅度的变化。

选择宽高比和输出尺寸

这个 skill 支持常见的宽高比，包括：
1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9

例如：

python3 <skill_dir>/scripts/generate.py "cinematic landscape at sunrise" --ratio 21:9 -o landscape.png

如果需要更高分辨率：

python3 <skill_dir>/scripts/generate.py "professional product photo of headphones" --size 4K -o product.png

建议在工作流前期就先确定 ratio。它影响的不只是裁切，更会直接改变构图。

在需要探索 prompt 时使用批量生成

在主脚本之外，scripts/batch_generate.py 是最值得关注的文件之一，因为它支持基于同一个 prompt 连续生成多张结果。

例如：

python3 <skill_dir>/scripts/batch_generate.py "pixel art logo" -n 20 -d ./logos -p logo

也支持并行生成：

python3 <skill_dir>/scripts/batch_generate.py "landscape concept art" -n 20 --parallel 5

当你的重点是探索风格方向，而不是追求某一个完全确定的输出时，这个能力尤其有用。

什么样的输入更能让 nanobanana 发挥效果

像“make a cool image”这种过于笼统的目标，通常力度不够。更有效的输入一般会包含：

明确主体
目标风格
光线或镜头线索
构图提示
质量或用途导向

更好的 prompt：

Professional product photo of wireless headphones on marble surface, soft studio lighting, 85mm lens, sharp focus, minimalist background

较弱的 prompt：

headphones advertisement

前者给了模型更多可执行的控制信号，能减少过于泛化的输出。

如何把一个模糊想法扩展成完整 prompt

一个实用的 nanobanana guide 式 prompt 构建方法是：

先说清主体是什么
指定视觉表现方式
加入场景或构图细节
加入光线或情绪描述
只在有必要时再补充质量相关提示

仓库里的 prompt 参考模板：

Digital illustration of {subject}, {style} style, {colors} color palette, {mood} atmosphere

例如：

Digital illustration of an underwater research base, retro-futurist style, cyan and amber palette, mysterious atmosphere, detailed windows, glowing marine life

在认真使用 nanobanana 前值得先看的仓库文件

如果你不想只停留在表层的 nanobanana usage，建议重点查看：

SKILL.md：前置条件和命令模式
references/prompts.md：prompt 结构和分类示例
scripts/generate.py：支持的文件类型、可用 ratio 和尺寸
scripts/batch_generate.py：并发、延迟和命名行为
.claude-plugin/plugin.json：打包与集成上下文

比起泛泛浏览 repo 根目录，这样更有效，因为这个 skill 的核心信息其实集中在少数几个文件里。

实际限制与取舍

从脚本本身可以看出一些重要边界：

输入图片编辑依赖本地文件可用
图片文件缺失或格式不受支持时，会在生成前直接失败
ratio 和 size 只能使用预设的有效值
这个流程依赖 Google 的 preview 图像模型，因此模型更新后行为可能发生变化
批量生成能提升吞吐，但也会增加 API 用量和触发 rate limit 的压力

如果你需要的是高级图像流水线控制、节点式编辑，或者完整的托管式 UI，这个 skill 的设计范围本来就更窄，不是为此而生的。

nanobanana skill 常见问题

nanobanana 适合新手吗

适合，前提是你能接受基本的终端命令和 Python 包安装。nanobanana skill 比起从零自己写 API client 要简单得多，但它本质上仍然是面向开发者的工具，而不是消费级应用。

什么时候应该用 nanobanana，而不是普通聊天 prompt

当你需要下面这些能力时，就更适合用 nanobanana：

可保存的输出文件
可重复执行的命令
基于本地文件的图片编辑
批量生成
明确选择 ratio 和 size

普通聊天 prompt 适合轻量试验，但如果你在意输出管理和结果复现，这个 skill 会更合适。

nanobanana 是否同时支持生成和编辑

支持。它包含：

基于 prompt 的 text-to-image 生成
使用 -i / --input 的图片编辑
宽高比控制
2K 和 4K 输出设置
通过独立脚本完成批量生成

这组能力的组合，正是它值得安装、而不是只临时写一个一次性 prompt 的主要原因。

nanobanana for Image Generation 能直接用于生产环境吗

它可以很好地用于接近生产的流程，比如概念图生成、素材方向探索、prompt 实验，或批量创建测试。但它本身还不是完整的产品化流水线。你仍然需要自己的审核、筛选、存储，以及可能的后处理步骤。

哪些情况下 nanobanana 并不适合

如果你需要以下能力，建议跳过 nanobanana install：

浏览器优先、零代码体验
完全托管的 GUI 工作流
复杂的多步骤编辑编排
对模型长期稳定行为有强保证
不依赖外部 API 的图片生成

它最强的定位，是一层轻量、务实的脚本化封装。

如何改进 nanobanana skill 的使用效果

先从更具体的 prompt 开始优化

想提升 nanobanana 效果，最快的方法就是把 prompt 写得更具体。加入主体、风格、构图和光线信息，而不是依赖“cool”“beautiful”这种模糊形容词。

较弱：

a nice city

更强：

Aerial photograph of a dense coastal city at golden hour, dramatic shadows, high dynamic range, realistic urban detail, cinematic composition

让 prompt 风格和目标输出类型对齐

不同目标，prompt 语言也应不同：

pixel art：写明 limited palette、crisp pixels、retro game feel
photorealistic：写明 lens、lighting、focus、material realism
illustration：写明 art style、palette、atmosphere、brush 或 rendering feel

这是 references/prompts.md 里最实用的思路之一。

做图片编辑时，只描述你想改动的部分

在编辑流程里，很多用户的问题是“提示过度”。如果你已经提供了输入图片，最好先从具体改动开始写：

Replace the gray wall with a warm blue studio backdrop while keeping the product position and lighting consistent

通常这会比把整张图从头重写一遍更好，除非你确实想要更大范围的重构。

用批量生成先探索，再逐步收敛

一个适合 nanobanana usage 的迭代流程是：

围绕一个 prompt 主题先生成 6 到 20 个变体
找出最佳结果里真正有效的特征
围绕这些有效特征重写 prompt
用更收紧的风格描述或不同 ratio 再跑一轮

这通常比在看到任何结果之前，死磕一个抽象 prompt 更高效。

需要留意的常见失败模式

常见质量问题包括：

prompt 太模糊
ratio 和主体不匹配
prompt 塞入过多互相冲突的风格
编辑 prompt 不小心变成整幅画面重写
误以为只要切到 4K 就能修复一个薄弱概念

多数糟糕输出，问题都出在指令质量，而不是缺少什么“魔法关键词”。

把宽高比当作创意控制，而不是事后补救

想让 nanobanana for Image Generation 出图更好，建议这样选 ratio：

1:1 适合图标、头像、产品裁切图
9:16 适合竖版、移动端优先的场景
16:9 或 21:9 适合电影感风景
4:5 适合海报感构图

ratio 选错，往往会直接导致画面拥挤或留白浪费。

直接测试脚本，能更快建立信任感

如果一个 skill 看起来信息不够清楚，先自己跑一遍脚本再下判断。scripts/generate.py 和 scripts/batch_generate.py 都不长，足够你直接检查支持哪些选项、会在哪些地方失败、文件如何命名。对这个 repo 来说，直接看脚本比只看高层说明更容易建立判断依据。

如果第一版输出已经接近目标，但还不够对，下一步该怎么改

不要完全推翻重来。每次只改一个变量：

主体细节
风格表述
光线线索
宽高比
编辑指令范围

这样更容易看清模型到底在响应什么，也能更快提升你对 nanobanana guide 的实际把握。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

openclaw-persona-forge

作者 affaan-m

openclaw-persona-forge 是一款以工作流驱动的技能，用于从零开始构建完整的 OpenClaw persona 套件。它会生成身份张力、SOUL.md 风格框架、边界规则、名字备选，以及可选的头像 prompt 指引。适合 OpenClaw 角色设计、roleplay agents 和偏 UI Design 的 persona 工作，不适合对现有 persona 做小幅修改。

UI 设计

收藏 0GitHub 156.2k

baoyu-imagine

作者 JimLiu

baoyu-imagine 是一款支持多家服务商的图像生成技能，提供类型化 CLI、必需的 EXTEND.md 配置、参考图支持、宽高比控制，以及可在 OpenAI、Azure OpenAI、Google、OpenRouter、DashScope、MiniMax、Jimeng、Seedream 和 Replicate 之间进行批量运行。

图像生成

收藏 0GitHub 13.2k

baoyu-comic

作者 JimLiu

baoyu-comic 是一项可将源文本转成教育类或传记风格漫画的技能，覆盖分镜规划、角色一致性、分格布局以及分阶段图像生成。它支持可安装的 CLI 用法，提供风格与版式选项，也支持 `--storyboard-only`、`--prompts-only`、`--regenerate` 等局部流程，便于更可控地完成漫画生产。

图像生成

收藏 0GitHub 13.2k

shader-dev

作者 MiniMax-AI

shader-dev 是一个面向 ShaderToy 风格实时视觉效果的实用 GLSL 着色器技能。使用 shader-dev 技能可以更少靠猜测地构建或调试 ray marching、SDF 场景、光照、粒子、流体运动、后期处理，以及用于 UI Design 的 shader-dev。

UI 设计

收藏 0GitHub 11.7k

videoagent-video-studio

作者 pexoai

videoagent-video-studio 是一款可根据文本、图片和参考素材生成短篇 AI 视频的技能。你可以用它测试 text-to-video 与 image-to-video 工作流，对比支持的模型，并在 Node 18+ 环境下使用托管代理或自托管方案运行。

视频编辑

收藏 0GitHub 456

seo-image-gen

作者 AgriciDaniel

seo-image-gen 是一个 GitHub skill，用于把 SEO 图片需求转化为可直接用于生产的 prompts 和设置，覆盖 OG images、社交预览图、hero banners、产品视觉图、信息图和 thumbnails。它通过 nanobanana-mcp 调用 Gemini，并默认已安装 banana extension，适合用作一份实用的 seo-image-gen 安装与工作流指南。

图像生成

收藏 0GitHub 0

baoyu-xhs-images

作者 JimLiu

baoyu-xhs-images 可将文章或笔记转换成小红书信息图轮播，提供预设、风格、版式与配置指引，帮助用户完成安装、选择输入内容，并运行 `/baoyu-xhs-images` 生成结构化的多页社交内容。

UI 设计

收藏 0GitHub 13.2k

baoyu-cover-image

作者 JimLiu

baoyu-cover-image 帮助 agent 按类型、配色、渲染、文字和氛围等维度，生成结构化的文章封面图提示词。它支持 2.35:1、16:9 和 1:1 格式，内置自动选择规则与兼容性说明，适合可重复执行的 editorial 和 UI Design 封面工作流。

UI 设计

收藏 0GitHub 13.2k

meme-factory

作者 softaworks

meme-factory 可帮助 agent 基于模板生成 meme，调用免费的 memegen.link API，也支持适合 Markdown 的文字类 meme。你可以用它生成可分享的 meme URL、选择合适模板、正确格式化文本，并借助随附的 Python helper 自动化输出。

图像生成

收藏 0GitHub 1.3k

logo-creator

作者 ReScienceLab

logo-creator 是一套面向 AI logo 设计的工作流，可用于生成创意方向、对比不同变体、裁剪图像、移除背景并导出 SVG 资产。它结合风格参考、示例提示词和辅助脚本，在 ReScienceLab/opc-skills 中支持 logo、icon、favicon 和品牌标记的创建。

品牌设计

收藏 0GitHub 0

scientific-schematics

作者 K-Dense-AI

scientific-schematics 可将自然语言提示转化为适合发表的科学图表，并通过智能迭代优化持续提升质量。它使用 Nano Banana 2 生成图像，并用 Gemini 3.1 Pro Preview 进行审阅；只有当输出低于你的文档类型阈值时才会重新生成。适用于神经网络架构、系统示意图、流程图、生物通路及其他复杂科学可视化内容。

图像生成

收藏 0GitHub 0

banner-creator

作者 ReScienceLab

banner-creator 提供结构化流程，帮助创建横幅、页眉和 hero 图片：先收集需求，再生成多个方案，结合反馈迭代优化，并使用自带脚本按平台比例裁切。

UI 设计

收藏 0GitHub 0

baoyu-article-illustrator

作者 JimLiu

baoyu-article-illustrator 可帮助 agent 将文章草稿转成结构化插图提示词、插入位置建议，以及统一的题材与风格决策，适用于解读型内容、教程、图解和多图文章。

图像生成

收藏 0GitHub 13.2k

sound-fx

作者 NoizAI

使用 sound-fx 技能，把文本提示词转换成音效、拟音、环境底噪、怪物声音和 UI 音效。它适合用于音效编辑、快速原型验证和可下载音频素材制作。先通过 NoizAI/skills 安装，然后使用基于脚本的工作流，并准备有效的 Noiz API key。它不适用于语音、歌词、旋律或声音克隆。

音频编辑

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可从公开音频克隆真实人物的声音，或根据图片设计匹配的声音，再通过 TTS 生成合成回复。它支持角色扮演、旁白和语音生成等实用工作流，并提供安装、素材选择和安全使用方面的指导。

语音生成

收藏 0GitHub 498

videoagent-image-studio

作者 pexoai

videoagent-image-studio 是一款面向 Node agent 的统一图像生成技能。它为 Midjourney、Flux、Ideogram、Recraft、SDXL 等模型提供单一 CLI 工作流，并具备基于代理的配置、模型选择指引和适合自动化的标准化输出。

图像生成

收藏 0GitHub 456