nanobanana
作者 ReScienceLabnanobanana 是一款面向 Google Gemini 3 Pro Image 的 Python CLI 技能,支持文生图、图像编辑、宽高比设置、2K/4K 输出,以及通过简单本地脚本进行批量生成。
该技能评分为 78/100,说明它是一个表现扎实的目录收录候选:代理能够获得明确的触发场景、具体命令和可直接运行的脚本来完成基于 Gemini 的图像生成与编辑,但用户仍需自行处理环境配置,以及部分与模型相关的不确定性。
- 触发条件明确:frontmatter 明确说明,该技能适用于使用 Gemini 图像生成能力进行图片生成或编辑。
- 落地性强:`SKILL.md` 提供了前置要求、`pip install` 命令、快速上手示例、CLI 用法,以及输出和编辑选项。
- 不只是提示词封装,具备实际工作流价值:随附的 `generate.py` 和 `batch_generate.py` 脚本支持文生图、图像编辑、宽高比设置、2K/4K 输出和批量生成。
- 接入前需要完成外部配置:用户必须提供 `GEMINI_API_KEY`,并安装 Python 3.10+、`google-genai` 和 Pillow。
- 在可信度和清晰度方面仍有一定限制:该技能依赖预览版模型 `gemini-3-pro-image-preview`,且现有材料未显示 `SKILL.md` 内包含故障排查、错误处理说明或安装自动化支持。
nanobanana skill 概览
nanobanana 的用途是什么
nanobanana skill 是对 Google gemini-3-pro-image-preview 模型的一层轻量封装,适合在命令行里做实用型图片生成和图片编辑。它尤其适合那些还不想先搭一整个应用、但希望用可重复、可脚本化的方式来生成图片、测试不同 prompt 版本,或批量产出结果的人。
哪些人适合安装 nanobanana
nanobanana skill 最适合这几类用户:
- 已经在使用 Python 和环境变量的开发者
- 想把图片生成命令做成可复现流程的 AI 操作人员
- 需要比较风格、宽高比和输出尺寸的 prompt 测试者
- 同时需要 text-to-image 和基于现有图片编辑流程的用户
如果你只是偶尔想在聊天界面里随手生成一张图,那它的配置成本可能比你的实际需求更高。
nanobanana for Image Generation 真正解决的是什么任务
大多数用户并不是抽象地在找“一个图像模型”。他们真正想做的,是把一个粗略的创意目标变成可用资产:比如产品图、风景图、吉祥物、概念插画,或者对现有图片做定向修改。nanobanana for Image Generation 的价值就在于,它为这类任务提供了一条直接可用的 CLI 路径,包含 prompt 输入、可选的源图输入、宽高比选择,以及 2K/4K 输出选项。
nanobanana 和普通 prompt 方式有什么不同
它的主要差异点不在于“隐藏提示词技巧”,而在于它把工作流压缩得更直接:
- 提供了专门用于生成和编辑的脚本
- 明确支持
--ratio和--size参数 - 通过环境变量完成 API 配置
- 在
scripts/batch_generate.py里支持批量生成 - 在
references/prompts.md里提供了带具体风格模式的 prompt 参考
这让 nanobanana usage 相比在通用聊天工具里反复手打临时 prompt,更一致、更容易复现。
采用 nanobanana 前你需要先确认什么
决定是否采用时,关键问题其实很简单:
- 你需要有一个
GEMINI_API_KEY - 你需要 Python
3.10+ - 你需要安装
google-genai和pillow - 你需要能接受在本地运行脚本
- 你也要预期图片质量会很大程度上取决于 prompt 是否具体
这是一个偏实用的 skill,不是零配置的网页应用。
如何使用 nanobanana skill
nanobanana 安装要求
在尝试 nanobanana install 之前,请先确认你具备以下条件:
- Python
3.10+ - 有效的
GEMINI_API_KEY - 可以访问 Google API 的网络环境
- Python 包
google-genai和pillow
安装依赖:
pip install google-genai pillow
设置 API key:
export GEMINI_API_KEY="your_api_key_here"
可以在 https://aistudio.google.com/apikey 获取 key。
在你的 skills 环境中安装这个 skill
如果你在使用 skills 系统,可以通过下面的命令添加该 skill:
npx skills add ReScienceLab/opc-skills --skill nanobanana
安装完成后,建议优先阅读这些文件:
skills/nanobanana/SKILL.mdskills/nanobanana/scripts/generate.pyskills/nanobanana/references/prompts.mdskills/nanobanana/scripts/batch_generate.py
按照这个顺序看,能最快帮你从“我能不能用它?”走到“我到底该执行哪些命令?”
用 nanobanana 进行文生图的基础用法
核心命令就是调用生成脚本并传入 prompt:
python3 <skill_dir>/scripts/generate.py "a cute robot mascot, pixel art style" -o robot.png
当你是从纯文本开始生成时,就用这个方式。输出路径不是必填,但建议明确指定,这样后面不用再去找自动命名的文件。
用 nanobanana 编辑现有图片
做图片编辑时,需要同时提供 prompt 和输入图片:
python3 <skill_dir>/scripts/generate.py "make the background blue" -i input.jpg -o output.png
如果你的目标是保留原图主体,只做定向修改,这就是正确流程。prompt 应该重点描述“要改什么”,而不是把整个场景重新描述一遍;除非你本来就想要更大幅度的变化。
选择宽高比和输出尺寸
这个 skill 支持常见的宽高比,包括:
1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
例如:
python3 <skill_dir>/scripts/generate.py "cinematic landscape at sunrise" --ratio 21:9 -o landscape.png
如果需要更高分辨率:
python3 <skill_dir>/scripts/generate.py "professional product photo of headphones" --size 4K -o product.png
建议在工作流前期就先确定 ratio。它影响的不只是裁切,更会直接改变构图。
在需要探索 prompt 时使用批量生成
在主脚本之外,scripts/batch_generate.py 是最值得关注的文件之一,因为它支持基于同一个 prompt 连续生成多张结果。
例如:
python3 <skill_dir>/scripts/batch_generate.py "pixel art logo" -n 20 -d ./logos -p logo
也支持并行生成:
python3 <skill_dir>/scripts/batch_generate.py "landscape concept art" -n 20 --parallel 5
当你的重点是探索风格方向,而不是追求某一个完全确定的输出时,这个能力尤其有用。
什么样的输入更能让 nanobanana 发挥效果
像“make a cool image”这种过于笼统的目标,通常力度不够。更有效的输入一般会包含:
- 明确主体
- 目标风格
- 光线或镜头线索
- 构图提示
- 质量或用途导向
更好的 prompt:
Professional product photo of wireless headphones on marble surface, soft studio lighting, 85mm lens, sharp focus, minimalist background
较弱的 prompt:
headphones advertisement
前者给了模型更多可执行的控制信号,能减少过于泛化的输出。
如何把一个模糊想法扩展成完整 prompt
一个实用的 nanobanana guide 式 prompt 构建方法是:
- 先说清主体是什么
- 指定视觉表现方式
- 加入场景或构图细节
- 加入光线或情绪描述
- 只在有必要时再补充质量相关提示
仓库里的 prompt 参考模板:
Digital illustration of {subject}, {style} style, {colors} color palette, {mood} atmosphere
例如:
Digital illustration of an underwater research base, retro-futurist style, cyan and amber palette, mysterious atmosphere, detailed windows, glowing marine life
在认真使用 nanobanana 前值得先看的仓库文件
如果你不想只停留在表层的 nanobanana usage,建议重点查看:
SKILL.md:前置条件和命令模式references/prompts.md:prompt 结构和分类示例scripts/generate.py:支持的文件类型、可用 ratio 和尺寸scripts/batch_generate.py:并发、延迟和命名行为.claude-plugin/plugin.json:打包与集成上下文
比起泛泛浏览 repo 根目录,这样更有效,因为这个 skill 的核心信息其实集中在少数几个文件里。
实际限制与取舍
从脚本本身可以看出一些重要边界:
- 输入图片编辑依赖本地文件可用
- 图片文件缺失或格式不受支持时,会在生成前直接失败
- ratio 和 size 只能使用预设的有效值
- 这个流程依赖 Google 的 preview 图像模型,因此模型更新后行为可能发生变化
- 批量生成能提升吞吐,但也会增加 API 用量和触发 rate limit 的压力
如果你需要的是高级图像流水线控制、节点式编辑,或者完整的托管式 UI,这个 skill 的设计范围本来就更窄,不是为此而生的。
nanobanana skill 常见问题
nanobanana 适合新手吗
适合,前提是你能接受基本的终端命令和 Python 包安装。nanobanana skill 比起从零自己写 API client 要简单得多,但它本质上仍然是面向开发者的工具,而不是消费级应用。
什么时候应该用 nanobanana,而不是普通聊天 prompt
当你需要下面这些能力时,就更适合用 nanobanana:
- 可保存的输出文件
- 可重复执行的命令
- 基于本地文件的图片编辑
- 批量生成
- 明确选择 ratio 和 size
普通聊天 prompt 适合轻量试验,但如果你在意输出管理和结果复现,这个 skill 会更合适。
nanobanana 是否同时支持生成和编辑
支持。它包含:
- 基于 prompt 的 text-to-image 生成
- 使用
-i/--input的图片编辑 - 宽高比控制
2K和4K输出设置- 通过独立脚本完成批量生成
这组能力的组合,正是它值得安装、而不是只临时写一个一次性 prompt 的主要原因。
nanobanana for Image Generation 能直接用于生产环境吗
它可以很好地用于接近生产的流程,比如概念图生成、素材方向探索、prompt 实验,或批量创建测试。但它本身还不是完整的产品化流水线。你仍然需要自己的审核、筛选、存储,以及可能的后处理步骤。
哪些情况下 nanobanana 并不适合
如果你需要以下能力,建议跳过 nanobanana install:
- 浏览器优先、零代码体验
- 完全托管的 GUI 工作流
- 复杂的多步骤编辑编排
- 对模型长期稳定行为有强保证
- 不依赖外部 API 的图片生成
它最强的定位,是一层轻量、务实的脚本化封装。
如何改进 nanobanana skill 的使用效果
先从更具体的 prompt 开始优化
想提升 nanobanana 效果,最快的方法就是把 prompt 写得更具体。加入主体、风格、构图和光线信息,而不是依赖“cool”“beautiful”这种模糊形容词。
较弱:
a nice city
更强:
Aerial photograph of a dense coastal city at golden hour, dramatic shadows, high dynamic range, realistic urban detail, cinematic composition
让 prompt 风格和目标输出类型对齐
不同目标,prompt 语言也应不同:
- pixel art:写明 limited palette、crisp pixels、retro game feel
- photorealistic:写明 lens、lighting、focus、material realism
- illustration:写明 art style、palette、atmosphere、brush 或 rendering feel
这是 references/prompts.md 里最实用的思路之一。
做图片编辑时,只描述你想改动的部分
在编辑流程里,很多用户的问题是“提示过度”。如果你已经提供了输入图片,最好先从具体改动开始写:
Replace the gray wall with a warm blue studio backdrop while keeping the product position and lighting consistent
通常这会比把整张图从头重写一遍更好,除非你确实想要更大范围的重构。
用批量生成先探索,再逐步收敛
一个适合 nanobanana usage 的迭代流程是:
- 围绕一个 prompt 主题先生成 6 到 20 个变体
- 找出最佳结果里真正有效的特征
- 围绕这些有效特征重写 prompt
- 用更收紧的风格描述或不同 ratio 再跑一轮
这通常比在看到任何结果之前,死磕一个抽象 prompt 更高效。
需要留意的常见失败模式
常见质量问题包括:
- prompt 太模糊
- ratio 和主体不匹配
- prompt 塞入过多互相冲突的风格
- 编辑 prompt 不小心变成整幅画面重写
- 误以为只要切到 4K 就能修复一个薄弱概念
多数糟糕输出,问题都出在指令质量,而不是缺少什么“魔法关键词”。
把宽高比当作创意控制,而不是事后补救
想让 nanobanana for Image Generation 出图更好,建议这样选 ratio:
1:1适合图标、头像、产品裁切图9:16适合竖版、移动端优先的场景16:9或21:9适合电影感风景4:5适合海报感构图
ratio 选错,往往会直接导致画面拥挤或留白浪费。
直接测试脚本,能更快建立信任感
如果一个 skill 看起来信息不够清楚,先自己跑一遍脚本再下判断。scripts/generate.py 和 scripts/batch_generate.py 都不长,足够你直接检查支持哪些选项、会在哪些地方失败、文件如何命名。对这个 repo 来说,直接看脚本比只看高层说明更容易建立判断依据。
如果第一版输出已经接近目标,但还不够对,下一步该怎么改
不要完全推翻重来。每次只改一个变量:
- 主体细节
- 风格表述
- 光线线索
- 宽高比
- 编辑指令范围
这样更容易看清模型到底在响应什么,也能更快提升你对 nanobanana guide 的实际把握。
