nanobanana 是一款面向 Google Gemini 3 Pro Image 的 Python CLI 技能,支持文生图、图像编辑、宽高比设置、2K/4K 输出,以及通过简单本地脚本进行批量生成。

Stars654
收藏0
评论0
收录时间2026年3月31日
分类图像生成
安装命令
npx skills add ReScienceLab/opc-skills --skill nanobanana
编辑评分

该技能评分为 78/100,说明它是一个表现扎实的目录收录候选:代理能够获得明确的触发场景、具体命令和可直接运行的脚本来完成基于 Gemini 的图像生成与编辑,但用户仍需自行处理环境配置,以及部分与模型相关的不确定性。

78/100
亮点
  • 触发条件明确:frontmatter 明确说明,该技能适用于使用 Gemini 图像生成能力进行图片生成或编辑。
  • 落地性强:`SKILL.md` 提供了前置要求、`pip install` 命令、快速上手示例、CLI 用法,以及输出和编辑选项。
  • 不只是提示词封装,具备实际工作流价值:随附的 `generate.py` 和 `batch_generate.py` 脚本支持文生图、图像编辑、宽高比设置、2K/4K 输出和批量生成。
注意点
  • 接入前需要完成外部配置:用户必须提供 `GEMINI_API_KEY`,并安装 Python 3.10+、`google-genai` 和 Pillow。
  • 在可信度和清晰度方面仍有一定限制:该技能依赖预览版模型 `gemini-3-pro-image-preview`,且现有材料未显示 `SKILL.md` 内包含故障排查、错误处理说明或安装自动化支持。
概览

nanobanana skill 概览

nanobanana 的用途是什么

nanobanana skill 是对 Google gemini-3-pro-image-preview 模型的一层轻量封装,适合在命令行里做实用型图片生成和图片编辑。它尤其适合那些还不想先搭一整个应用、但希望用可重复、可脚本化的方式来生成图片、测试不同 prompt 版本,或批量产出结果的人。

哪些人适合安装 nanobanana

nanobanana skill 最适合这几类用户:

  • 已经在使用 Python 和环境变量的开发者
  • 想把图片生成命令做成可复现流程的 AI 操作人员
  • 需要比较风格、宽高比和输出尺寸的 prompt 测试者
  • 同时需要 text-to-image 和基于现有图片编辑流程的用户

如果你只是偶尔想在聊天界面里随手生成一张图,那它的配置成本可能比你的实际需求更高。

nanobanana for Image Generation 真正解决的是什么任务

大多数用户并不是抽象地在找“一个图像模型”。他们真正想做的,是把一个粗略的创意目标变成可用资产:比如产品图、风景图、吉祥物、概念插画,或者对现有图片做定向修改。nanobanana for Image Generation 的价值就在于,它为这类任务提供了一条直接可用的 CLI 路径,包含 prompt 输入、可选的源图输入、宽高比选择,以及 2K/4K 输出选项。

nanobanana 和普通 prompt 方式有什么不同

它的主要差异点不在于“隐藏提示词技巧”,而在于它把工作流压缩得更直接:

  • 提供了专门用于生成和编辑的脚本
  • 明确支持 --ratio--size 参数
  • 通过环境变量完成 API 配置
  • scripts/batch_generate.py 里支持批量生成
  • references/prompts.md 里提供了带具体风格模式的 prompt 参考

这让 nanobanana usage 相比在通用聊天工具里反复手打临时 prompt,更一致、更容易复现。

采用 nanobanana 前你需要先确认什么

决定是否采用时,关键问题其实很简单:

  • 你需要有一个 GEMINI_API_KEY
  • 你需要 Python 3.10+
  • 你需要安装 google-genaipillow
  • 你需要能接受在本地运行脚本
  • 你也要预期图片质量会很大程度上取决于 prompt 是否具体

这是一个偏实用的 skill,不是零配置的网页应用。

如何使用 nanobanana skill

nanobanana 安装要求

在尝试 nanobanana install 之前,请先确认你具备以下条件:

  • Python 3.10+
  • 有效的 GEMINI_API_KEY
  • 可以访问 Google API 的网络环境
  • Python 包 google-genaipillow

安装依赖:

pip install google-genai pillow

设置 API key:

export GEMINI_API_KEY="your_api_key_here"

可以在 https://aistudio.google.com/apikey 获取 key。

在你的 skills 环境中安装这个 skill

如果你在使用 skills 系统,可以通过下面的命令添加该 skill:

npx skills add ReScienceLab/opc-skills --skill nanobanana

安装完成后,建议优先阅读这些文件:

  • skills/nanobanana/SKILL.md
  • skills/nanobanana/scripts/generate.py
  • skills/nanobanana/references/prompts.md
  • skills/nanobanana/scripts/batch_generate.py

按照这个顺序看,能最快帮你从“我能不能用它?”走到“我到底该执行哪些命令?”

用 nanobanana 进行文生图的基础用法

核心命令就是调用生成脚本并传入 prompt:

python3 <skill_dir>/scripts/generate.py "a cute robot mascot, pixel art style" -o robot.png

当你是从纯文本开始生成时,就用这个方式。输出路径不是必填,但建议明确指定,这样后面不用再去找自动命名的文件。

用 nanobanana 编辑现有图片

做图片编辑时,需要同时提供 prompt 和输入图片:

python3 <skill_dir>/scripts/generate.py "make the background blue" -i input.jpg -o output.png

如果你的目标是保留原图主体,只做定向修改,这就是正确流程。prompt 应该重点描述“要改什么”,而不是把整个场景重新描述一遍;除非你本来就想要更大幅度的变化。

选择宽高比和输出尺寸

这个 skill 支持常见的宽高比,包括:
1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9

例如:

python3 <skill_dir>/scripts/generate.py "cinematic landscape at sunrise" --ratio 21:9 -o landscape.png

如果需要更高分辨率:

python3 <skill_dir>/scripts/generate.py "professional product photo of headphones" --size 4K -o product.png

建议在工作流前期就先确定 ratio。它影响的不只是裁切,更会直接改变构图。

在需要探索 prompt 时使用批量生成

在主脚本之外,scripts/batch_generate.py 是最值得关注的文件之一,因为它支持基于同一个 prompt 连续生成多张结果。

例如:

python3 <skill_dir>/scripts/batch_generate.py "pixel art logo" -n 20 -d ./logos -p logo

也支持并行生成:

python3 <skill_dir>/scripts/batch_generate.py "landscape concept art" -n 20 --parallel 5

当你的重点是探索风格方向,而不是追求某一个完全确定的输出时,这个能力尤其有用。

什么样的输入更能让 nanobanana 发挥效果

像“make a cool image”这种过于笼统的目标,通常力度不够。更有效的输入一般会包含:

  • 明确主体
  • 目标风格
  • 光线或镜头线索
  • 构图提示
  • 质量或用途导向

更好的 prompt:

Professional product photo of wireless headphones on marble surface, soft studio lighting, 85mm lens, sharp focus, minimalist background

较弱的 prompt:

headphones advertisement

前者给了模型更多可执行的控制信号,能减少过于泛化的输出。

如何把一个模糊想法扩展成完整 prompt

一个实用的 nanobanana guide 式 prompt 构建方法是:

  1. 先说清主体是什么
  2. 指定视觉表现方式
  3. 加入场景或构图细节
  4. 加入光线或情绪描述
  5. 只在有必要时再补充质量相关提示

仓库里的 prompt 参考模板:

Digital illustration of {subject}, {style} style, {colors} color palette, {mood} atmosphere

例如:

Digital illustration of an underwater research base, retro-futurist style, cyan and amber palette, mysterious atmosphere, detailed windows, glowing marine life

在认真使用 nanobanana 前值得先看的仓库文件

如果你不想只停留在表层的 nanobanana usage,建议重点查看:

  • SKILL.md:前置条件和命令模式
  • references/prompts.md:prompt 结构和分类示例
  • scripts/generate.py:支持的文件类型、可用 ratio 和尺寸
  • scripts/batch_generate.py:并发、延迟和命名行为
  • .claude-plugin/plugin.json:打包与集成上下文

比起泛泛浏览 repo 根目录,这样更有效,因为这个 skill 的核心信息其实集中在少数几个文件里。

实际限制与取舍

从脚本本身可以看出一些重要边界:

  • 输入图片编辑依赖本地文件可用
  • 图片文件缺失或格式不受支持时,会在生成前直接失败
  • ratio 和 size 只能使用预设的有效值
  • 这个流程依赖 Google 的 preview 图像模型,因此模型更新后行为可能发生变化
  • 批量生成能提升吞吐,但也会增加 API 用量和触发 rate limit 的压力

如果你需要的是高级图像流水线控制、节点式编辑,或者完整的托管式 UI,这个 skill 的设计范围本来就更窄,不是为此而生的。

nanobanana skill 常见问题

nanobanana 适合新手吗

适合,前提是你能接受基本的终端命令和 Python 包安装。nanobanana skill 比起从零自己写 API client 要简单得多,但它本质上仍然是面向开发者的工具,而不是消费级应用。

什么时候应该用 nanobanana,而不是普通聊天 prompt

当你需要下面这些能力时,就更适合用 nanobanana

  • 可保存的输出文件
  • 可重复执行的命令
  • 基于本地文件的图片编辑
  • 批量生成
  • 明确选择 ratio 和 size

普通聊天 prompt 适合轻量试验,但如果你在意输出管理和结果复现,这个 skill 会更合适。

nanobanana 是否同时支持生成和编辑

支持。它包含:

  • 基于 prompt 的 text-to-image 生成
  • 使用 -i / --input 的图片编辑
  • 宽高比控制
  • 2K4K 输出设置
  • 通过独立脚本完成批量生成

这组能力的组合,正是它值得安装、而不是只临时写一个一次性 prompt 的主要原因。

nanobanana for Image Generation 能直接用于生产环境吗

它可以很好地用于接近生产的流程,比如概念图生成、素材方向探索、prompt 实验,或批量创建测试。但它本身还不是完整的产品化流水线。你仍然需要自己的审核、筛选、存储,以及可能的后处理步骤。

哪些情况下 nanobanana 并不适合

如果你需要以下能力,建议跳过 nanobanana install

  • 浏览器优先、零代码体验
  • 完全托管的 GUI 工作流
  • 复杂的多步骤编辑编排
  • 对模型长期稳定行为有强保证
  • 不依赖外部 API 的图片生成

它最强的定位,是一层轻量、务实的脚本化封装。

如何改进 nanobanana skill 的使用效果

先从更具体的 prompt 开始优化

想提升 nanobanana 效果,最快的方法就是把 prompt 写得更具体。加入主体、风格、构图和光线信息,而不是依赖“cool”“beautiful”这种模糊形容词。

较弱:

a nice city

更强:

Aerial photograph of a dense coastal city at golden hour, dramatic shadows, high dynamic range, realistic urban detail, cinematic composition

让 prompt 风格和目标输出类型对齐

不同目标,prompt 语言也应不同:

  • pixel art:写明 limited palette、crisp pixels、retro game feel
  • photorealistic:写明 lens、lighting、focus、material realism
  • illustration:写明 art style、palette、atmosphere、brush 或 rendering feel

这是 references/prompts.md 里最实用的思路之一。

做图片编辑时,只描述你想改动的部分

在编辑流程里,很多用户的问题是“提示过度”。如果你已经提供了输入图片,最好先从具体改动开始写:

Replace the gray wall with a warm blue studio backdrop while keeping the product position and lighting consistent

通常这会比把整张图从头重写一遍更好,除非你确实想要更大范围的重构。

用批量生成先探索,再逐步收敛

一个适合 nanobanana usage 的迭代流程是:

  1. 围绕一个 prompt 主题先生成 6 到 20 个变体
  2. 找出最佳结果里真正有效的特征
  3. 围绕这些有效特征重写 prompt
  4. 用更收紧的风格描述或不同 ratio 再跑一轮

这通常比在看到任何结果之前,死磕一个抽象 prompt 更高效。

需要留意的常见失败模式

常见质量问题包括:

  • prompt 太模糊
  • ratio 和主体不匹配
  • prompt 塞入过多互相冲突的风格
  • 编辑 prompt 不小心变成整幅画面重写
  • 误以为只要切到 4K 就能修复一个薄弱概念

多数糟糕输出,问题都出在指令质量,而不是缺少什么“魔法关键词”。

把宽高比当作创意控制,而不是事后补救

想让 nanobanana for Image Generation 出图更好,建议这样选 ratio:

  • 1:1 适合图标、头像、产品裁切图
  • 9:16 适合竖版、移动端优先的场景
  • 16:921:9 适合电影感风景
  • 4:5 适合海报感构图

ratio 选错,往往会直接导致画面拥挤或留白浪费。

直接测试脚本,能更快建立信任感

如果一个 skill 看起来信息不够清楚,先自己跑一遍脚本再下判断。scripts/generate.pyscripts/batch_generate.py 都不长,足够你直接检查支持哪些选项、会在哪些地方失败、文件如何命名。对这个 repo 来说,直接看脚本比只看高层说明更容易建立判断依据。

如果第一版输出已经接近目标,但还不够对,下一步该怎么改

不要完全推翻重来。每次只改一个变量:

  • 主体细节
  • 风格表述
  • 光线线索
  • 宽高比
  • 编辑指令范围

这样更容易看清模型到底在响应什么,也能更快提升你对 nanobanana guide 的实际把握。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...