nanobanana

作者 ReScienceLab

nanobanana 是一個用於 Google Gemini 3 Pro Image 的 Python CLI skill，支援文生圖、圖片編輯、長寬比設定、2K/4K 輸出，以及透過簡單本機腳本進行批次生成。

Stars654

評論0

加入時間2026年3月31日

分類影像生成

安裝指令

npx skills add ReScienceLab/opc-skills --skill nanobanana

編輯評分

這個 skill 的評分為 78/100，代表它是相當穩健的目錄收錄候選：對 agent 來說，觸發情境清楚、指令具體，且附有可直接執行的 Gemini 圖像生成／編輯腳本；不過使用者仍需自行處理安裝設定，以及部分模型層面的不確定性。

78/100

亮點

觸發性強：frontmatter 已明確說明，這個 skill 適合用於透過 Gemini 圖像生成來建立或編輯圖片。
操作資訊具體：SKILL.md 提供先決條件、`pip install` 指令、快速上手範例、CLI 用法，以及輸出與編輯選項。
不只是提示詞層面的幫助，對實際流程也有加值：內含 `generate.py` 與 `batch_generate.py` 腳本，可支援文生圖、圖片編輯、長寬比設定、2K/4K 輸出與批次生成。

注意事項

採用前需要額外設定：使用者必須自行提供 `GEMINI_API_KEY`，並安裝 Python 3.10+、`google-genai` 與 Pillow。
在可信度與清晰度上仍有一些限制：此 skill 依賴預覽版模型 `gemini-3-pro-image-preview`，而現有資料中也未顯示 SKILL.md 內含故障排除、錯誤情境指引或安裝自動化內容。

Gemini Google Python Cli 工作流 Batch Jobs

總覽

nanobanana skill 概覽

nanobanana 是用來做什麼的

nanobanana skill 是 Google gemini-3-pro-image-preview 模型的一層輕量包裝，讓你可以直接從命令列進行實用的圖片生成與圖片編修。它特別適合想用可重複、可腳本化的方式來產圖、測試不同 prompt 版本，或批次產出結果，而不想一開始就先做整套應用的人。

哪些人適合安裝 nanobanana

nanobanana skill 最適合以下使用者：

已經熟悉 Python 與環境變數的開發者
想把圖片生成流程做成可重現指令的 AI 操作人員
需要比較風格、長寬比與輸出尺寸的 prompt 測試者
同時需要文字生圖與既有圖片編修流程的使用者

如果你只是偶爾想在聊天介面裡隨手生成一張圖，這套工具的前置設定可能會比你的需求更多。

實際要解決的工作需求

大多數使用者想找的並不是抽象意義上的「圖片模型」，而是想把一個粗略的創意目標，快速變成可用素材：例如產品圖、風景圖、吉祥物、概念插畫，或既有圖片的修改版本。nanobanana for Image Generation 的價值就在於，它直接提供一條 CLI 工作路徑來完成這件事，包含 prompt 輸入、可選的來源圖片輸入、長寬比選擇，以及 2K / 4K 輸出選項。

nanobanana 和一般 prompt 有什麼不同

它真正的差異不在什麼「隱藏版 prompt 技巧」，而是在於縮短工作流程：

有專門處理生成與編修的腳本
明確提供 --ratio 和 --size 旗標
使用環境變數來設定 API
scripts/batch_generate.py 支援批次生成
references/prompts.md 提供具體可套用的風格 prompt 範例

這讓 nanobanana usage 相較於在一般聊天工具裡反覆手打臨時 prompt，更一致、也更容易重現。

採用前最該先確認的事

實際上，導入前要確認的重點很簡單：

你需要一組 GEMINI_API_KEY
你需要 Python 3.10+
你需要安裝 google-genai 與 pillow
你應該能接受在本機執行腳本
你也要預期圖片品質會高度受到 prompt 具體程度影響

這是一個務實型 skill，不是零設定的 web app。

如何使用 nanobanana skill

nanobanana install 的安裝需求

在嘗試 nanobanana install 之前，請先確認你已具備：

Python 3.10+
有效的 GEMINI_API_KEY
可連到 Google API 的網路環境
Python 套件 google-genai 與 pillow

安裝相依套件：

pip install google-genai pillow

設定你的 API key：

export GEMINI_API_KEY="your_api_key_here"

可從 https://aistudio.google.com/apikey 取得 key。

在你的 skills 環境中安裝這個 skill

如果你使用 skills 系統，可用以下指令加入此 skill：

npx skills add ReScienceLab/opc-skills --skill nanobanana

安裝完成後，建議先讀這幾個檔案：

skills/nanobanana/SKILL.md
skills/nanobanana/scripts/generate.py
skills/nanobanana/references/prompts.md
skills/nanobanana/scripts/batch_generate.py

照這個順序讀，可以最快從「這個能不能用？」一路走到「我到底該下哪些指令？」

nanobanana 文字生圖的基本用法

核心指令就是用生成腳本搭配 prompt：

python3 <skill_dir>/scripts/generate.py "a cute robot mascot, pixel art style" -o robot.png

這適合從純文字開始產圖的情境。輸出路徑是選填，但建議先指定，不然之後很容易得回頭找那些自動命名的檔案。

用 nanobanana 編修既有圖片

如果是圖片編修，請同時提供 prompt 和輸入圖片：

python3 <skill_dir>/scripts/generate.py "make the background blue" -i input.jpg -o output.png

當你想保留原始圖片，只做特定修改時，這就是正確流程。prompt 應該聚焦描述「要改什麼」，除非你本來就想讓結果產生更大幅度的變化，否則不要把整個畫面重新敘述一遍。

選擇長寬比與輸出尺寸

這個 skill 支援常見的比例，包括：
1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9

範例：

python3 <skill_dir>/scripts/generate.py "cinematic landscape at sunrise" --ratio 21:9 -o landscape.png

如果要更高解析度：

python3 <skill_dir>/scripts/generate.py "professional product photo of headphones" --size 4K -o product.png

建議在流程一開始就先決定比例。它影響的是構圖，不只是後續裁切而已。

當你需要探索 prompt 方向時，使用批次生成

在主要腳本之外，scripts/batch_generate.py 是另一個最值得看、也最影響安裝判斷的檔案，因為它支援單一 prompt 產生多個版本。

範例：

python3 <skill_dir>/scripts/batch_generate.py "pixel art logo" -n 20 -d ./logos -p logo

也支援平行生成：

python3 <skill_dir>/scripts/batch_generate.py "landscape concept art" -n 20 --parallel 5

如果你的目標是探索風格，而不是只追一個固定輸出，這功能特別實用。

哪種輸入最能讓 nanobanana 發揮效果

像「make a cool image」這種很粗略的需求，通常訊號太弱。更有效的輸入通常包含：

明確主體
預期風格
光線或鏡頭線索
構圖提示
品質或輸出目的

較好的 prompt：

Professional product photo of wireless headphones on marble surface, soft studio lighting, 85mm lens, sharp focus, minimalist background

較弱的 prompt：

headphones advertisement

較完整的版本能提供模型更多控制訊號，也比較不容易生成制式、泛泛的結果。

把粗略想法整理成完整 prompt

一個實用的 nanobanana guide prompt 建構方式如下：

先點出主體
指定視覺形式
加入場景或構圖細節
補上光線或氛圍
只有在有幫助時，再加入品質提示

來自 repo prompt 參考檔的模板：

Digital illustration of {subject}, {style} style, {colors} color palette, {mood} atmosphere

範例：

Digital illustration of an underwater research base, retro-futurist style, cyan and amber palette, mysterious atmosphere, detailed windows, glowing marine life

正式投入使用前，值得先讀的 repository 檔案

如果你希望對 nanobanana usage 的掌握不只停留在表面，建議先看：

SKILL.md：確認前置需求與指令模式
references/prompts.md：看 prompt 結構與分類範例
scripts/generate.py：確認支援的檔案類型、合法比例與尺寸
scripts/batch_generate.py：了解併發、延遲與命名行為
.claude-plugin/plugin.json：補足封裝與整體整合脈絡

比起只在 repo 根目錄快速掃一遍，直接看這幾個檔案更有效，因為這個 skill 的核心幾乎都集中在少數檔案裡。

實際限制與取捨

從腳本內容可以先看出幾個重要邊界：

圖片編修仰賴本機輸入檔案可用
若圖片檔缺失或格式不支援，會在生成前直接失敗
比例與尺寸只能使用已知的合法值
整體流程依賴 Google 的 preview image model，因此模型更新後行為可能改變
批次生成雖然能提高吞吐量，但也會增加 API 使用量與觸發 rate limit 的壓力

如果你需要更進階的圖片流程控制、節點式編修，或完整託管的 UI，這個 skill 的定位本來就比較窄，不是為了取代那些工具。

nanobanana skill 常見問題

nanobanana 適合初學者嗎

可以，前提是你至少能操作基本終端機指令，並安裝 Python 套件。nanobanana skill 比起從零自己寫 API client 簡單得多，但它本質上仍是偏開發者導向的工具，不是一般消費型 app。

什麼時候該用 nanobanana，而不是一般聊天 prompt

當你需要以下能力時，就該用 nanobanana：

可保存的輸出檔案
可重複執行的指令
來自本機檔案的圖片編修
批次生成
明確指定比例與尺寸

如果只是隨手試玩，一般聊天 prompt 就夠了；但當你重視輸出管理與可重現性時，這個 skill 會更合適。

nanobanana 同時支援生成與編修嗎

有。它支援：

從 prompt 進行文字生圖
使用 -i / --input 做圖片編修
長寬比控制
2K 與 4K 輸出設定
透過獨立腳本進行批次生成

這個組合，正是它比起只寫一次性 prompt 更值得安裝的主因。

nanobanana for Image Generation 足夠拿來做正式工作嗎

它可以很好地用在接近正式流程的工作中，例如概念生成、素材發想、prompt 探索，或批次產出實驗。但它本身還不是完整產品流程。你仍然需要自己的審核、挑選、儲存，以及必要時的後製步驟。

哪些情況下 nanobanana 不適合

如果你需要以下條件，就不建議做 nanobanana install：

以瀏覽器為主、零程式碼的操作體驗
完整託管的 GUI 工作流
複雜的多步驟編修編排
對模型長期穩定行為有強保證
不依賴外部 API 的圖片生成

它最強的定位，就是一層薄而實用的腳本化工具。

如何改進 nanobanana skill 的使用效果

先從更具體的 prompt 開始

想提升 nanobanana 結果，最快的方法就是把 prompt 寫得更具體。請加入主體、風格、構圖與光線，而不要只依賴像「cool」或「beautiful」這類模糊形容詞。

較弱：

a nice city

較強：

Aerial photograph of a dense coastal city at golden hour, dramatic shadows, high dynamic range, realistic urban detail, cinematic composition

讓 prompt 風格對齊輸出類型

不同目標，prompt 用語也應該不同：

pixel art：要提到 limited palette、crisp pixels、retro game feel
photorealistic：要提到 lens、lighting、focus、material realism
illustration：要提到 art style、palette、atmosphere、brush 或 rendering feel

這正是 references/prompts.md 裡最實用的觀念之一。

圖片編修時，只描述你真的要改的地方

在編修流程裡，很多使用者會把 prompt 寫過頭。如果你已經提供輸入圖片，先從具體修改開始即可：

Replace the gray wall with a warm blue studio backdrop while keeping the product position and lighting consistent

除非你真的想要大幅重詮釋，否則這通常會比把整張圖從頭重寫一遍來得更好。

用批次生成先探索，再收斂

一個很實用的 nanobanana usage 迭代流程是：

先用同一個 prompt 主題生成 6 到 20 個變體
找出最佳輸出裡真正有效的元素
依照那些成功特徵重寫 prompt
用更收斂的風格描述或不同的比例再跑一次

這通常比你在看到任何結果前，就不停打磨一條抽象 prompt 更有效。

常見失敗模式要先注意

常見的品質問題包括：

prompt 太模糊
主體與比例不匹配
prompt 塞太多互相衝突的風格
編修 prompt 不小心變成要求整個場景重寫
誤以為只要切到 4K 就能補救薄弱概念

多數不理想的輸出，問題都出在指令品質，而不是少了什麼神奇關鍵字。

把長寬比當成創作控制，而不是最後才補

想讓 nanobanana for Image Generation 更穩定，建議這樣使用比例：

1:1：適合 icons、avatars、產品裁切圖
9:16：適合直式、以手機觀看為主的場景
16:9 或 21:9：適合電影感風景
4:5：適合海報感構圖

比例選錯，常常就會導致畫面過擠，或留白浪費太多。

直接測腳本，能更快建立信任感

如果你覺得 skill 說明不夠清楚，先直接跑腳本再下判斷。scripts/generate.py 和 scripts/batch_generate.py 都不算長，親自查看後，你會更清楚支援哪些選項、錯誤會怎麼發生，以及輸出命名邏輯。對這個 repo 來說，直接看腳本本身，往往比只看高層描述更讓人有把握。

第一次輸出已經接近，但還不夠對時，下一步怎麼改

不要整個重來。一次只改一個變數：

主體細節
風格描述
光線提示
長寬比
編修指令範圍

這樣更容易看出模型到底對什麼有反應，也能更快培養你對 nanobanana guide 的實戰判斷。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

openclaw-persona-forge

作者 affaan-m

openclaw-persona-forge 是一個以工作流程為核心的技能，可從零開始建立完整的 OpenClaw 人設套件。它會產出身份張力、SOUL.md 風格框架、邊界規則、命名選項，以及可選的頭像提示詞指引。最適合 OpenClaw 角色設計、角色扮演代理，以及與 UI Design 相鄰的人設工作，不適合拿來對既有人設做小幅修改。

UI 設計

收藏 0GitHub 156.2k

baoyu-imagine

作者 JimLiu

baoyu-imagine 是一個支援多家供應商的圖像生成 skill，提供具型別的 CLI、必要的 EXTEND.md 設定、參考圖片支援、長寬比控制，以及可在 OpenAI、Azure OpenAI、Google、OpenRouter、DashScope、MiniMax、Jimeng、Seedream 與 Replicate 間執行批次產圖。

影像生成

收藏 0GitHub 13.2k

baoyu-comic

作者 JimLiu

baoyu-comic 是一項可將來源文字轉成教育漫畫或傳記風格漫畫的技能，涵蓋分鏡規劃、角色一致性、分格版面配置，以及分階段圖像生成。它支援可安裝的 CLI 用法，提供風格與版面選項，也支援如 `--storyboard-only`、`--prompts-only` 與 `--regenerate` 等局部工作流，讓漫畫製作過程更可控。

影像生成

收藏 0GitHub 13.2k

shader-dev

作者 MiniMax-AI

shader-dev 是一套實用的 GLSL 著色器技能，適用於 ShaderToy 風格的即時視覺效果。使用 shader-dev 技能可建立或除錯 ray marching、SDF 場景、光照、粒子、流體動態、後製，以及 UI Design 的 shader-dev，且比泛用提示詞更少憑空猜測。

UI 設計

收藏 0GitHub 11.7k

videoagent-video-studio

作者 pexoai

videoagent-video-studio 是一個可依文字、圖片與參考素材生成短篇 AI 影片的技能。可用來測試 text-to-video 與 image-to-video 工作流程、比較支援模型，並以 Node 18+ 執行代管 proxy 或自行部署的 self-hosted 設定。

视频编辑

收藏 0GitHub 456

seo-image-gen

作者 AgriciDaniel

seo-image-gen 是一個 GitHub skill，可將 SEO 圖像需求轉化為可直接上線使用的提示詞與設定，適用於 OG 圖、社群預覽、Hero 橫幅、產品視覺、資訊圖表與縮圖。它透過 nanobanana-mcp 使用 Gemini，並假設已安裝 banana extension，提供一份實用的 seo-image-gen 使用指南與工作流程。

影像生成

收藏 0GitHub 0

baoyu-xhs-images

作者 JimLiu

baoyu-xhs-images 可將文章或筆記轉成小紅書資訊圖卡輪播，提供預設、風格、版型與設定指引。它能幫助使用者安裝技能、選擇合適輸入內容，並執行 `/baoyu-xhs-images` 來產出結構化的多頁社群貼文。

UI 設計

收藏 0GitHub 13.2k

baoyu-cover-image

作者 JimLiu

baoyu-cover-image 可協助代理生成結構化的文章封面圖片提示詞，涵蓋類型、配色、渲染、文字與氛圍等維度。支援 2.35:1、16:9 與 1:1 格式，並提供自動選擇規則與相容性指引，適合需要可重複執行的編輯與 UI Design 封面製作流程。

UI 設計

收藏 0GitHub 13.2k

meme-factory

作者 softaworks

meme-factory 可協助代理透過免費的 memegen.link API 製作模板式迷因，也支援對 Markdown 友善的文字迷因。你可以用它產生適合分享的迷因 URL、挑選合適模板、正確處理文字格式，並透過內附的 Python helper 自動化輸出。

影像生成

收藏 0GitHub 1.3k

logo-creator

作者 ReScienceLab

logo-creator 是一套用於 AI 標誌製作的工作流程，支援產生概念稿、比較不同版本、裁切、去背，以及匯出 SVG 素材。它結合風格參考、範例提示詞與輔助腳本，可在 ReScienceLab/opc-skills 中用於建立 logo、icon、favicon 與品牌標記。

品牌設計

收藏 0GitHub 0

scientific-schematics

作者 K-Dense-AI

scientific-schematics 可將自然語言提示詞轉成可達到出版等級的科學圖表，並透過智慧型迭代精修持續提升成品。它以 Nano Banana 2 進行生成，並使用 Gemini 3.1 Pro Preview 進行審查；只有當輸出低於你文件類型所需門檻時才會重新生成。這套流程特別適合神經網路架構、系統圖、流程圖、生物路徑，以及其他複雜的科學視覺化內容。

影像生成

收藏 0GitHub 0

banner-creator

作者 ReScienceLab

banner-creator 透過結構化流程協助製作橫幅、頁首圖與 hero images：先蒐集需求、產生多個版本、依回饋細修，再用內附腳本裁切成各平台所需比例。

UI 設計

收藏 0GitHub 0

baoyu-article-illustrator

作者 JimLiu

baoyu-article-illustrator 可協助代理將文章草稿轉成結構化的插圖提示、插圖放置位置，以及一致的圖像類型與風格選擇，適合用於解說文、教學內容、圖解與多圖文章。

影像生成

收藏 0GitHub 13.2k

sound-fx

作者 NoizAI

使用 sound-fx 技能把文字提示轉成音效、擬音、環境底音、怪物聲，以及 UI 音效。它很適合 Audio Editing 的 sound-fx、快速原型製作與可下載的音訊素材。先用 NoizAI/skills 安裝，再透過腳本式工作流程搭配有效的 Noiz API key 使用。**不適用於**語音、歌詞、旋律或聲音複製。

音频编辑

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可讓你從公開音訊複製真實人物的聲音，或根據圖片設計相符的聲音，接著用 TTS 生成合成回覆。它支援角色扮演、敘事與語音生成等實用工作流程，並提供安裝、來源選擇與安全使用的指引。

語音生成

收藏 0GitHub 498

videoagent-image-studio

作者 pexoai

videoagent-image-studio 是為 Node 型代理設計的統一圖片生成技能。它以單一 CLI 流程整合 Midjourney、Flux、Ideogram、Recraft、SDXL 等模型，提供代理支援的設定方式、模型選用指引，以及適合自動化流程的標準化輸出。

影像生成

收藏 0GitHub 456