nanobanana 是一個用於 Google Gemini 3 Pro Image 的 Python CLI skill,支援文生圖、圖片編輯、長寬比設定、2K/4K 輸出,以及透過簡單本機腳本進行批次生成。

Stars654
收藏0
評論0
加入時間2026年3月31日
分類影像生成
安裝指令
npx skills add ReScienceLab/opc-skills --skill nanobanana
編輯評分

這個 skill 的評分為 78/100,代表它是相當穩健的目錄收錄候選:對 agent 來說,觸發情境清楚、指令具體,且附有可直接執行的 Gemini 圖像生成/編輯腳本;不過使用者仍需自行處理安裝設定,以及部分模型層面的不確定性。

78/100
亮點
  • 觸發性強:frontmatter 已明確說明,這個 skill 適合用於透過 Gemini 圖像生成來建立或編輯圖片。
  • 操作資訊具體:SKILL.md 提供先決條件、`pip install` 指令、快速上手範例、CLI 用法,以及輸出與編輯選項。
  • 不只是提示詞層面的幫助,對實際流程也有加值:內含 `generate.py` 與 `batch_generate.py` 腳本,可支援文生圖、圖片編輯、長寬比設定、2K/4K 輸出與批次生成。
注意事項
  • 採用前需要額外設定:使用者必須自行提供 `GEMINI_API_KEY`,並安裝 Python 3.10+、`google-genai` 與 Pillow。
  • 在可信度與清晰度上仍有一些限制:此 skill 依賴預覽版模型 `gemini-3-pro-image-preview`,而現有資料中也未顯示 SKILL.md 內含故障排除、錯誤情境指引或安裝自動化內容。
總覽

nanobanana skill 概覽

nanobanana 是用來做什麼的

nanobanana skill 是 Google gemini-3-pro-image-preview 模型的一層輕量包裝,讓你可以直接從命令列進行實用的圖片生成與圖片編修。它特別適合想用可重複、可腳本化的方式來產圖、測試不同 prompt 版本,或批次產出結果,而不想一開始就先做整套應用的人。

哪些人適合安裝 nanobanana

nanobanana skill 最適合以下使用者:

  • 已經熟悉 Python 與環境變數的開發者
  • 想把圖片生成流程做成可重現指令的 AI 操作人員
  • 需要比較風格、長寬比與輸出尺寸的 prompt 測試者
  • 同時需要文字生圖與既有圖片編修流程的使用者

如果你只是偶爾想在聊天介面裡隨手生成一張圖,這套工具的前置設定可能會比你的需求更多。

實際要解決的工作需求

大多數使用者想找的並不是抽象意義上的「圖片模型」,而是想把一個粗略的創意目標,快速變成可用素材:例如產品圖、風景圖、吉祥物、概念插畫,或既有圖片的修改版本。nanobanana for Image Generation 的價值就在於,它直接提供一條 CLI 工作路徑來完成這件事,包含 prompt 輸入、可選的來源圖片輸入、長寬比選擇,以及 2K / 4K 輸出選項。

nanobanana 和一般 prompt 有什麼不同

它真正的差異不在什麼「隱藏版 prompt 技巧」,而是在於縮短工作流程:

  • 有專門處理生成與編修的腳本
  • 明確提供 --ratio--size 旗標
  • 使用環境變數來設定 API
  • scripts/batch_generate.py 支援批次生成
  • references/prompts.md 提供具體可套用的風格 prompt 範例

這讓 nanobanana usage 相較於在一般聊天工具裡反覆手打臨時 prompt,更一致、也更容易重現。

採用前最該先確認的事

實際上,導入前要確認的重點很簡單:

  • 你需要一組 GEMINI_API_KEY
  • 你需要 Python 3.10+
  • 你需要安裝 google-genaipillow
  • 你應該能接受在本機執行腳本
  • 你也要預期圖片品質會高度受到 prompt 具體程度影響

這是一個務實型 skill,不是零設定的 web app。

如何使用 nanobanana skill

nanobanana install 的安裝需求

在嘗試 nanobanana install 之前,請先確認你已具備:

  • Python 3.10+
  • 有效的 GEMINI_API_KEY
  • 可連到 Google API 的網路環境
  • Python 套件 google-genaipillow

安裝相依套件:

pip install google-genai pillow

設定你的 API key:

export GEMINI_API_KEY="your_api_key_here"

可從 https://aistudio.google.com/apikey 取得 key。

在你的 skills 環境中安裝這個 skill

如果你使用 skills 系統,可用以下指令加入此 skill:

npx skills add ReScienceLab/opc-skills --skill nanobanana

安裝完成後,建議先讀這幾個檔案:

  • skills/nanobanana/SKILL.md
  • skills/nanobanana/scripts/generate.py
  • skills/nanobanana/references/prompts.md
  • skills/nanobanana/scripts/batch_generate.py

照這個順序讀,可以最快從「這個能不能用?」一路走到「我到底該下哪些指令?」

nanobanana 文字生圖的基本用法

核心指令就是用生成腳本搭配 prompt:

python3 <skill_dir>/scripts/generate.py "a cute robot mascot, pixel art style" -o robot.png

這適合從純文字開始產圖的情境。輸出路徑是選填,但建議先指定,不然之後很容易得回頭找那些自動命名的檔案。

用 nanobanana 編修既有圖片

如果是圖片編修,請同時提供 prompt 和輸入圖片:

python3 <skill_dir>/scripts/generate.py "make the background blue" -i input.jpg -o output.png

當你想保留原始圖片,只做特定修改時,這就是正確流程。prompt 應該聚焦描述「要改什麼」,除非你本來就想讓結果產生更大幅度的變化,否則不要把整個畫面重新敘述一遍。

選擇長寬比與輸出尺寸

這個 skill 支援常見的比例,包括:
1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9

範例:

python3 <skill_dir>/scripts/generate.py "cinematic landscape at sunrise" --ratio 21:9 -o landscape.png

如果要更高解析度:

python3 <skill_dir>/scripts/generate.py "professional product photo of headphones" --size 4K -o product.png

建議在流程一開始就先決定比例。它影響的是構圖,不只是後續裁切而已。

當你需要探索 prompt 方向時,使用批次生成

在主要腳本之外,scripts/batch_generate.py 是另一個最值得看、也最影響安裝判斷的檔案,因為它支援單一 prompt 產生多個版本。

範例:

python3 <skill_dir>/scripts/batch_generate.py "pixel art logo" -n 20 -d ./logos -p logo

也支援平行生成:

python3 <skill_dir>/scripts/batch_generate.py "landscape concept art" -n 20 --parallel 5

如果你的目標是探索風格,而不是只追一個固定輸出,這功能特別實用。

哪種輸入最能讓 nanobanana 發揮效果

像「make a cool image」這種很粗略的需求,通常訊號太弱。更有效的輸入通常包含:

  • 明確主體
  • 預期風格
  • 光線或鏡頭線索
  • 構圖提示
  • 品質或輸出目的

較好的 prompt:

Professional product photo of wireless headphones on marble surface, soft studio lighting, 85mm lens, sharp focus, minimalist background

較弱的 prompt:

headphones advertisement

較完整的版本能提供模型更多控制訊號,也比較不容易生成制式、泛泛的結果。

把粗略想法整理成完整 prompt

一個實用的 nanobanana guide prompt 建構方式如下:

  1. 先點出主體
  2. 指定視覺形式
  3. 加入場景或構圖細節
  4. 補上光線或氛圍
  5. 只有在有幫助時,再加入品質提示

來自 repo prompt 參考檔的模板:

Digital illustration of {subject}, {style} style, {colors} color palette, {mood} atmosphere

範例:

Digital illustration of an underwater research base, retro-futurist style, cyan and amber palette, mysterious atmosphere, detailed windows, glowing marine life

正式投入使用前,值得先讀的 repository 檔案

如果你希望對 nanobanana usage 的掌握不只停留在表面,建議先看:

  • SKILL.md:確認前置需求與指令模式
  • references/prompts.md:看 prompt 結構與分類範例
  • scripts/generate.py:確認支援的檔案類型、合法比例與尺寸
  • scripts/batch_generate.py:了解併發、延遲與命名行為
  • .claude-plugin/plugin.json:補足封裝與整體整合脈絡

比起只在 repo 根目錄快速掃一遍,直接看這幾個檔案更有效,因為這個 skill 的核心幾乎都集中在少數檔案裡。

實際限制與取捨

從腳本內容可以先看出幾個重要邊界:

  • 圖片編修仰賴本機輸入檔案可用
  • 若圖片檔缺失或格式不支援,會在生成前直接失敗
  • 比例與尺寸只能使用已知的合法值
  • 整體流程依賴 Google 的 preview image model,因此模型更新後行為可能改變
  • 批次生成雖然能提高吞吐量,但也會增加 API 使用量與觸發 rate limit 的壓力

如果你需要更進階的圖片流程控制、節點式編修,或完整託管的 UI,這個 skill 的定位本來就比較窄,不是為了取代那些工具。

nanobanana skill 常見問題

nanobanana 適合初學者嗎

可以,前提是你至少能操作基本終端機指令,並安裝 Python 套件。nanobanana skill 比起從零自己寫 API client 簡單得多,但它本質上仍是偏開發者導向的工具,不是一般消費型 app。

什麼時候該用 nanobanana,而不是一般聊天 prompt

當你需要以下能力時,就該用 nanobanana

  • 可保存的輸出檔案
  • 可重複執行的指令
  • 來自本機檔案的圖片編修
  • 批次生成
  • 明確指定比例與尺寸

如果只是隨手試玩,一般聊天 prompt 就夠了;但當你重視輸出管理與可重現性時,這個 skill 會更合適。

nanobanana 同時支援生成與編修嗎

有。它支援:

  • 從 prompt 進行文字生圖
  • 使用 -i / --input 做圖片編修
  • 長寬比控制
  • 2K4K 輸出設定
  • 透過獨立腳本進行批次生成

這個組合,正是它比起只寫一次性 prompt 更值得安裝的主因。

nanobanana for Image Generation 足夠拿來做正式工作嗎

它可以很好地用在接近正式流程的工作中,例如概念生成、素材發想、prompt 探索,或批次產出實驗。但它本身還不是完整產品流程。你仍然需要自己的審核、挑選、儲存,以及必要時的後製步驟。

哪些情況下 nanobanana 不適合

如果你需要以下條件,就不建議做 nanobanana install

  • 以瀏覽器為主、零程式碼的操作體驗
  • 完整託管的 GUI 工作流
  • 複雜的多步驟編修編排
  • 對模型長期穩定行為有強保證
  • 不依賴外部 API 的圖片生成

它最強的定位,就是一層薄而實用的腳本化工具。

如何改進 nanobanana skill 的使用效果

先從更具體的 prompt 開始

想提升 nanobanana 結果,最快的方法就是把 prompt 寫得更具體。請加入主體、風格、構圖與光線,而不要只依賴像「cool」或「beautiful」這類模糊形容詞。

較弱:

a nice city

較強:

Aerial photograph of a dense coastal city at golden hour, dramatic shadows, high dynamic range, realistic urban detail, cinematic composition

讓 prompt 風格對齊輸出類型

不同目標,prompt 用語也應該不同:

  • pixel art:要提到 limited palette、crisp pixels、retro game feel
  • photorealistic:要提到 lens、lighting、focus、material realism
  • illustration:要提到 art style、palette、atmosphere、brush 或 rendering feel

這正是 references/prompts.md 裡最實用的觀念之一。

圖片編修時,只描述你真的要改的地方

在編修流程裡,很多使用者會把 prompt 寫過頭。如果你已經提供輸入圖片,先從具體修改開始即可:

Replace the gray wall with a warm blue studio backdrop while keeping the product position and lighting consistent

除非你真的想要大幅重詮釋,否則這通常會比把整張圖從頭重寫一遍來得更好。

用批次生成先探索,再收斂

一個很實用的 nanobanana usage 迭代流程是:

  1. 先用同一個 prompt 主題生成 6 到 20 個變體
  2. 找出最佳輸出裡真正有效的元素
  3. 依照那些成功特徵重寫 prompt
  4. 用更收斂的風格描述或不同的比例再跑一次

這通常比你在看到任何結果前,就不停打磨一條抽象 prompt 更有效。

常見失敗模式要先注意

常見的品質問題包括:

  • prompt 太模糊
  • 主體與比例不匹配
  • prompt 塞太多互相衝突的風格
  • 編修 prompt 不小心變成要求整個場景重寫
  • 誤以為只要切到 4K 就能補救薄弱概念

多數不理想的輸出,問題都出在指令品質,而不是少了什麼神奇關鍵字。

把長寬比當成創作控制,而不是最後才補

想讓 nanobanana for Image Generation 更穩定,建議這樣使用比例:

  • 1:1:適合 icons、avatars、產品裁切圖
  • 9:16:適合直式、以手機觀看為主的場景
  • 16:921:9:適合電影感風景
  • 4:5:適合海報感構圖

比例選錯,常常就會導致畫面過擠,或留白浪費太多。

直接測腳本,能更快建立信任感

如果你覺得 skill 說明不夠清楚,先直接跑腳本再下判斷。scripts/generate.pyscripts/batch_generate.py 都不算長,親自查看後,你會更清楚支援哪些選項、錯誤會怎麼發生,以及輸出命名邏輯。對這個 repo 來說,直接看腳本本身,往往比只看高層描述更讓人有把握。

第一次輸出已經接近,但還不夠對時,下一步怎麼改

不要整個重來。一次只改一個變數:

  • 主體細節
  • 風格描述
  • 光線提示
  • 長寬比
  • 編修指令範圍

這樣更容易看出模型到底對什麼有反應,也能更快培養你對 nanobanana guide 的實戰判斷。

評分與評論

尚無評分
分享你的評論
登入後即可為這項技能評分並留言。
G
0/10000
最新評論
儲存中...