nanobanana
bởi ReScienceLabnanobanana là một kỹ năng CLI viết bằng Python cho Google Gemini 3 Pro Image, hỗ trợ tạo ảnh từ văn bản, chỉnh sửa ảnh, tỷ lệ khung hình, xuất ảnh 2K/4K và tạo hàng loạt bằng các script cục bộ đơn giản.
Kỹ năng này đạt 78/100, nghĩa là khá phù hợp để đưa vào danh mục: agent có tín hiệu kích hoạt rõ ràng, lệnh cụ thể và script có thể chạy ngay cho tạo/chỉnh sửa ảnh bằng Gemini, dù người dùng vẫn phải tự xử lý phần thiết lập và một số điểm chưa chắc chắn của mô hình.
- Khả năng kích hoạt tốt: phần frontmatter nêu rõ nên dùng kỹ năng này để tạo hoặc chỉnh sửa ảnh bằng Gemini image generation.
- Thông tin triển khai cụ thể: SKILL.md có sẵn phần điều kiện tiên quyết, lệnh cài đặt pip, ví dụ bắt đầu nhanh, cách dùng CLI và các tùy chọn đầu ra/chỉnh sửa.
- Hữu ích cho quy trình thực tế vượt ra ngoài prompt đơn thuần: các script `generate.py` và `batch_generate.py` đi kèm hỗ trợ tạo ảnh từ văn bản, chỉnh sửa ảnh, tỷ lệ khung hình, xuất 2K/4K và tạo hàng loạt.
- Việc áp dụng cần thiết lập bên ngoài: người dùng phải tự cung cấp `GEMINI_API_KEY` và cài Python 3.10+, `google-genai` cùng Pillow.
- Vẫn còn một số giới hạn về độ tin cậy/độ rõ ràng vì kỹ năng này phụ thuộc vào một mô hình preview (`gemini-3-pro-image-preview`), và phần bằng chứng hiện có chưa cho thấy hướng dẫn xử lý sự cố, các tình huống lỗi hoặc quy trình cài đặt tự động trong SKILL.md.
Tổng quan về skill nanobanana
nanobanana dùng để làm gì
Skill nanobanana là một lớp wrapper gọn nhẹ cho model gemini-3-pro-image-preview của Google, dùng để tạo ảnh và chỉnh sửa ảnh theo cách thực dụng ngay từ command line. Nó phù hợp nhất với những ai muốn có một quy trình lặp lại được, dễ đưa vào script để tạo ảnh, thử nhiều biến thể prompt, hoặc batch-generate đầu ra mà chưa cần phải xây hẳn một ứng dụng.
Ai nên cài nanobanana
Những trường hợp phù hợp nhất để dùng nanobanana skill là:
- developer đã quen dùng Python và environment variables
- người vận hành AI muốn các lệnh tạo ảnh có thể tái lập
- người test prompt cần so sánh style, tỉ lệ khung hình và kích thước đầu ra
- người dùng cần cả workflow text-to-image lẫn chỉnh sửa một ảnh có sẵn
Nếu bạn chỉ thỉnh thoảng muốn tạo một ảnh đơn lẻ trong giao diện chat, thì phần thiết lập này có thể nhiều hơn mức bạn thực sự cần.
Bài toán thực tế mà skill này giải quyết
Phần lớn người dùng không đi tìm “một model tạo ảnh” theo nghĩa trừu tượng. Họ cần biến một ý tưởng sáng tạo còn thô thành tài sản có thể dùng được: ảnh sản phẩm, phong cảnh, mascot, minh hoạ concept, hoặc một phiên bản đã chỉnh từ ảnh có sẵn. nanobanana for Image Generation hữu ích vì nó cho bạn một đường đi trực tiếp qua CLI để làm đúng việc đó, bao gồm nhập prompt, tuỳ chọn ảnh nguồn, chọn aspect ratio, và xuất ảnh ở mức 2K/4K.
Điều gì khiến nanobanana khác với một prompt thông thường
Điểm khác biệt chính không nằm ở “prompt bí truyền”. Nó nằm ở việc rút gọn quy trình làm việc:
- có script riêng cho cả tạo ảnh và chỉnh sửa ảnh
- có cờ rõ ràng cho
--ratiovà--size - cấu hình API qua environment
- hỗ trợ batch generation trong
scripts/batch_generate.py - có file tham chiếu prompt với các pattern style cụ thể trong
references/prompts.md
Nhờ vậy, nanobanana usage cho kết quả nhất quán hơn việc cứ liên tục gõ prompt ngẫu hứng bằng tay trong một công cụ chat đa năng.
Những điều cần cân nhắc trước khi áp dụng
Các câu hỏi quan trọng trước khi dùng thực ra khá đơn giản:
- Bạn cần một
GEMINI_API_KEY. - Bạn cần Python
3.10+. - Bạn cần
google-genaivàpillow. - Bạn nên quen với việc chạy script cục bộ.
- Bạn nên kỳ vọng chất lượng ảnh phụ thuộc rất nhiều vào độ cụ thể của prompt.
Đây là một skill thực dụng, không phải web app dùng ngay mà không cần cấu hình.
Cách dùng skill nanobanana
Yêu cầu cài đặt nanobanana
Trước khi thử nanobanana install, hãy chắc chắn bạn có:
- Python
3.10+ - một
GEMINI_API_KEYhợp lệ - khả năng truy cập mạng tới API của Google
- các package Python
google-genaivàpillow
Cài dependency:
pip install google-genai pillow
Thiết lập API key:
export GEMINI_API_KEY="your_api_key_here"
Lấy key tại https://aistudio.google.com/apikey.
Cài skill vào môi trường skills của bạn
Nếu bạn dùng hệ thống skills, thêm skill bằng:
npx skills add ReScienceLab/opc-skills --skill nanobanana
Sau khi cài xong, hãy đọc các file này trước:
skills/nanobanana/SKILL.mdskills/nanobanana/scripts/generate.pyskills/nanobanana/references/prompts.mdskills/nanobanana/scripts/batch_generate.py
Thứ tự đọc này là con đường nhanh nhất để đi từ “Mình có dùng được không?” tới “Chính xác thì nên chạy lệnh nào?”
Cách dùng nanobanana cơ bản cho text-to-image
Lệnh cốt lõi là script generate với một prompt:
python3 <skill_dir>/scripts/generate.py "a cute robot mascot, pixel art style" -o robot.png
Dùng cách này khi bạn bắt đầu chỉ từ văn bản. Đường dẫn output là tuỳ chọn, nhưng đặt sẵn sẽ giúp bạn khỏi phải lần tìm các file được tự động đặt tên về sau.
Chỉnh sửa ảnh có sẵn bằng nanobanana
Để chỉnh sửa ảnh, hãy cung cấp cả prompt lẫn ảnh đầu vào:
python3 <skill_dir>/scripts/generate.py "make the background blue" -i input.jpg -o output.png
Đây là workflow phù hợp khi bạn muốn giữ lại ảnh gốc và chỉ yêu cầu một thay đổi có mục tiêu. Prompt nên mô tả phần cần đổi, không cần kể lại toàn bộ khung cảnh trừ khi bạn thực sự muốn kết quả biến đổi mạnh hơn.
Chọn tỉ lệ khung hình và kích thước đầu ra
Skill hỗ trợ các tỉ lệ phổ biến gồm:
1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9
Ví dụ:
python3 <skill_dir>/scripts/generate.py "cinematic landscape at sunrise" --ratio 21:9 -o landscape.png
Để có độ phân giải cao hơn:
python3 <skill_dir>/scripts/generate.py "professional product photo of headphones" --size 4K -o product.png
Hãy chọn ratio sớm trong workflow. Nó làm thay đổi bố cục, chứ không chỉ là cắt crop sau cùng.
Dùng batch generation khi cần khám phá prompt
scripts/batch_generate.py là file đáng quan tâm nhất sau script chính vì nó hỗ trợ tạo nhiều biến thể từ cùng một prompt.
Ví dụ:
python3 <skill_dir>/scripts/batch_generate.py "pixel art logo" -n 20 -d ./logos -p logo
Có hỗ trợ generate song song:
python3 <skill_dir>/scripts/batch_generate.py "landscape concept art" -n 20 --parallel 5
Tính năng này đặc biệt hữu ích khi bạn đang khám phá phong cách, thay vì cố săn một đầu ra tất định duy nhất.
Loại input nào giúp nanobanana hoạt động tốt
Một mục tiêu mơ hồ như “make a cool image” thường là quá yếu. Input tốt hơn thường có:
- chủ thể rõ ràng
- style mong muốn
- gợi ý về ánh sáng hoặc camera
- gợi ý về bố cục
- yêu cầu về chất lượng hoặc mục đích đầu ra
Prompt tốt hơn:
Professional product photo of wireless headphones on marble surface, soft studio lighting, 85mm lens, sharp focus, minimalist background
Prompt yếu hơn:
headphones advertisement
Phiên bản mạnh hơn đưa cho model nhiều tín hiệu điều khiển hơn và giảm khả năng ra kết quả chung chung.
Biến một ý tưởng thô thành prompt hoàn chỉnh
Một nanobanana guide thực dụng để viết prompt là:
- nêu chủ thể
- chỉ rõ kiểu thể hiện hình ảnh
- thêm chi tiết bối cảnh hoặc bố cục
- thêm ánh sáng hoặc mood
- chỉ thêm tín hiệu chất lượng khi thực sự cần
Mẫu lấy từ file tham chiếu prompt trong repo:
Digital illustration of {subject}, {style} style, {colors} color palette, {mood} atmosphere
Ví dụ:
Digital illustration of an underwater research base, retro-futurist style, cyan and amber palette, mysterious atmosphere, detailed windows, glowing marine life
Những file trong repository đáng đọc trước khi dùng nghiêm túc
Nếu bạn muốn đi xa hơn mức nanobanana usage bề mặt, hãy xem:
SKILL.mdđể nắm prerequisite và pattern câu lệnhreferences/prompts.mdđể xem cấu trúc prompt và ví dụ theo nhómscripts/generate.pyđể biết các định dạng file được hỗ trợ, ratio hợp lệ và các mức sizescripts/batch_generate.pyđể hiểu concurrency, độ trễ và cách đặt tên file.claude-plugin/plugin.jsonđể có bối cảnh về cách skill được đóng gói
Cách này hữu ích hơn việc lướt qua repo root, vì phần quan trọng của skill tập trung trong một vài file cụ thể.
Các ràng buộc thực tế và đánh đổi
Những giới hạn quan trọng thể hiện ngay trong các script:
- chỉnh sửa ảnh đầu vào phụ thuộc vào việc file cục bộ có sẵn
- file ảnh không hỗ trợ hoặc bị thiếu sẽ fail trước khi bước generate bắt đầu
- ratio và size bị giới hạn trong các giá trị hợp lệ đã biết
- workflow phụ thuộc vào preview image model của Google, nên hành vi có thể thay đổi khi model được cập nhật
- batch generation tăng thông lượng, nhưng cũng làm tăng mức dùng API và áp lực rate limit
Nếu bạn cần điều khiển pipeline ảnh nâng cao, chỉnh sửa kiểu node-based, hoặc một UI hosted đầy đủ, thì skill này được chủ đích giữ ở phạm vi hẹp hơn.
Câu hỏi thường gặp về skill nanobanana
nanobanana có phù hợp với người mới bắt đầu không
Có, nếu bạn đã quen với các lệnh terminal cơ bản và cài package Python. nanobanana skill đơn giản hơn việc tự xây API client từ đầu, nhưng nó vẫn là công cụ hướng developer chứ không phải ứng dụng tiêu dùng phổ thông.
Khi nào nên dùng nanobanana thay vì một prompt chat thông thường
Hãy dùng nanobanana khi bạn cần:
- file output được lưu lại
- câu lệnh có thể lặp lại
- chỉnh sửa ảnh từ file cục bộ
- batch generation
- chọn ratio và size một cách tường minh
Prompt chat thông thường vẫn ổn cho việc thử nhanh, nhưng skill này tốt hơn khi việc xử lý đầu ra và tính lặp lại là yếu tố quan trọng.
nanobanana có hỗ trợ cả tạo ảnh lẫn chỉnh sửa không
Có. Nó hỗ trợ:
- tạo ảnh text-to-image từ prompt
- chỉnh sửa ảnh với
-i/--input - điều khiển aspect ratio
- thiết lập output
2Kvà4K - batch generation qua một script riêng
Tổ hợp này là lý do chính để cài nó thay vì chỉ viết một prompt dùng một lần.
nanobanana for Image Generation có đủ cho công việc production không
Nó có thể hữu ích trong các workflow gần production như tạo concept, lên ý tưởng asset, khám phá prompt, hoặc thử nghiệm tạo hàng loạt. Nhưng tự thân nó không phải một pipeline sản phẩm hoàn chỉnh. Bạn vẫn cần các bước review, chọn lọc, lưu trữ, và có thể cả hậu kỳ của riêng mình.
Khi nào nanobanana không phải lựa chọn phù hợp
Hãy bỏ qua nanobanana install nếu bạn cần:
- trải nghiệm no-code ưu tiên trình duyệt
- workflow GUI được quản lý trọn gói
- orchestration chỉnh sửa nhiều bước phức tạp
- cam kết mạnh về hành vi model ổn định theo thời gian
- tạo ảnh mà không phụ thuộc API bên ngoài
Nó mạnh nhất khi đóng vai trò như một lớp scripting mỏng, thực dụng.
Cách cải thiện skill nanobanana
Bắt đầu bằng việc viết prompt cụ thể hơn
Cách nhanh nhất để cải thiện kết quả của nanobanana là làm prompt cụ thể hơn. Hãy thêm chủ thể, style, bố cục và ánh sáng thay vì chỉ dựa vào các tính từ như “cool” hoặc “beautiful”.
Yếu:
a nice city
Mạnh hơn:
Aerial photograph of a dense coastal city at golden hour, dramatic shadows, high dynamic range, realistic urban detail, cinematic composition
Khớp phong cách prompt với loại đầu ra bạn muốn
Hãy dùng ngôn ngữ prompt khác nhau cho từng mục tiêu:
- pixel art: nhắc đến bảng màu giới hạn, pixel sắc nét, cảm giác game retro
- photorealistic: nhắc đến lens, ánh sáng, độ nét, độ chân thực của vật liệu
- illustration: nhắc đến phong cách hội hoạ, bảng màu, bầu không khí, cảm giác nét cọ hoặc cách render
Đây là một trong những ý tưởng thực tế nhất trong references/prompts.md.
Cải thiện chỉnh sửa ảnh bằng cách chỉ mô tả đúng phần cần thay đổi
Với workflow edit, nhiều người dùng viết prompt quá mức. Nếu bạn đã cung cấp ảnh đầu vào, hãy bắt đầu bằng chỉnh sửa cụ thể mong muốn:
Replace the gray wall with a warm blue studio backdrop while keeping the product position and lighting consistent
Cách này thường tốt hơn việc viết lại toàn bộ bức ảnh từ đầu, trừ khi bạn thật sự muốn tái diễn giải rộng hơn.
Dùng batch generation để khám phá rồi mới thu hẹp
Một workflow lặp thực tế cho nanobanana usage là:
- tạo 6–20 biến thể theo một chủ đề prompt
- xác định điểm nào hoạt động tốt trong các output đẹp nhất
- viết lại prompt xoay quanh các đặc điểm thắng cuộc đó
- chạy lại với mô tả style chặt hơn hoặc ratio khác
Cách này hiệu quả hơn việc mài giũa vô tận một prompt trừu tượng trước khi nhìn thấy bất kỳ đầu ra nào.
Các lỗi phổ biến cần để ý
Những vấn đề chất lượng thường gặp gồm:
- prompt quá mơ hồ
- ratio không phù hợp với chủ thể
- prompt nhồi quá nhiều ý với các style xung đột nhau
- prompt chỉnh sửa vô tình yêu cầu viết lại toàn bộ khung cảnh
- cho rằng chỉ cần 4K là sẽ cứu được một concept yếu
Phần lớn output tệ đến từ chất lượng chỉ dẫn, không phải do thiếu “từ khoá ma thuật”.
Dùng aspect ratio như một công cụ sáng tạo, không phải chi tiết phụ
Để có kết quả nanobanana for Image Generation tốt hơn:
- dùng
1:1cho icon, avatar, crop sản phẩm - dùng
9:16cho cảnh dọc ưu tiên mobile - dùng
16:9hoặc21:9cho phong cảnh điện ảnh - dùng
4:5cho bố cục kiểu poster
Chọn ratio sai thường dẫn tới khung hình chật chội hoặc lãng phí không gian.
Tăng độ tin cậy bằng cách tự kiểm tra script trực tiếp
Nếu một skill có vẻ chưa rõ ràng, hãy tự chạy script trước khi đánh giá. scripts/generate.py và scripts/batch_generate.py đủ ngắn để kiểm tra trực tiếp, giúp bạn xác minh các tuỳ chọn được hỗ trợ, các nhánh lỗi và cách đặt tên file. Với repo này, xem script trực tiếp cho bạn cảm giác tin cậy hơn là chỉ dựa vào phần mô tả cấp cao.
Nên cải thiện gì tiếp theo nếu output đầu tiên đã gần đúng nhưng chưa chuẩn
Đừng làm lại từ đầu hoàn toàn. Hãy chỉ thay đổi từng biến một:
- chi tiết chủ thể
- cụm từ chỉ style
- gợi ý ánh sáng
- aspect ratio
- phạm vi của chỉ dẫn chỉnh sửa
Cách này giúp bạn hiểu model đang phản hồi với yếu tố nào, đồng thời cải thiện trực giác nanobanana guide của bạn nhanh hơn.
