videoagent-image-studio

作者 pexoai

videoagent-image-studio 是為 Node 型代理設計的統一圖片生成技能。它以單一 CLI 流程整合 Midjourney、Flux、Ideogram、Recraft、SDXL 等模型，提供代理支援的設定方式、模型選用指引，以及適合自動化流程的標準化輸出。

Stars456

評論0

加入時間2026年3月31日

分類影像生成

安裝指令

npx skills add pexoai/pexo-skills --skill videoagent-image-studio

編輯評分

這個技能獲得 78/100，屬於表現穩健的目錄項目：儲存庫為代理提供了明確的觸發條件、具體的圖片生成流程，以及超越一般提示詞的實際執行能力。若你想用單一 CLI 入口操作多種圖片模型，這項技能值得考慮安裝；但也要留意其「免設定」承諾與較完整 repo 文件之間存在一些不一致。

78/100

亮點

觸發條件明確：SKILL.md 清楚說明，當使用者要求生成或創作圖片、藝術作品、logo、icon 或插圖時，應使用這項技能。
操作指引完整：技能內容包含模型選擇表、提示詞增強步驟，以及可實際執行的 Node CLI（`tools/generate.js`），並記錄了參數與統一輸出處理方式。
對代理有實質幫助：它集中整合 Midjourney、Flux、Ideogram、Recraft、SDXL、Nano Banana 等多種模型，並在內部處理 Midjourney 的輪詢流程。

注意事項

信任訊號略顯混雜：SKILL.md 和 package.json 強調透過 hosted proxy、免金鑰即可使用，但 CONTRIBUTING.md 與 `.env.example` 又提到本機開發需設定供應商 API keys。
採用判斷資訊仍屬中等：SKILL.md 沒有提供明確的安裝指令，支援資料也主要只有單一腳本，缺少更多參考文件或資產。

视频 Cli Node.js JavaScript Vercel OpenClaw

總覽

videoagent-image-studio skill 概覽

videoagent-image-studio 能做什麼

videoagent-image-studio skill 是一個統一的圖片生成封裝層，適合需要產圖、但不想手動處理多家供應商 API 的 agent。它提供單一 CLI 工作流程，可將請求導向 midjourney、flux-pro、flux-dev、flux-schnell、ideogram、recraft、sdxl、nano-banana 等模型，並回傳一致的結果格式。

哪些人適合安裝

如果你經常要把對話式需求轉成圖片，且希望比直接串接各家供應商更省事，這個 skill 就很適合你。對 agent 建置者、內容團隊，以及需要自動化工作流程的人來說，videoagent-image-studio 最大的價值在於：用一條可重複執行的指令，取代每個模型各自不同的設定方式。

真正要解決的工作需求

多數使用者想要的其實不是「一個圖片模型」，而是一個可靠的方法，能把像是「做一張有電影感的產品情境照」或「設計一個文字清楚可讀的 logo」這類模糊需求，轉成可以實際執行的生成步驟。videoagent-image-studio 透過提示詞強化建議、模型選擇指引，以及單一路徑的執行方式，幫你把這件事落地。

它為什麼特別

它的主要差異點不只是能接多個模型而已。videoagent-image-studio 的價值在於：

用一次呼叫就能使用多種圖片模型
把 Midjourney 式非同步流程的複雜度藏在腳本後面
讓輸出格式標準化，方便接到後續自動化流程
降低安裝門檻，因為可透過 hosted proxy 使用，不一定要自備供應商金鑰

採用前最重要的判斷點

安裝時最核心的取捨是：你要的是方便，還是供應商原生的細部控制？如果你需要一層設定少、對 agent 友善的圖片生成介面，videoagent-image-studio 很合適；但如果你需要很深的供應商原生選項、自訂安全設定，或更進階的批次編排，之後可能會超出這層抽象封裝的適用範圍。

適合用於 Image Generation 的情境

當需求很明確是要「產生視覺內容」時，就很適合使用 videoagent-image-studio for Image Generation：例如插畫、海報、logo、產品渲染圖、社群圖片、概念藝術、動漫場景，或風格化行銷素材。相較之下，如果你做的是重度圖片編修流程，或需要遮罩、合成、複雜後製的多模態工作流，它的吸引力就沒那麼高。

如何使用 videoagent-image-studio skill

安裝環境與執行需求

從 repository 內容來看，這個 skill 需要 node >=18，而且主要可執行檔路徑是 tools/generate.js。實務上，videoagent-image-studio install 的判斷很簡單：只要你的環境能跑 Node CLI 工具，就能很快先把這個 skill 測起來。

建議先讀這幾個檔案：

SKILL.md
tools/generate.js
.env.example
CHANGELOG.md

這幾個檔案會直接告訴你：skill 會在什麼情況觸發、有哪些參數、輸出格式長什麼樣，以及環境裡是否需要設定環境變數。

實際指令長什麼樣子

核心使用方式是直接呼叫 Node：

node tools/generate.js --model flux-dev --prompt "a modern ceramic mug on a clean studio table, soft window light" --aspect-ratio 1:1

這支腳本支援的主要參數包括：

--model
--prompt
--aspect-ratio
--num-images
--negative-prompt
--seed

另外也有偏向動作型的參數，適合像 Midjourney 續作這類流程：

--action
--index
--job-id
--upscale-type
--variation-type

在下 prompt 前先選對 videoagent-image-studio 模型

模型選得對，對結果品質的影響通常比微調幾個字還大。這個 skill 自帶的模型路由建議相當實用：

midjourney：偏藝術感、電影感、繪畫風場景
flux-pro：適合擬真人像與產品攝影風格輸出
flux-dev：泛用型、平衡表現的預設選擇
flux-schnell：適合快速草稿與迭代
ideogram：適合海報、logo、圖中文字
recraft：適合 icon、向量風格、扁平設計
sdxl：適合動漫與風格化插畫
nano-banana：適合重視一致性的生成，尤其有參考圖時

如果第一次輸出不對，先換模型，再考慮大改 prompt，不要一開始就過度修 prompt。

把模糊需求改寫成可用的 prompt

弱的輸入：
make a nice cafe image

更強的輸入：
cozy Paris-style street cafe at blue hour, warm interior glow, wet cobblestone reflections, cinematic composition, medium-wide shot, realistic photography, subtle steam from coffee cups, no people blocking storefront signage

為什麼後者比較有效：

明確指定主體與場景
提供鏡頭與構圖線索
說清楚風格與寫實程度
減少場景焦點的歧義

加入限制條件，避免 videoagent-image-studio 產出走偏

想提高 videoagent-image-studio usage 的穩定度，建議 prompt 內至少補上：

主體
環境
視覺風格
構圖或取景方式
光線
長寬比
必須出現的元素
必須避免的元素

例如：

node tools/generate.js \
  --model ideogram \
  --prompt "minimal tech conference poster, bold readable headline area, geometric background, blue and black palette, modern Swiss design, high contrast, clean spacing" \
  --aspect-ratio 4:5 \
  --negative-prompt "blurry text, crowded layout, ornate illustration"

這種寫法比只說「做一張很酷的海報」可靠得多。

當品質偏移可預期時，記得用 negative prompts

這支腳本支援 --negative-prompt。如果模型老是加進錯誤風格、畫面太亂，這個參數就很有用。好的 negative prompt 應該具體且可視化，例如：

extra fingers, distorted hands, deformed face
blurry text, illegible letters
busy background, low contrast
cartoonish, oversaturated, plastic skin

除非你真的觀察到那些失敗模式，否則不要把幾十個泛用缺陷一股腦塞進 negative prompt。

先搞懂輸出格式，才方便接自動化流程

CHANGELOG.md 提到它有標準化輸出結構，類似：

success
model
imageUrl
images
jobId

如果你打算把結果往下傳給其他 agent step，這點就很重要。一般泛泛的 prompt 不會帶來這種可預測的整合介面，而 videoagent-image-studio 會。

使用 Midjourney 動作時不要靠猜

腳本的 usage header 也提供了後續動作的第二種指令模式：

node tools/generate.js --model midjourney --action upscale --index 2 --job-id <id>

這點很重要，因為有些圖片流程本來就是多步驟。如果你的 agent 需要針對某個面板做放大或變體，就應該使用明確的 action 參數，而不是試著從頭重生一張。

支援時請善用參考圖，提升一致性

CHANGELOG.md 有記錄 nano-banana 可使用 --reference-images，格式是以逗號分隔的 URL。這對角色一致性、重複出現的風格，或系列行銷素材尤其有幫助。如果你的情境是「同一個人、同一種品牌感、但換不同場景」，這會是你應該很早就優先驗證的功能之一。

讀 repository 的最快採用路線

如果你想要一份實用的 videoagent-image-studio guide，建議照這個順序讀：

SKILL.md：先看觸發條件與模型選擇表
tools/generate.js：確認實際 CLI 參數
CHANGELOG.md：查看輸出格式、非同步處理等行為變更
.env.example：最後確認可選的環境設定

相較於先去看 contributor 文件，這條路徑對安裝判斷更有幫助。

Hosted proxy 與本地金鑰的取捨

這個 skill 主打可走 hosted proxy 路徑，使用者不一定要自備供應商金鑰，這也是最容易開始的方式。不過 repository 內也有 .env.example 與 contributor 指南，提到像 IMAGE_STUDIO_PROXY_URL、IMAGE_STUDIO_TOKEN 這類變數，以及較舊的本地測試範例中供應商金鑰的設定。對安裝判斷來說，意思是：

最省事的路：直接使用預設 proxy-backed workflow
進階路線：若你的部署需要自訂路由或驗證，再去檢查 env 設定

一套實務上很好用的 videoagent-image-studio 工作流程

videoagent-image-studio skill 在真實場景中，一個好用的流程通常是：

先依輸出類型分類需求
選出最可能適合的模型
用明確的視覺限制重寫 prompt
先只生成一張圖
檢查失敗模式
一次只改模型或 prompt，不要同時改兩者
確認方向正確後，再增加張數或進入 upscale / variation

這樣能把迭代成本壓低，也會讓 prompt 除錯容易很多。

videoagent-image-studio skill 常見問題

videoagent-image-studio 適合新手嗎？

適合，前提是你的主要目標是從 agent 或終端指令快速產生圖片。它把很多供應商各自不同的複雜性先包起來了。新手還是需要學會怎麼清楚描述圖片，但不必從零自己設計一套多供應商整合。

什麼情況下，videoagent-image-studio 會比一般 prompt 更好？

當你需要可靠執行、模型選擇能力，以及結構化輸出時，它就比一般 prompt 更好。單純的 prompt 可以叫 AI「做一張圖」，但 videoagent-image-studio 提供的是可直接執行的路徑，並且有明確的模型控制與對自動化友善的結果格式。

什麼情況下不該用 videoagent-image-studio？

如果你需要這層 wrapper 沒有暴露出的進階供應商原生控制，或你的流程主要是圖片編修而非從零生成，就不建議使用。另外，若你的團隊對每一次底層供應商呼叫都需要直接的合約與控制權，它也未必是最佳選擇。

videoagent-image-studio 需要 API keys 嗎？

目前的定位是：一般 hosted-proxy 路徑不需要。這是它在導入上的一大優勢。不過，如果你需要私有路由、驗證，或自主管理行為，還是應該檢查 .env.example 與你的部署環境。

我應該先從哪個模型開始？

建議起手式如下：

flux-dev：通用型生成
flux-pro：擬真輸出
ideogram：文字比重高的圖片
recraft：icon / 向量需求
midjourney：風格化、電影感藝術圖

如果不確定，先依輸出類型選，而不是依品牌熟悉度選。

videoagent-image-studio 適合用在正式上線的 agent 嗎？

適合，而且通常比臨時拼湊的 prompting 流程更適合，因為它把呼叫方式與輸出格式都標準化了。真正要問的正式環境問題不是「能不能做」，而是「在你的環境裡是否值得信任」：請實測延遲、輸出一致性、驗證設定，以及失敗時的 fallback 行為。

如何改進 videoagent-image-studio skill 的使用效果

用模型無法自行推斷的資訊，提升 videoagent-image-studio 結果

要最快改善 videoagent-image-studio 的輸出，最有效的方法就是補上那些模型原本只能用猜的細節：

精確主體
目標風格
場景脈絡
取景方式
光線
預期寫實程度
文字需求
排除項目

模型需要自行腦補的地方越少，後續清理成本就越低。

先修正常見失敗原因：模型選錯

如果文字表現不好，改用 ideogram。
如果向量 / icon 風格看起來混濁，改用 recraft。
如果寫實感太假，試試 flux-pro。
如果畫面不夠有戲劇張力，試試 midjourney。
改 prompt 當然有幫助，但引擎選錯時，品質上限通常一開始就被卡住了。

一次只改一個變數來迭代

不要每次重跑都整份重寫。請讓 prompt 大致維持不變，每次只改以下其中一項：

model
aspect ratio
negative prompt
lighting/style phrase
reference image input

這樣你才看得出到底是什麼改動真的帶來改善。

用分層方式寫 prompt

一個穩定有效的寫法是：

核心主體
場景
風格
構圖
光線
排除條件

例如：
premium black running shoe on reflective studio floor, minimalist luxury ad set, photorealistic product photography, low-angle three-quarter composition, dramatic rim lighting, no extra props, no text

這種分層結構，幾乎都比模糊、散漫的描述更穩。

把 aspect ratio 當成創作控制項

很多人抱怨「構圖不好」，其實真正的問題是 aspect ratio 選錯。請盡早決定輸出格式：

1:1：適合產品方圖與頭像
16:9：適合電影感場景與縮圖
9:16：適合手機直式 story 版面
4:5：適合社群 feed 視覺

有時只要改比例，就能解決畫面太擠或太空的問題，甚至不用重寫 prompt。

用參考圖與 seed 提升一致性

當你的需求是固定角色、系列 campaign 變體，或整體風格延續時，只要模型支援，就應重複使用同樣的輔助訊號：

--reference-images：給支援的模型使用
--seed：需要可控變化時使用

一旦從一次性創作進入可重複的正式產出，這件事的重要性通常比多加幾個形容詞更高。

第一次失手時，用精準修改而不是整包推翻

如果第一版結果已經接近但還是不對：

情緒不對：改光線與風格詞
版面不對：改 framing 與 aspect ratio
文字可讀性差：改用 ideogram
太普通：補品牌、材質、年代或鏡頭細節
太亂：加入針對雜訊與 clutter 的 negative prompts

這種定點修正能保留原本已經有效的部分。

在怪 skill 之前，先看 changelog

CHANGELOG.md 記錄了不少真正會影響操作的變更，例如 Midjourney 流程簡化、輸出格式統一，以及參考圖支援等說明。如果你發現行為和舊範例不同，最快的理解方式通常不是重試，而是先看 changelog。

進階使用者應該優先驗證什麼

如果 videoagent-image-studio skill 會放進更大的自動化流程中，請優先測試：

各模型延遲
失敗回應
output JSON parsing
proxy 設定下的驗證行為
你選的模型是否真的支援你要的一致性需求

這些檢查通常比多跑十幾組範例圖更重要，因為它們直接決定這個 skill 能不能在規模化情境下穩定運作。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

openclaw-persona-forge

作者 affaan-m

openclaw-persona-forge 是一個以工作流程為核心的技能，可從零開始建立完整的 OpenClaw 人設套件。它會產出身份張力、SOUL.md 風格框架、邊界規則、命名選項，以及可選的頭像提示詞指引。最適合 OpenClaw 角色設計、角色扮演代理，以及與 UI Design 相鄰的人設工作，不適合拿來對既有人設做小幅修改。

UI 設計

收藏 0GitHub 156.2k

baoyu-imagine

作者 JimLiu

baoyu-imagine 是一個支援多家供應商的圖像生成 skill，提供具型別的 CLI、必要的 EXTEND.md 設定、參考圖片支援、長寬比控制，以及可在 OpenAI、Azure OpenAI、Google、OpenRouter、DashScope、MiniMax、Jimeng、Seedream 與 Replicate 間執行批次產圖。

影像生成

收藏 0GitHub 13.2k

baoyu-comic

作者 JimLiu

baoyu-comic 是一項可將來源文字轉成教育漫畫或傳記風格漫畫的技能，涵蓋分鏡規劃、角色一致性、分格版面配置，以及分階段圖像生成。它支援可安裝的 CLI 用法，提供風格與版面選項，也支援如 `--storyboard-only`、`--prompts-only` 與 `--regenerate` 等局部工作流，讓漫畫製作過程更可控。

影像生成

收藏 0GitHub 13.2k

shader-dev

作者 MiniMax-AI

shader-dev 是一套實用的 GLSL 著色器技能，適用於 ShaderToy 風格的即時視覺效果。使用 shader-dev 技能可建立或除錯 ray marching、SDF 場景、光照、粒子、流體動態、後製，以及 UI Design 的 shader-dev，且比泛用提示詞更少憑空猜測。

UI 設計

收藏 0GitHub 11.7k

videoagent-video-studio

作者 pexoai

videoagent-video-studio 是一個可依文字、圖片與參考素材生成短篇 AI 影片的技能。可用來測試 text-to-video 與 image-to-video 工作流程、比較支援模型，並以 Node 18+ 執行代管 proxy 或自行部署的 self-hosted 設定。

视频编辑

收藏 0GitHub 456

seo-image-gen

作者 AgriciDaniel

seo-image-gen 是一個 GitHub skill，可將 SEO 圖像需求轉化為可直接上線使用的提示詞與設定，適用於 OG 圖、社群預覽、Hero 橫幅、產品視覺、資訊圖表與縮圖。它透過 nanobanana-mcp 使用 Gemini，並假設已安裝 banana extension，提供一份實用的 seo-image-gen 使用指南與工作流程。

影像生成

收藏 0GitHub 0

baoyu-xhs-images

作者 JimLiu

baoyu-xhs-images 可將文章或筆記轉成小紅書資訊圖卡輪播，提供預設、風格、版型與設定指引。它能幫助使用者安裝技能、選擇合適輸入內容，並執行 `/baoyu-xhs-images` 來產出結構化的多頁社群貼文。

UI 設計

收藏 0GitHub 13.2k

baoyu-cover-image

作者 JimLiu

baoyu-cover-image 可協助代理生成結構化的文章封面圖片提示詞，涵蓋類型、配色、渲染、文字與氛圍等維度。支援 2.35:1、16:9 與 1:1 格式，並提供自動選擇規則與相容性指引，適合需要可重複執行的編輯與 UI Design 封面製作流程。

UI 設計

收藏 0GitHub 13.2k

meme-factory

作者 softaworks

meme-factory 可協助代理透過免費的 memegen.link API 製作模板式迷因，也支援對 Markdown 友善的文字迷因。你可以用它產生適合分享的迷因 URL、挑選合適模板、正確處理文字格式，並透過內附的 Python helper 自動化輸出。

影像生成

收藏 0GitHub 1.3k

logo-creator

作者 ReScienceLab

logo-creator 是一套用於 AI 標誌製作的工作流程，支援產生概念稿、比較不同版本、裁切、去背，以及匯出 SVG 素材。它結合風格參考、範例提示詞與輔助腳本，可在 ReScienceLab/opc-skills 中用於建立 logo、icon、favicon 與品牌標記。

品牌設計

收藏 0GitHub 0

scientific-schematics

作者 K-Dense-AI

scientific-schematics 可將自然語言提示詞轉成可達到出版等級的科學圖表，並透過智慧型迭代精修持續提升成品。它以 Nano Banana 2 進行生成，並使用 Gemini 3.1 Pro Preview 進行審查；只有當輸出低於你文件類型所需門檻時才會重新生成。這套流程特別適合神經網路架構、系統圖、流程圖、生物路徑，以及其他複雜的科學視覺化內容。

影像生成

收藏 0GitHub 0

banner-creator

作者 ReScienceLab

banner-creator 透過結構化流程協助製作橫幅、頁首圖與 hero images：先蒐集需求、產生多個版本、依回饋細修，再用內附腳本裁切成各平台所需比例。

UI 設計

收藏 0GitHub 0

baoyu-article-illustrator

作者 JimLiu

baoyu-article-illustrator 可協助代理將文章草稿轉成結構化的插圖提示、插圖放置位置，以及一致的圖像類型與風格選擇，適合用於解說文、教學內容、圖解與多圖文章。

影像生成

收藏 0GitHub 13.2k

nanobanana

作者 ReScienceLab

nanobanana 是一個用於 Google Gemini 3 Pro Image 的 Python CLI skill，支援文生圖、圖片編輯、長寬比設定、2K/4K 輸出，以及透過簡單本機腳本進行批次生成。

影像生成

收藏 0GitHub 654

sound-fx

作者 NoizAI

使用 sound-fx 技能把文字提示轉成音效、擬音、環境底音、怪物聲，以及 UI 音效。它很適合 Audio Editing 的 sound-fx、快速原型製作與可下載的音訊素材。先用 NoizAI/skills 安裝，再透過腳本式工作流程搭配有效的 Noiz API key 使用。**不適用於**語音、歌詞、旋律或聲音複製。

音频编辑

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可讓你從公開音訊複製真實人物的聲音，或根據圖片設計相符的聲音，接著用 TTS 生成合成回覆。它支援角色扮演、敘事與語音生成等實用工作流程，並提供安裝、來源選擇與安全使用的指引。

語音生成

收藏 0GitHub 498