ai-image-generation
作者 inferen-sh透過 inference.sh CLI 搭配超過 50 個模型產生 AI 圖片,其中包含 FLUX Dev LoRA、FLUX.2 Klein LoRA、Gemini 3 Pro Image、Grok Imagine、Seedream 4.5、Reve 以及 ImagineArt。支援文字轉圖像、圖生圖、局部修補(inpainting)、LoRA、影像編輯、超解析(upscaling)與文字排版,可用於 AI 藝術、產品情境圖、概念設計、社群貼文視覺、行銷素材與插畫等。
概觀
什麼是 ai-image-generation?
ai-image-generation 技能讓你的 agent 或 CLI 工作流程,能透過 inference.sh 命令列介面接上 50 多種 AI 影像模型。它聚焦在實用、可編排腳本的影像生成,用於 AI 藝術、行銷視覺、產品示意圖、概念設計與社群貼文圖像。
在底層,這個技能依賴 infsh CLI 來呼叫一系列現成的「apps」,例如 FLUX Dev LoRA、FLUX.2 Klein LoRA、Gemini 3 Pro Image、Grok Imagine、Seedream 4.5、Reve、ImagineArt,以及其他文字轉圖像與影像編輯模型。
主要功能
- Text-to-image(文字轉圖像):從自然語言提示生成圖片。
- Image-to-image(圖生圖):將現有圖片轉換成新的變化版本。
- Inpainting 與編輯:只修改影像中特定區域,而不需整張重畫。
- LoRA 支援:使用基於 LoRA 的 FLUX 模型,彈性實現風格轉換與微調。
- Upscaling(超解析):提升現有圖片的解析度與銳利度。
- 文字排版:生成內含清晰文字的圖片,適合廣告、Banner 與社群貼文。
適合哪些使用者?
如果你符合以下情境,ai-image-generation 會是很合適的選擇:
- 在行銷或社群媒體領域工作,需要從命令列快速產出符合品牌調性的視覺素材。
- 建構需要呼叫多種影像模型的自動化流程或 agent 工作流。
- 是偏好透過 CLI 取得類 API 存取方式、而非使用網頁儀表板的開發者。
- 需要一個可透過腳本控制、能整合進 CI、排程(cron jobs)或內容產線的 Midjourney / DALL·E 替代方案。
以下情境則較不適合:
- 希望完全圖形化介面,不想使用終端機。
- 需要自架模型;此技能是以 inference.sh 雲端託管平台為核心設計。
模型涵蓋範圍(範例)
此套件庫的 SKILL.md 列出了多個影像 app,包含但不限於:
- FLUX Dev LoRA(
falai/flux-dev-lora)– 高品質並支援自訂風格。 - FLUX.2 Klein LoRA(
falai/flux-2-klein-lora)– 更快速、適合 LoRA 的模型。 - Gemini 3 Pro Image – 基於 Google Gemini 的圖像生成。
- Grok Imagine – 由 Grok 驅動的影像生成。
- Seedream 4.5、Reve、ImagineArt – 其他偏重創作與插畫的模型。
上述模型都以 inference.sh apps 的形式提供,你可透過相同的 infsh app run ... 指令模式來操作。
使用方式
1. 前置需求
要有效使用 ai-image-generation,你需要具備:
- inference.sh 帳號 – 前往 https://inference.sh 註冊取得憑證。
- inference.sh CLI(
infsh) – 這個技能在底層會呼叫infsh。 - 相容 Bash 的環境 – 技能宣告允許使用
Bash(infsh *),因此 Linux、macOS 或 Windows 上的 WSL 是最合適的環境。
依照套件庫中的官方 CLI 安裝說明進行安裝:
- CLI 安裝腳本:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
至少在串接技能到 agent 之前,你應該可以順利執行:
infsh --help
且不出現錯誤。
2. 安裝 ai-image-generation 技能
若你使用的是會讀取此套件庫的 Agent Skills 生態系,通常可以透過以下方式安裝:
npx skills add https://github.com/inferen-sh/skills --skill ai-image-generation
這會從 tools/image/ai-image-generation 抓取 ai-image-generation 技能,並將其中繼資料與工具設定提供給你的 agent 使用。
3. 登入 inference.sh
ai-image-generation 假設 infsh 已完成驗證登入。
infsh login
依照終端機或瀏覽器中的登入流程操作。完成驗證後,後續的 infsh app run ... 指令就會使用你帳號的額度與計費。
4. 執行第一個文字轉圖像生成
SKILL.md 的快速上手範例示範如何用 FLUX Dev LoRA app 生成影像:
infsh app run falai/flux-dev-lora --input '{"prompt": "a cat astronaut in space"}'
這種模式是 ai-image-generation 的核心:
- 選擇一個 App ID(例如
falai/flux-dev-lora)。 - 傳入描述提示詞與其他參數的 input JSON 載荷。
- 取得 CLI 輸出,其中通常會包含產生圖片的 URL 或檔案引用。
當你的 agent 配置好這個技能後,就能以程式方式組出相同的 CLI 呼叫。
5. 在不同模型之間切換
此技能不會把你綁定在單一模型上,而是讓你視任務選擇最合適的 inference.sh app:
- 需要高品質、風格化藝術圖:使用 FLUX Dev LoRA(
falai/flux-dev-lora)。 - 需要速度且支援 LoRA:使用 FLUX.2 Klein LoRA(
falai/flux-2-klein-lora)。 - 需要 Gemini 系列的圖像生成:選擇 Gemini 3 Pro Image。
- 想產生 由 Grok 驅動的視覺內容:使用 Grok Imagine。
- 一般行銷與插畫需求:可以多試 Seedream 4.5、Reve 與 ImagineArt。
實務上,你的指令只會因 App ID 而異:
# 範例:使用 FLUX.2 Klein LoRA
infsh app run falai/flux-2-klein-lora --input '{"prompt": "product render of a modern smartwatch on a marble table"}'
6. 串接到 agents 與腳本
由於 ai-image-generation 是透過 Bash(infsh *) 驅動,非常適合整合進:
- 由 agent 協調的流程:選擇模型、生成影像,然後把產生的 URL 回傳給使用者。
- Cron 排程工作:定期產出新的社群貼文圖或部落格插圖。
- CI 流水線:自動生成設計 mockup 或更新版截圖。
在 agent 的情境中,典型流程是:
- 載入
ai-image-generation的技能中繼資料(例如從SKILL.md)。 - 允許 agent 在需要圖片時呼叫
infsh app run ...。 - 解析 CLI 的輸出,讓 agent 能引用產生出的資產。
7. 使用影像編輯、局部修補與超解析
ai-image-generation 也提供支援 image-to-image、inpainting、基於 LoRA 的風格轉換與 upscaling 的模型。雖然各模型的輸入細節不同,基本流程相似:
- 提供一張來源影像(通常是 inference.sh 支援的 URL 或檔案引用)。
- 加上描述編輯內容的提示詞或遮罩(mask)。
- 選擇對應功能的 App ID(例如 inference.sh apps catalog 中的某個 upscaler 或 inpainting 模型)。
由於這些細節與模型高度相關並且維護在 inference.sh 上,建議在維持相同 CLI 呼叫模式的前提下,搭配各 app 的官方文件使用。
常見問題(FAQ)
安裝 ai-image-generation 技能時實際會裝什麼?
ai-image-generation 技能不會在你的機器上安裝模型。它會安裝讓 agent 能安全呼叫 infsh CLI 的中繼資料與設定,並對接 inference.sh 上託管的模型。計算量較大的部分都在 inference.sh 平台上執行。
使用 ai-image-generation 一定要安裝 inference.sh CLI 嗎?
是的。此技能宣告 allowed-tools: Bash(infsh *),代表所有操作都是以 infsh 這個執行檔為核心。你必須先安裝並完成 inference.sh CLI 的驗證登入,技能才能生成或編輯圖片。
透過 ai-image-generation 可以存取哪些 AI 模型?
這個技能是為 inference.sh 平台上的 50 多個影像相關 apps 設計的。套件庫中特別提到:
- FLUX Dev LoRA
- FLUX.2 Klein LoRA
- Gemini 3 Pro Image
- Grok Imagine
- Seedream 4.5
- Reve
- ImagineArt
你可以直接在 inference.sh 上瀏覽更多 apps,並用相同的 infsh app run ... 介面來呼叫它們。
可以用 ai-image-generation 來做社群與行銷用的視覺嗎?
可以。ai-image-generation 特別適合:
- 社群貼文與廣告素材
- 部落格首圖與 hero image
- 產品 mockup 與宣傳視覺
- 支援行銷活動的快速概念草圖
由於流程是以 CLI 為主,你可以將重複性的內容產出自動化,並納入既有的行銷內容產線。
如果我不習慣用終端機,ai-image-generation 還適合我嗎?
可能不那麼適合。ai-image-generation 是為 CLI 與 agent 環境最佳化設計的。如果你偏好拖拉式介面或純網頁工具,具備 GUI 的影像生成器可能會更符合習慣。不過,只要你願意執行幾個簡單指令,或讓 agent 替你包裝這些指令,這個技能仍然相當實用。
可以自己自架 ai-image-generation 使用的模型嗎?
套件庫目前的證據只涵蓋透過 inference.sh 託管平台的使用方式,並未將此技能定位為自架解決方案。建議你以 inference.sh 的基礎設施與計費模式為前提來規劃。
產生圖片時遇到錯誤,要怎麼排查?
如果透過 ai-image-generation 呼叫失敗,可以依序檢查:
- 在終端機直接執行對應的
infsh app run ...指令,確認是否有驗證或輸入錯誤。 - 用
infsh login確認 CLI 是否已登入。 - 對照 inference.sh 上的文件,檢查 App ID 與 input JSON 是否正確。
若直接用 CLI 呼叫沒有問題,就調整 agent 的設定,讓它送出的參數與你在終端機測試時一致。
哪裡可以看到更多使用範例?
ai-image-generation 目錄下的 SKILL.md 內含快速上手範例與可用模型列表。若需要更深入、針對特定模型的範例(例如提示詞設計、參數說明與進階選項),可以瀏覽各個 app 的專頁與 https://inference.sh 上的相關文件。
