ai-video-generation
作者 inferen-sh透過 inference.sh CLI,使用 Google Veo、Seedance、Wan、Grok 等超過 40 種模型產生 AI 影片。支援文字轉影片、圖片轉影片、對嘴同步、虛擬分身動畫、影片升頻,以及擬音音效,適用於社群短片、行銷素材、說明影片與產品 Demo。
概觀
什麼是 ai-video-generation?
ai-video-generation 技能會把你的 Agent 串接到 inference.sh CLI,讓它能使用 Google Veo、Seedance、Wan、Grok 等 40+ 種 AI 影片模型來產生與編輯影片。這個技能特別為需要透過 Bash 呼叫 CLI 工具、來建立與優化長短片素材的 AI 助理情境設計。
此技能目前將 Bash(infsh *) 宣告為允許使用的工具,代表 Agent 可以安全地執行 infsh 指令來觸發 AI 影片生成與相關處理流程。
主要功能
在底層模型與 infsh CLI 的支援下,ai-video-generation 可以用於以下工作流程:
- Text-to-video (T2V):將自然語言提示轉換為完整渲染的影片片段。
- Image-to-video (I2V):將靜態圖片轉換為動畫序列。
- 對嘴同步與虛擬分身 (lipsync & avatars):用音訊驅動人臉與角色,生成主持人或講者風格的影片(視所選模型支援而定)。
- 影片升頻:提升既有影片的解析度與畫質。
- 擬音與音效 (Foley and audio):在模型支援的情況下,新增或優化配樂與環境音效。
依技能描述,目前可用的模型包括:
- Google Veo 3.1 / Veo 3 / Veo 3 Fast
- Seedance 1.5 Pro
- Wan 2.5
- Grok Imagine Video
- OmniHuman、Fabric、HunyuanVideo
以及更多可透過 inference.sh apps catalogue 使用的模型。
適合哪些使用者?
ai-video-generation 特別適合你在以下情境使用:
- 製作 社群影音內容(TikTok、Instagram Reels、YouTube Shorts、X、LinkedIn),並希望以 AI 為核心視覺來源。
- 建立 行銷素材,例如產品預告、上市影片、廣告版本測試等。
- 製作 說明與教學影片,用文字提示描述場景、介面流程或圖表,轉換為短影片。
- 需要快速試作 AI 虛擬主持人 或講頭影片。
- 想要以 Agent 驅動的方式,透過程式自動呼叫
infshCLI,而不是手動操作網頁介面。
如果你有以下需求,這個技能就不那麼適合:
- 需要純 GUI 操作的剪輯軟體,有時間軸與手動關鍵影格控制。
- 需要在地端或離線環境生成影片(inference.sh 為雲端服務)。
- 需要即時串流或直播畫面輸出。
在你的技術架構中扮演的角色
這項技能主要適用於 影片編輯 與 內容行銷 工作流程。你可以將它與以下能力搭配使用:
- 撰寫文案的技能,用來產生腳本與提示語。
- 產生圖片的技能,用來建立畫面或參考靜態圖,再透過 image-to-video 做動畫化。
- 後製工具,用於在 AI 初始輸出之後,加入品牌元素、字幕與發佈自動化流程。
安裝完成後,你的 Agent 可以:
- 草擬提示語與分鏡腳本。
- 使用
infsh app run ...指令渲染影片片段。 - 持續調整提示語,直到成果符合你的創意需求。
使用教學
1. 安裝 ai-video-generation 技能
若要在相容的 Agent 執行環境中透過 Skills CLI 加入此技能:
npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation
此指令會從 inferen-sh/skills repository 下載 ai-video-generation 工具定義,並讓你的 Agent 能透過 Bash 呼叫 infsh CLI。
安裝完成後,前往 tools/video/ai-video-generation 目錄中的 SKILL.md,查看此技能內嵌的說明與連結。
2. 安裝並登入 inference.sh CLI
此技能仰賴 inference.sh CLI(infsh)。Repository 中的 SKILL.md 會連到安裝說明:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
請依照該文件步驟將 CLI 安裝到你的系統。安裝完成後,先進行登入驗證:
infsh login
請先在一般 shell 中確認這個指令可正常運作,再交由 Agent 使用。Agent 將會透過 Bash 使用同一個 infsh 執行檔。
3. 快速上手:產生你的第一支 AI 影片
技能的快速入門示範使用 Google Veo 3.1 Fast 來產生影片:
# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'
在 Agent 的工作流程中,你的助理會:
- 組出 JSON 格式的
inputpayload(例如:提示文字、時長、風格選項——若該 app 支援)。 - 使用允許的 Bash 工具執行
infsh app run ...指令。 - 解析 CLI 回傳內容,將影片 URL 或 ID 呈現給你。
你可以依需求調整提示語,例如:
- 產品 Demo:
"a rotating 3D render of a sleek wireless headset on a dark gradient background" - 社群預告:
"fast-paced montage of city nightlife, neon lights, and skyscrapers" - 說明影片:
"minimal flat-style animation showing a phone app sending payments across the world"
4. 選擇與切換模型
SKILL.md 會列出多種 模型分類(例如 Text-to-Video),每個模型都有一個 infsh 使用的 App ID。
在文字轉影片的情境下,通用呼叫格式為:
infsh app run <APP_ID> --input '{"prompt": "your description here"}'
依技能中列出的模型範例:
-
高品質且支援音訊(視模型支援而定):
infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}' -
最高品質且具影格內插(Veo 3.1):
infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}' -
快速反覆試作(Veo 3.1 Fast):
infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'
若要使用 image-to-video、lipsync、avatar 或升頻模型,請依 repository 中記載的特定 App ID 呼叫,並相應調整 --input JSON 欄位(例如依模型需求加入 image_url、video_url 或 audio_url)。
5. 串接到 Agent 提示與工作流程
當你把 ai-video-generation 串入 Agent 系統時,可以這樣設計:
- 在 system prompt 中描述工具:告訴 Agent 它可以透過
infsh app run來產生影片,並說明可用模型選項(Veo、Seedance、Wan 等)。 - 鼓勵結構化輸入:要求 Agent 為 CLI 建立明確的 JSON input,包括 prompt、duration 和 style 等欄位(若模型支援)。
- 預先規劃長時間作業:影片生成所需時間通常會比文字補全長。UX 設計上可加入進度訊息、輪詢等機制。
- 後處理輸出結果:CLI 回傳 URL 或檔案 ID 後,Agent 可以將其寫入專案筆記、行銷 brief,或傳遞給後續自動化流程。
6. 什麼情況下不建議使用此技能
以下情境你可能需要其他解決方案:
- 目標環境無法安裝或使用 CLI 工具。
- 工作流程必須嚴格在地端運算,且不允許使用外部 API。
- 你只需要對既有影片做基本剪裁與編輯,而不需要 AI 生成內容。
此時,建議優先尋找純影片剪輯技能,或與桌面 NLE 整合的解決方案,而非使用雲端 AI 生成架構。
FAQ
安裝 ai-video-generation 實際會多出什麼?
ai-video-generation 會從 inferen-sh/skills repository 安裝對應的 metadata 與工具設定,讓你的 Agent 知道如何呼叫 infsh CLI 來進行 AI 影片生成。本技能本身不會安裝 infsh 執行檔或任何模型。你必須依照 SKILL.md 中的說明,另外安裝 inference.sh CLI。
使用 ai-video-generation 是否一定要有 inference.sh 帳號?
需要。快速入門中使用的 infsh login 需要有效的 inference.sh 認證資訊。沒有帳號與登入狀態時,由技能觸發的 infsh app run ... 指令會失敗。
透過這個技能可以使用哪些 AI 影片模型?
技能描述中列出了多個支援的 apps,包括 Google Veo 3.1、Veo 3、Veo 3 Fast、Seedance 1.5 Pro、Wan 2.5、Grok Imagine Video、OmniHuman、Fabric、HunyuanVideo,以及更多可透過 inference.sh 取得的模型。實際可用清單與參數由 inference.sh catalogue 維護,可能會隨時間更新。
我可以做 image-to-video 和 lipsync 嗎?還是只有 text-to-video?
依技能描述,ai-video-generation 支援 text-to-video、image-to-video、lipsync、avatar animation、video upscaling 與 foley sound;前提是你選用的模型有透過 infsh 暴露這些功能。請查閱 inference.sh 上對應 app 的文件,確認所需輸入(例如圖片、音訊或影片 URL)。
要怎麼控制影片長度、畫面比例或風格?
具體可控制的參數取決於你在 inference.sh 上選用模型的 API 能力範圍。此技能的重點是把 CLI 接到你的 Agent,而不是強制使用統一的輸入 schema。若要調整時長、畫面比例或風格,請在 --input JSON 中傳入該 App ID 所支援的欄位,並以 inference.sh 上該模型的 app 文件為準,取得最新可用選項。
產生出來的影片會存在哪裡?
此技能是透過 inference.sh CLI 來執行,CLI 會回傳例如結果 URL 或 ID 等資訊。實際的儲存位置與保留策略由 inference.sh 管理,而不是由技能本身處理。一般情況下,你會拿到一個連結或參照,可用來下載、嵌入 CMS,或交給後續工具處理。
可以在 CI/CD 或無頭環境執行 ai-video-generation 嗎?
可以,只要該環境能安裝並完成 infsh CLI 的驗證,且你的 Agent 執行環境可以執行 Bash 指令即可。這樣你就能在 pipeline 中腳本化批次生成行銷影片、社群內容變化版,或自動產生預覽短片。
ai-video-generation 適合做傳統影片剪輯嗎?
ai-video-generation 比較適合用在 AI 生成或 AI 轉換 影片內容的情境。如果你需要對既有影片做精細剪輯(多軌時間軸、手動剪接、複雜轉場),仍然需要傳統的影片剪輯軟體。不過,你可以先用這個技能產生基礎素材,再在 NLE 中進一步精修。
之後要怎麼更新或移除這個技能?
你可以使用當初安裝時的 Skills CLI 來管理此技能的安裝與移除。執行相對應的 skills 指令(例如 remove 或 update 子指令,視你的環境支援情況而定)。移除技能不會解除安裝 infsh CLI;它只會把 ai-video-generation 與你的 Agent 整合關係移除。
