I

ai-video-generation

作者 inferen-sh

透過 inference.sh CLI,使用 Google Veo、Seedance、Wan、Grok 等超過 40 種模型產生 AI 影片。支援文字轉影片、圖片轉影片、對嘴同步、虛擬分身動畫、影片升頻,以及擬音音效,適用於社群短片、行銷素材、說明影片與產品 Demo。

Stars0
收藏0
評論0
加入時間2026年3月27日
分類视频编辑
安裝指令
npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation
總覽

概觀

什麼是 ai-video-generation?

ai-video-generation 技能會把你的 Agent 串接到 inference.sh CLI,讓它能使用 Google Veo、Seedance、Wan、Grok 等 40+ 種 AI 影片模型來產生與編輯影片。這個技能特別為需要透過 Bash 呼叫 CLI 工具、來建立與優化長短片素材的 AI 助理情境設計。

此技能目前將 Bash(infsh *) 宣告為允許使用的工具,代表 Agent 可以安全地執行 infsh 指令來觸發 AI 影片生成與相關處理流程。

主要功能

在底層模型與 infsh CLI 的支援下,ai-video-generation 可以用於以下工作流程:

  • Text-to-video (T2V):將自然語言提示轉換為完整渲染的影片片段。
  • Image-to-video (I2V):將靜態圖片轉換為動畫序列。
  • 對嘴同步與虛擬分身 (lipsync & avatars):用音訊驅動人臉與角色,生成主持人或講者風格的影片(視所選模型支援而定)。
  • 影片升頻:提升既有影片的解析度與畫質。
  • 擬音與音效 (Foley and audio):在模型支援的情況下,新增或優化配樂與環境音效。

依技能描述,目前可用的模型包括:

  • Google Veo 3.1 / Veo 3 / Veo 3 Fast
  • Seedance 1.5 Pro
  • Wan 2.5
  • Grok Imagine Video
  • OmniHuman、Fabric、HunyuanVideo

以及更多可透過 inference.sh apps catalogue 使用的模型。

適合哪些使用者?

ai-video-generation 特別適合你在以下情境使用:

  • 製作 社群影音內容(TikTok、Instagram Reels、YouTube Shorts、X、LinkedIn),並希望以 AI 為核心視覺來源。
  • 建立 行銷素材,例如產品預告、上市影片、廣告版本測試等。
  • 製作 說明與教學影片,用文字提示描述場景、介面流程或圖表,轉換為短影片。
  • 需要快速試作 AI 虛擬主持人 或講頭影片。
  • 想要以 Agent 驅動的方式,透過程式自動呼叫 infsh CLI,而不是手動操作網頁介面。

如果你有以下需求,這個技能就不那麼適合:

  • 需要純 GUI 操作的剪輯軟體,有時間軸與手動關鍵影格控制。
  • 需要在地端或離線環境生成影片(inference.sh 為雲端服務)。
  • 需要即時串流或直播畫面輸出。

在你的技術架構中扮演的角色

這項技能主要適用於 影片編輯內容行銷 工作流程。你可以將它與以下能力搭配使用:

  • 撰寫文案的技能,用來產生腳本與提示語。
  • 產生圖片的技能,用來建立畫面或參考靜態圖,再透過 image-to-video 做動畫化。
  • 後製工具,用於在 AI 初始輸出之後,加入品牌元素、字幕與發佈自動化流程。

安裝完成後,你的 Agent 可以:

  1. 草擬提示語與分鏡腳本。
  2. 使用 infsh app run ... 指令渲染影片片段。
  3. 持續調整提示語,直到成果符合你的創意需求。

使用教學

1. 安裝 ai-video-generation 技能

若要在相容的 Agent 執行環境中透過 Skills CLI 加入此技能:

npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation

此指令會從 inferen-sh/skills repository 下載 ai-video-generation 工具定義,並讓你的 Agent 能透過 Bash 呼叫 infsh CLI。

安裝完成後,前往 tools/video/ai-video-generation 目錄中的 SKILL.md,查看此技能內嵌的說明與連結。

2. 安裝並登入 inference.sh CLI

此技能仰賴 inference.sh CLIinfsh)。Repository 中的 SKILL.md 會連到安裝說明:

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

請依照該文件步驟將 CLI 安裝到你的系統。安裝完成後,先進行登入驗證:

infsh login

請先在一般 shell 中確認這個指令可正常運作,再交由 Agent 使用。Agent 將會透過 Bash 使用同一個 infsh 執行檔。

3. 快速上手:產生你的第一支 AI 影片

技能的快速入門示範使用 Google Veo 3.1 Fast 來產生影片:

# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'

在 Agent 的工作流程中,你的助理會:

  1. 組出 JSON 格式的 input payload(例如:提示文字、時長、風格選項——若該 app 支援)。
  2. 使用允許的 Bash 工具執行 infsh app run ... 指令。
  3. 解析 CLI 回傳內容,將影片 URL 或 ID 呈現給你。

你可以依需求調整提示語,例如:

  • 產品 Demo:"a rotating 3D render of a sleek wireless headset on a dark gradient background"
  • 社群預告:"fast-paced montage of city nightlife, neon lights, and skyscrapers"
  • 說明影片:"minimal flat-style animation showing a phone app sending payments across the world"

4. 選擇與切換模型

SKILL.md 會列出多種 模型分類(例如 Text-to-Video),每個模型都有一個 infsh 使用的 App ID

在文字轉影片的情境下,通用呼叫格式為:

infsh app run <APP_ID> --input '{"prompt": "your description here"}'

依技能中列出的模型範例:

  • 高品質且支援音訊(視模型支援而定):

    infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}'
    
  • 最高品質且具影格內插(Veo 3.1):

    infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}'
    
  • 快速反覆試作(Veo 3.1 Fast):

    infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'
    

若要使用 image-to-video、lipsync、avatar 或升頻模型,請依 repository 中記載的特定 App ID 呼叫,並相應調整 --input JSON 欄位(例如依模型需求加入 image_urlvideo_urlaudio_url)。

5. 串接到 Agent 提示與工作流程

當你把 ai-video-generation 串入 Agent 系統時,可以這樣設計:

  • 在 system prompt 中描述工具:告訴 Agent 它可以透過 infsh app run 來產生影片,並說明可用模型選項(Veo、Seedance、Wan 等)。
  • 鼓勵結構化輸入:要求 Agent 為 CLI 建立明確的 JSON input,包括 prompt、duration 和 style 等欄位(若模型支援)。
  • 預先規劃長時間作業:影片生成所需時間通常會比文字補全長。UX 設計上可加入進度訊息、輪詢等機制。
  • 後處理輸出結果:CLI 回傳 URL 或檔案 ID 後,Agent 可以將其寫入專案筆記、行銷 brief,或傳遞給後續自動化流程。

6. 什麼情況下不建議使用此技能

以下情境你可能需要其他解決方案:

  • 目標環境無法安裝或使用 CLI 工具。
  • 工作流程必須嚴格在地端運算,且不允許使用外部 API。
  • 你只需要對既有影片做基本剪裁與編輯,而不需要 AI 生成內容。

此時,建議優先尋找純影片剪輯技能,或與桌面 NLE 整合的解決方案,而非使用雲端 AI 生成架構。

FAQ

安裝 ai-video-generation 實際會多出什麼?

ai-video-generation 會從 inferen-sh/skills repository 安裝對應的 metadata 與工具設定,讓你的 Agent 知道如何呼叫 infsh CLI 來進行 AI 影片生成。本技能本身不會安裝 infsh 執行檔或任何模型。你必須依照 SKILL.md 中的說明,另外安裝 inference.sh CLI。

使用 ai-video-generation 是否一定要有 inference.sh 帳號?

需要。快速入門中使用的 infsh login 需要有效的 inference.sh 認證資訊。沒有帳號與登入狀態時,由技能觸發的 infsh app run ... 指令會失敗。

透過這個技能可以使用哪些 AI 影片模型?

技能描述中列出了多個支援的 apps,包括 Google Veo 3.1Veo 3Veo 3 FastSeedance 1.5 ProWan 2.5Grok Imagine VideoOmniHumanFabricHunyuanVideo,以及更多可透過 inference.sh 取得的模型。實際可用清單與參數由 inference.sh catalogue 維護,可能會隨時間更新。

我可以做 image-to-video 和 lipsync 嗎?還是只有 text-to-video?

依技能描述,ai-video-generation 支援 text-to-videoimage-to-videolipsyncavatar animationvideo upscalingfoley sound;前提是你選用的模型有透過 infsh 暴露這些功能。請查閱 inference.sh 上對應 app 的文件,確認所需輸入(例如圖片、音訊或影片 URL)。

要怎麼控制影片長度、畫面比例或風格?

具體可控制的參數取決於你在 inference.sh 上選用模型的 API 能力範圍。此技能的重點是把 CLI 接到你的 Agent,而不是強制使用統一的輸入 schema。若要調整時長、畫面比例或風格,請在 --input JSON 中傳入該 App ID 所支援的欄位,並以 inference.sh 上該模型的 app 文件為準,取得最新可用選項。

產生出來的影片會存在哪裡?

此技能是透過 inference.sh CLI 來執行,CLI 會回傳例如結果 URL 或 ID 等資訊。實際的儲存位置與保留策略由 inference.sh 管理,而不是由技能本身處理。一般情況下,你會拿到一個連結或參照,可用來下載、嵌入 CMS,或交給後續工具處理。

可以在 CI/CD 或無頭環境執行 ai-video-generation 嗎?

可以,只要該環境能安裝並完成 infsh CLI 的驗證,且你的 Agent 執行環境可以執行 Bash 指令即可。這樣你就能在 pipeline 中腳本化批次生成行銷影片、社群內容變化版,或自動產生預覽短片。

ai-video-generation 適合做傳統影片剪輯嗎?

ai-video-generation 比較適合用在 AI 生成或 AI 轉換 影片內容的情境。如果你需要對既有影片做精細剪輯(多軌時間軸、手動剪接、複雜轉場),仍然需要傳統的影片剪輯軟體。不過,你可以先用這個技能產生基礎素材,再在 NLE 中進一步精修。

之後要怎麼更新或移除這個技能?

你可以使用當初安裝時的 Skills CLI 來管理此技能的安裝與移除。執行相對應的 skills 指令(例如 remove 或 update 子指令,視你的環境支援情況而定)。移除技能不會解除安裝 infsh CLI;它只會把 ai-video-generation 與你的 Agent 整合關係移除。

評分與評論

尚無評分
分享你的評論
登入後即可為這項技能評分並留言。
G
0/10000
最新評論
儲存中...