ai-video-generation

作者 inferen-sh

透過 inference.sh CLI，使用 Google Veo、Seedance、Wan、Grok 等超過 40 種模型產生 AI 影片。支援文字轉影片、圖片轉影片、對嘴同步、虛擬分身動畫、影片升頻，以及擬音音效，適用於社群短片、行銷素材、說明影片與產品 Demo。

Stars0

評論0

加入時間2026年3月27日

分類视频编辑

安裝指令

npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation

视频 Cli

總覽

概觀

什麼是 ai-video-generation？

ai-video-generation 技能會把你的 Agent 串接到 inference.sh CLI，讓它能使用 Google Veo、Seedance、Wan、Grok 等 40+ 種 AI 影片模型來產生與編輯影片。這個技能特別為需要透過 Bash 呼叫 CLI 工具、來建立與優化長短片素材的 AI 助理情境設計。

此技能目前將 Bash(infsh *) 宣告為允許使用的工具，代表 Agent 可以安全地執行 infsh 指令來觸發 AI 影片生成與相關處理流程。

主要功能

在底層模型與 infsh CLI 的支援下，ai-video-generation 可以用於以下工作流程：

Text-to-video (T2V)：將自然語言提示轉換為完整渲染的影片片段。
Image-to-video (I2V)：將靜態圖片轉換為動畫序列。
對嘴同步與虛擬分身 (lipsync & avatars)：用音訊驅動人臉與角色，生成主持人或講者風格的影片（視所選模型支援而定）。
影片升頻：提升既有影片的解析度與畫質。
擬音與音效 (Foley and audio)：在模型支援的情況下，新增或優化配樂與環境音效。

依技能描述，目前可用的模型包括：

Google Veo 3.1 / Veo 3 / Veo 3 Fast
Seedance 1.5 Pro
Wan 2.5
Grok Imagine Video
OmniHuman、Fabric、HunyuanVideo

以及更多可透過 inference.sh apps catalogue 使用的模型。

適合哪些使用者？

ai-video-generation 特別適合你在以下情境使用：

製作 社群影音內容（TikTok、Instagram Reels、YouTube Shorts、X、LinkedIn），並希望以 AI 為核心視覺來源。
建立 行銷素材，例如產品預告、上市影片、廣告版本測試等。
製作 說明與教學影片，用文字提示描述場景、介面流程或圖表，轉換為短影片。
需要快速試作 AI 虛擬主持人 或講頭影片。
想要以 Agent 驅動的方式，透過程式自動呼叫 infsh CLI，而不是手動操作網頁介面。

如果你有以下需求，這個技能就不那麼適合：

需要純 GUI 操作的剪輯軟體，有時間軸與手動關鍵影格控制。
需要在地端或離線環境生成影片（inference.sh 為雲端服務）。
需要即時串流或直播畫面輸出。

在你的技術架構中扮演的角色

這項技能主要適用於 影片編輯 與 內容行銷 工作流程。你可以將它與以下能力搭配使用：

撰寫文案的技能，用來產生腳本與提示語。
產生圖片的技能，用來建立畫面或參考靜態圖，再透過 image-to-video 做動畫化。
後製工具，用於在 AI 初始輸出之後，加入品牌元素、字幕與發佈自動化流程。

安裝完成後，你的 Agent 可以：

草擬提示語與分鏡腳本。
使用 infsh app run ... 指令渲染影片片段。
持續調整提示語，直到成果符合你的創意需求。

使用教學

1. 安裝 ai-video-generation 技能

若要在相容的 Agent 執行環境中透過 Skills CLI 加入此技能：

npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation

此指令會從 inferen-sh/skills repository 下載 ai-video-generation 工具定義，並讓你的 Agent 能透過 Bash 呼叫 infsh CLI。

安裝完成後，前往 tools/video/ai-video-generation 目錄中的 SKILL.md，查看此技能內嵌的說明與連結。

2. 安裝並登入 inference.sh CLI

此技能仰賴 inference.sh CLI（infsh）。Repository 中的 SKILL.md 會連到安裝說明：

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

請依照該文件步驟將 CLI 安裝到你的系統。安裝完成後，先進行登入驗證：

infsh login

請先在一般 shell 中確認這個指令可正常運作，再交由 Agent 使用。Agent 將會透過 Bash 使用同一個 infsh 執行檔。

3. 快速上手：產生你的第一支 AI 影片

技能的快速入門示範使用 Google Veo 3.1 Fast 來產生影片：

# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'

在 Agent 的工作流程中，你的助理會：

組出 JSON 格式的 input payload（例如：提示文字、時長、風格選項——若該 app 支援）。
使用允許的 Bash 工具執行 infsh app run ... 指令。
解析 CLI 回傳內容，將影片 URL 或 ID 呈現給你。

你可以依需求調整提示語，例如：

產品 Demo："a rotating 3D render of a sleek wireless headset on a dark gradient background"
社群預告："fast-paced montage of city nightlife, neon lights, and skyscrapers"
說明影片："minimal flat-style animation showing a phone app sending payments across the world"

4. 選擇與切換模型

SKILL.md 會列出多種 模型分類（例如 Text-to-Video），每個模型都有一個 infsh 使用的 App ID。

在文字轉影片的情境下，通用呼叫格式為：

infsh app run <APP_ID> --input '{"prompt": "your description here"}'

依技能中列出的模型範例：

高品質且支援音訊（視模型支援而定）：

infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}'

最高品質且具影格內插（Veo 3.1）：

infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}'

快速反覆試作（Veo 3.1 Fast）：

infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'

若要使用 image-to-video、lipsync、avatar 或升頻模型，請依 repository 中記載的特定 App ID 呼叫，並相應調整 --input JSON 欄位（例如依模型需求加入 image_url、video_url 或 audio_url）。

5. 串接到 Agent 提示與工作流程

當你把 ai-video-generation 串入 Agent 系統時，可以這樣設計：

在 system prompt 中描述工具：告訴 Agent 它可以透過 infsh app run 來產生影片，並說明可用模型選項（Veo、Seedance、Wan 等）。
鼓勵結構化輸入：要求 Agent 為 CLI 建立明確的 JSON input，包括 prompt、duration 和 style 等欄位（若模型支援）。
預先規劃長時間作業：影片生成所需時間通常會比文字補全長。UX 設計上可加入進度訊息、輪詢等機制。
後處理輸出結果：CLI 回傳 URL 或檔案 ID 後，Agent 可以將其寫入專案筆記、行銷 brief，或傳遞給後續自動化流程。

6. 什麼情況下不建議使用此技能

以下情境你可能需要其他解決方案：

目標環境無法安裝或使用 CLI 工具。
工作流程必須嚴格在地端運算，且不允許使用外部 API。
你只需要對既有影片做基本剪裁與編輯，而不需要 AI 生成內容。

此時，建議優先尋找純影片剪輯技能，或與桌面 NLE 整合的解決方案，而非使用雲端 AI 生成架構。

FAQ

安裝 ai-video-generation 實際會多出什麼？

ai-video-generation 會從 inferen-sh/skills repository 安裝對應的 metadata 與工具設定，讓你的 Agent 知道如何呼叫 infsh CLI 來進行 AI 影片生成。本技能本身不會安裝 infsh 執行檔或任何模型。你必須依照 SKILL.md 中的說明，另外安裝 inference.sh CLI。

使用 ai-video-generation 是否一定要有 inference.sh 帳號？

需要。快速入門中使用的 infsh login 需要有效的 inference.sh 認證資訊。沒有帳號與登入狀態時，由技能觸發的 infsh app run ... 指令會失敗。

透過這個技能可以使用哪些 AI 影片模型？

技能描述中列出了多個支援的 apps，包括 Google Veo 3.1、Veo 3、Veo 3 Fast、Seedance 1.5 Pro、Wan 2.5、Grok Imagine Video、OmniHuman、Fabric、HunyuanVideo，以及更多可透過 inference.sh 取得的模型。實際可用清單與參數由 inference.sh catalogue 維護，可能會隨時間更新。

我可以做 image-to-video 和 lipsync 嗎？還是只有 text-to-video？

依技能描述，ai-video-generation 支援 text-to-video、image-to-video、lipsync、avatar animation、video upscaling 與 foley sound；前提是你選用的模型有透過 infsh 暴露這些功能。請查閱 inference.sh 上對應 app 的文件，確認所需輸入（例如圖片、音訊或影片 URL）。

要怎麼控制影片長度、畫面比例或風格？

具體可控制的參數取決於你在 inference.sh 上選用模型的 API 能力範圍。此技能的重點是把 CLI 接到你的 Agent，而不是強制使用統一的輸入 schema。若要調整時長、畫面比例或風格，請在 --input JSON 中傳入該 App ID 所支援的欄位，並以 inference.sh 上該模型的 app 文件為準，取得最新可用選項。

產生出來的影片會存在哪裡？

此技能是透過 inference.sh CLI 來執行，CLI 會回傳例如結果 URL 或 ID 等資訊。實際的儲存位置與保留策略由 inference.sh 管理，而不是由技能本身處理。一般情況下，你會拿到一個連結或參照，可用來下載、嵌入 CMS，或交給後續工具處理。

可以在 CI/CD 或無頭環境執行 ai-video-generation 嗎？

可以，只要該環境能安裝並完成 infsh CLI 的驗證，且你的 Agent 執行環境可以執行 Bash 指令即可。這樣你就能在 pipeline 中腳本化批次生成行銷影片、社群內容變化版，或自動產生預覽短片。

ai-video-generation 適合做傳統影片剪輯嗎？

ai-video-generation 比較適合用在 AI 生成或 AI 轉換 影片內容的情境。如果你需要對既有影片做精細剪輯（多軌時間軸、手動剪接、複雜轉場），仍然需要傳統的影片剪輯軟體。不過，你可以先用這個技能產生基礎素材，再在 NLE 中進一步精修。

之後要怎麼更新或移除這個技能？

你可以使用當初安裝時的 Skills CLI 來管理此技能的安裝與移除。執行相對應的 skills 指令（例如 remove 或 update 子指令，視你的環境支援情況而定）。移除技能不會解除安裝 infsh CLI；它只會把 ai-video-generation 與你的 Agent 整合關係移除。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

frontend-design

作者 pbakaus

打造獨特且具生產級品質的前端介面，強調高水準的設計質感。產出創意且精緻的程式碼，避免一般 AI 風格的千篇一律。適用於用戶要求建立網頁元件、頁面、數位作品、海報或應用程式，或任何需要專案脈絡的設計技能。

UI 設計

收藏 0GitHub 0

colorize

作者 pbakaus

策略性地為單調或單色介面增添色彩，以提升視覺吸引力、品牌一致性與用戶參與度。非常適合尋求富有表現力且鮮明設計的 UI 設計師與前端開發者。

UI 設計

收藏 0GitHub 1.4萬

gitlab-ci-patterns

作者 wshobson

利用多階段工作流程、快取與部署自動化，打造高效的 GitLab CI/CD 管線。非常適合使用 GitLab 來自動化測試、建置與 Kubernetes 部署的團隊。

Git 工作流

收藏 0GitHub 0

teach-impeccable

作者 pbakaus

一次性設定技能，用於捕捉並保存專案的設計脈絡與指引至 AI 配置檔。非常適合建立持續性的 UI 標準。

UI 設計

收藏 0GitHub 1.4萬

nodejs-backend-patterns

作者 wshobson

提供一套完整的模式與最佳實踐，幫助您使用 Express 或 Fastify 建立可擴展的 Node.js 後端服務。涵蓋中介軟體、錯誤處理、身份驗證、資料庫整合，以及 REST、GraphQL 和微服務的 API 設計。

後端开发

收藏 0GitHub 0

extract

作者 pbakaus

Extract 幫助您識別並整合可重複使用的 UI 元件、設計代碼與樣式，打造結構化的設計系統。非常適合正在建立或重構元件庫並尋求系統化重用的團隊。

設計系统

收藏 0GitHub 0

frontend-design

作者 pbakaus

打造獨特且具生產等級的前端介面，擁有高品質設計。產出創意且精緻的程式碼，避免通用 AI 美學。當使用者要求建立網頁元件、頁面、作品、海報或應用程式，或任何設計技能需要專案情境時使用此技能。

UI 設計

收藏 0GitHub 1.4萬

cold-email

作者 coreyhaines31

規劃並撰寫能有效提升開信率、回覆率與會議預約率的 B2B cold email 與追蹤信件序列。當你需要 outbound sales email、SDR 開發用文案，或多節點 cold campaign 時，就適合使用這個技能。

销售外联

收藏 0GitHub 1.7萬