ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI，從圖片與音訊軌生成 AI Avatar 與說話頭像（talking head）影片。ai-avatar-video 封裝了 OmniHuman、Fabric 和 PixVerse Lipsync 等應用，用於製作語音驅動的虛擬角色、對嘴影片與虛擬主持人，特別適合行銷、說明影片與社群內容的製作流程。

Stars0

評論0

加入時間2026年3月27日

分類视频编辑

安裝指令

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

视频音频 Marketing Social Media Automation Bash Cli

總覽

概觀

什麼是 ai-avatar-video？

ai-avatar-video 是一個以 CLI 為核心的技能，透過 inference.sh 平台建立 AI Avatar 與 talking head 影片。你可以將圖片與音訊檔送到預先建好的視訊應用程式（OmniHuman、Fabric、PixVerse Lipsync），並取得一段已渲染完成的影片，讓虛擬角色依照你的音訊說話與對嘴。

這個技能是為 Bash 為主的工作流程設計，底層使用 infsh CLI。

主要功能

AI talking head 生成：由單張肖像照片產生說話頭像影片
語音驅動 Avatar：將旁白 MP3 或其他支援的音訊對應到數位人像
使用專門的 lipsync 模型產生 對嘴影片
建立用於說明影片、產品導覽或公告的 虛擬主持人與 AI 主講人
透過 inference.sh apps 選擇 不同模型：
- OmniHuman 1.5 – 多角色、畫質較高
- OmniHuman 1.0 – 單角色 Avatar
- Fabric 1.0 –「image talks」對嘴效果
- PixVerse Lipsync – 專注於對嘴生成

誰適合使用 ai-avatar-video？

如果你符合以下情境，ai-avatar-video 會很適合：

製作 行銷影片、短版宣傳內容或 社群媒體影片
需要 AI 代言人 或 虛擬主持人 片段，而不想另外找真人拍攝
想從靜態照片快速試作 數位人像 或虛擬 KOL
比起網頁工具，更偏好 CLI 與自動化（Bash、腳本、CI pipeline）

以下情況則可能不那麼適合：

需要完整的影片剪輯功能（時間軸、特效、多軌編輯）
要求完全離線、不能呼叫外部 API 的流程
想要只用圖形介面（GUI），不想碰命令列工具

運作方式一覽

安裝並登入 infsh CLI。
選擇一個模型（例如 bytedance/omnihuman-1-5）。
在 JSON 中提供 image_url 和 audio_url。
執行 infsh app run ...，然後下載產出的影片。

ai-avatar-video 專注在 影片生成這一步，可以被嵌入到更大型的自動化流程或後製管線中。

使用教學

安裝與必要條件

1. 安裝技能

使用 skills CLI 將此技能加入你的環境：

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

這會從 inferen-sh/skills 儲存庫中，將 ai-avatar-video 的技能定義載入到 tools/video/ai-avatar-video 位置。

2. 安裝 inference.sh CLI（`infsh`）

ai-avatar-video 假設你已在 shell 中安裝好 infsh CLI 並可直接使用。請依照官方說明安裝：

CLI 安裝指南：https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

安裝完成後，先登入：

infsh login

CLI 會引導你完成驗證流程，好讓它能呼叫 inference.sh apps。

基本流程：建立一支 AI Avatar 影片

1. 準備媒體素材

圖片：清晰、正面的人像照片，放在可存取的 URL，例如 https://portrait.jpg。
音訊：一段說話或旁白音檔（例如 MP3），同樣放在可存取的 URL，例如 https://speech.mp3。

你可以使用物件儲存、網站伺服器或任何提供直接連結的檔案託管方式。

2. 使用 OmniHuman 1.5 生成高品質 Avatar

使用 bytedance/omnihuman-1-5 app 來產出多角色且畫質最佳的 talking head：

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

CLI 會處理你的請求並輸出結果資訊，通常會包含一個可供下載生成影片的 URL。

3. 試試其他模型

只要切換 app ID，就能探索不同的效果與取捨。

OmniHuman 1.0 – 單角色 Avatar

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – 圖片開口說話並對嘴

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – 專注對嘴效果的生成

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

請依照你的品質需求與輸出風格選擇 app。各 app 的具體參數與輸出形式，會以各自的 inference.sh app 定義為準。

將 ai-avatar-video 串進工作流程

Bash 與 CLI 自動化

ai-avatar-video 專為 *Bash（infsh ） 使用情境設計，很適合放入各類腳本，例如：

從多張照片與多段旁白批次生成影片
每晚排程自動產出更新的行銷或產品影片
在 CI/CD 流程中，於打上 release tag 時自動渲染發布影片

示意迴圈範例（概念用）：

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

搭配剪輯與發佈工具

這個技能聚焦在產出 talking-head 片段。接下來你可以：

匯入影片剪輯軟體，加上字幕、浮水印、疊圖或 B-roll
將片段交給社群排程工具或行銷自動化系統
若你的環境有其他技能，可再用來做字幕產生、尺寸重製或格式轉換

安裝後可查看的檔案與結構

從儲存庫安裝技能後，以下資源相當實用：

SKILL.md – 核心說明、快速開始指令與模型總覽
tools/video/ai-avatar-video/ – 在 repo 中的位置，可參考與其他 video 工具的關係與脈絡

查看這些檔案，有助於你依照預期的使用方式來實作與整合。

常見問題

什麼時候應該用 ai-avatar-video，而不是用網頁版的 Avatar 工具？

當你需要 以 CLI 為主、可腳本化控制 Avatar 影片生成流程時，就很適合用 ai-avatar-video。如果你熟悉 Bash，並想把 AI Avatar 生成納入自家 pipeline、建置工具或後端服務，這個技能會相當合適。

如果你比較想在瀏覽器裡用可視化介面操作、完全不碰終端機，那純網頁產品可能會更方便。

使用 ai-avatar-video 一定要裝 inference.sh CLI 嗎？

需要。這個技能是圍繞 infsh CLI 與底層的 inference.sh apps 所設計。你必須：

依官方說明安裝 CLI。
執行 infsh login。
如快速開始範例中，使用 infsh app run ... 指令。

若沒有 CLI，ai-avatar-video 就無法呼叫其所依賴的模型。

我應該先用哪個模型？

多數情境建議先從 OmniHuman 1.5（bytedance/omnihuman-1-5）開始，因為它標示為 多角色 且 品質最佳。

你可以在以下情況改用其他模型：

OmniHuman 1.0：只需要較單純的單角色 Avatar。
Fabric 1.0：偏好直接「圖片開口說話並對嘴」的風格。
PixVerse Lipsync：主要在意對嘴的自然度與細節。

可以針對幾支影片交叉測試不同 app，看看哪個在視覺與節奏上最符合你的期待。

什麼樣的輸入圖片效果最好？

雖然細節仍取決於各個底層 app，一般來說你會在以下條件下得到較好的結果：

清晰、正面的人像照片
良好的光線，五官清楚可見
避免遮擋（不要有大面積陰影或遮住臉部的物件）

越接近乾淨的棚拍大頭照，Avatar 的動作與對嘴看起來就會越自然。

我可以用這個技能自動化社群或行銷影片產製嗎？

可以。ai-avatar-video 非常適合：

周期性產出 行銷更新影片，由 AI 主持人講解重點
依照腳本音訊生成 社群平台 talking head 短影片
結合其他 CLI 工具進行尺寸調整、加字幕或上傳流程

你可以用 Bash 或偏好的自動化框架來串起整個流程，將本技能當作 Avatar 影片生成的核心步驟。

ai-avatar-video 是完整的影片剪輯軟體嗎？

不是。ai-avatar-video 專注於利用 inference.sh apps，從圖片 + 音訊生成 AI Avatar / talking head 片段，並不取代完整的非線性剪輯軟體。

在完整製作流程中，請把生成的影片視為時間軸中的一個素材，再搭配你慣用的剪輯工具做切換、轉場、標題、特效等後製。

我要去哪裡查看或修改技能定義？

這個技能位於 inferen-sh/skills 儲存庫中的：

tools/video/ai-avatar-video

請打開 SKILL.md 查看主要說明與快速開始指引。你也可以瀏覽整個目錄結構，了解這個技能如何與其他 CLI video 工作流程工具並列與整合。

評分與評論

尚無評分

分享你的評論

登入後即可為這項技能評分並留言。

0/10000

此分類中的更多技能

elevenlabs-sound-effects

作者 inferen-sh

透過 inference.sh CLI 使用 ElevenLabs，從文字提示生成 AI 音效。非常適合需要快速、免版稅音效設計的影片剪輯師、遊戲開發者、Podcast 主持人、電影工作者與內容創作者。支援文字轉音效、可調整音訊長度，以及針對電影級、氛圍類與遊戲用 SFX 的提示控制。

音频编辑

收藏 0GitHub 0

ai-social-media-content

作者 inferen-sh

適用於 TikTok、Instagram、YouTube 與 X 的 AI 社群內容產生器。透過 inference.sh CLI，搭配 FLUX、Veo、Seedance、Wan、Kokoro TTS 和 Claude 等模型，一鍵生成可直接上架的平台影片、reels、shorts、縮圖、圖片、文案與 hashtags。

社交媒体

收藏 0GitHub 0

ai-video-generation

作者 inferen-sh

透過 inference.sh CLI，使用 Google Veo、Seedance、Wan、Grok 等超過 40 種模型產生 AI 影片。支援文字轉影片、圖片轉影片、對嘴同步、虛擬分身動畫、影片升頻，以及擬音音效，適用於社群短片、行銷素材、說明影片與產品 Demo。

视频编辑

收藏 0GitHub 0

agent-tools

作者 inferen-sh

agent-tools 會在你的 agent 內部提供 inference.sh CLI，讓你在同一個介面中執行超過 150 款 AI 應用：圖像生成、影片製作、LLM、搜尋、3D，以及 Twitter 自動化等。非常適合需要統一工作流程執行器、但又不想自行管理 GPU 或複雜整合，卻同時要用到 FLUX、Veo、Gemini、Grok、Claude、Seedance、OmniHuman、Tavily、Exa、OpenRouter 等多種服務的情境。

工作流自動化

收藏 0GitHub 0

ai-content-pipeline

作者 inferen-sh

使用 inference.sh CLI 設計並執行多步驟 AI 內容產線，把影像、影片、音訊與文字工具串在一起。透過 ai-content-pipeline，自動化以下類型的流程：產生圖片、將圖片轉成動畫影片、加入音效或旁白，最後將內容整理好，用於 YouTube、社群媒體與行銷活動。

工作流自動化

收藏 0GitHub 0

remotion-best-practices

作者 remotion-dev

在 React 中建立程式化影片、動畫與音訊驅動合成時，實用的 Remotion 最佳實務指南。

视频编辑

收藏 0GitHub 2411

ai-marketing-videos

作者 inferen-sh

透過 inference.sh CLI 建立 AI 行銷影片。使用 ai-marketing-videos，可用 Veo、Seedance, Wan, FLUX 以及 Kokoro 配音等模型，為 Facebook、YouTube、Instagram 和 TikTok 產生宣傳影片、產品展示、解說影片及廣告創意。

视频编辑

收藏 0GitHub 0

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 透過 inference.sh CLI，自動將音訊或視訊配音、翻譯成 29 種語言，同時保留原說話者的聲音特質。非常適合需要快速產出多語版本內容的剪輯師、Podcaster，以及在地化與後製團隊使用。

视频编辑

收藏 0GitHub 0

ai-avatar-video

概觀

什麼是 ai-avatar-video？

主要功能

誰適合使用 ai-avatar-video？

運作方式一覽

使用教學

安裝與必要條件

1. 安裝技能

2. 安裝 inference.sh CLI（infsh）

基本流程：建立一支 AI Avatar 影片

1. 準備媒體素材

2. 使用 OmniHuman 1.5 生成高品質 Avatar

3. 試試其他模型

將 ai-avatar-video 串進工作流程

Bash 與 CLI 自動化

搭配剪輯與發佈工具

安裝後可查看的檔案與結構

常見問題

什麼時候應該用 ai-avatar-video，而不是用網頁版的 Avatar 工具？

使用 ai-avatar-video 一定要裝 inference.sh CLI 嗎？

我應該先用哪個模型？

什麼樣的輸入圖片效果最好？

我可以用這個技能自動化社群或行銷影片產製嗎？

ai-avatar-video 是完整的影片剪輯軟體嗎？

我要去哪裡查看或修改技能定義？

評分與評論

2. 安裝 inference.sh CLI（`infsh`）