ai-avatar-video
作者 inferen-sh使用 inference.sh CLI,從圖片與音訊軌生成 AI Avatar 與說話頭像(talking head)影片。ai-avatar-video 封裝了 OmniHuman、Fabric 和 PixVerse Lipsync 等應用,用於製作語音驅動的虛擬角色、對嘴影片與虛擬主持人,特別適合行銷、說明影片與社群內容的製作流程。
概觀
什麼是 ai-avatar-video?
ai-avatar-video 是一個以 CLI 為核心的技能,透過 inference.sh 平台建立 AI Avatar 與 talking head 影片。你可以將圖片與音訊檔送到預先建好的視訊應用程式(OmniHuman、Fabric、PixVerse Lipsync),並取得一段已渲染完成的影片,讓虛擬角色依照你的音訊說話與對嘴。
這個技能是為 Bash 為主的工作流程設計,底層使用 infsh CLI。
主要功能
- AI talking head 生成:由單張肖像照片產生說話頭像影片
- 語音驅動 Avatar:將旁白 MP3 或其他支援的音訊對應到數位人像
- 使用專門的 lipsync 模型產生 對嘴影片
- 建立用於說明影片、產品導覽或公告的 虛擬主持人與 AI 主講人
- 透過 inference.sh apps 選擇 不同模型:
- OmniHuman 1.5 – 多角色、畫質較高
- OmniHuman 1.0 – 單角色 Avatar
- Fabric 1.0 –「image talks」對嘴效果
- PixVerse Lipsync – 專注於對嘴生成
誰適合使用 ai-avatar-video?
如果你符合以下情境,ai-avatar-video 會很適合:
- 製作 行銷影片、短版宣傳內容或 社群媒體影片
- 需要 AI 代言人 或 虛擬主持人 片段,而不想另外找真人拍攝
- 想從靜態照片快速試作 數位人像 或虛擬 KOL
- 比起網頁工具,更偏好 CLI 與自動化(Bash、腳本、CI pipeline)
以下情況則可能不那麼適合:
- 需要完整的影片剪輯功能(時間軸、特效、多軌編輯)
- 要求完全離線、不能呼叫外部 API 的流程
- 想要只用圖形介面(GUI),不想碰命令列工具
運作方式一覽
- 安裝並登入
infshCLI。 - 選擇一個模型(例如
bytedance/omnihuman-1-5)。 - 在 JSON 中提供
image_url和audio_url。 - 執行
infsh app run ...,然後下載產出的影片。
ai-avatar-video 專注在 影片生成這一步,可以被嵌入到更大型的自動化流程或後製管線中。
使用教學
安裝與必要條件
1. 安裝技能
使用 skills CLI 將此技能加入你的環境:
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
這會從 inferen-sh/skills 儲存庫中,將 ai-avatar-video 的技能定義載入到 tools/video/ai-avatar-video 位置。
2. 安裝 inference.sh CLI(infsh)
ai-avatar-video 假設你已在 shell 中安裝好 infsh CLI 並可直接使用。請依照官方說明安裝:
- CLI 安裝指南:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
安裝完成後,先登入:
infsh login
CLI 會引導你完成驗證流程,好讓它能呼叫 inference.sh apps。
基本流程:建立一支 AI Avatar 影片
1. 準備媒體素材
- 圖片:清晰、正面的人像照片,放在可存取的 URL,例如
https://portrait.jpg。 - 音訊:一段說話或旁白音檔(例如 MP3),同樣放在可存取的 URL,例如
https://speech.mp3。
你可以使用物件儲存、網站伺服器或任何提供直接連結的檔案託管方式。
2. 使用 OmniHuman 1.5 生成高品質 Avatar
使用 bytedance/omnihuman-1-5 app 來產出多角色且畫質最佳的 talking head:
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
CLI 會處理你的請求並輸出結果資訊,通常會包含一個可供下載生成影片的 URL。
3. 試試其他模型
只要切換 app ID,就能探索不同的效果與取捨。
OmniHuman 1.0 – 單角色 Avatar
infsh app run bytedance/omnihuman-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Fabric 1.0 – 圖片開口說話並對嘴
infsh app run falai/fabric-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
PixVerse Lipsync – 專注對嘴效果的生成
infsh app run falai/pixverse-lipsync --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
請依照你的品質需求與輸出風格選擇 app。各 app 的具體參數與輸出形式,會以各自的 inference.sh app 定義為準。
將 ai-avatar-video 串進工作流程
Bash 與 CLI 自動化
ai-avatar-video 專為 *Bash(infsh ) 使用情境設計,很適合放入各類腳本,例如:
- 從多張照片與多段旁白批次生成影片
- 每晚排程自動產出更新的行銷或產品影片
- 在 CI/CD 流程中,於打上 release tag 時自動渲染發布影片
示意迴圈範例(概念用):
while read image audio; do
infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt
搭配剪輯與發佈工具
這個技能聚焦在產出 talking-head 片段。接下來你可以:
- 匯入影片剪輯軟體,加上字幕、浮水印、疊圖或 B-roll
- 將片段交給社群排程工具或行銷自動化系統
- 若你的環境有其他技能,可再用來做字幕產生、尺寸重製或格式轉換
安裝後可查看的檔案與結構
從儲存庫安裝技能後,以下資源相當實用:
SKILL.md– 核心說明、快速開始指令與模型總覽tools/video/ai-avatar-video/– 在 repo 中的位置,可參考與其他 video 工具的關係與脈絡
查看這些檔案,有助於你依照預期的使用方式來實作與整合。
常見問題
什麼時候應該用 ai-avatar-video,而不是用網頁版的 Avatar 工具?
當你需要 以 CLI 為主、可腳本化控制 Avatar 影片生成流程時,就很適合用 ai-avatar-video。如果你熟悉 Bash,並想把 AI Avatar 生成納入自家 pipeline、建置工具或後端服務,這個技能會相當合適。
如果你比較想在瀏覽器裡用可視化介面操作、完全不碰終端機,那純網頁產品可能會更方便。
使用 ai-avatar-video 一定要裝 inference.sh CLI 嗎?
需要。這個技能是圍繞 infsh CLI 與底層的 inference.sh apps 所設計。你必須:
- 依官方說明安裝 CLI。
- 執行
infsh login。 - 如快速開始範例中,使用
infsh app run ...指令。
若沒有 CLI,ai-avatar-video 就無法呼叫其所依賴的模型。
我應該先用哪個模型?
多數情境建議先從 OmniHuman 1.5(bytedance/omnihuman-1-5)開始,因為它標示為 多角色 且 品質最佳。
你可以在以下情況改用其他模型:
- OmniHuman 1.0:只需要較單純的單角色 Avatar。
- Fabric 1.0:偏好直接「圖片開口說話並對嘴」的風格。
- PixVerse Lipsync:主要在意對嘴的自然度與細節。
可以針對幾支影片交叉測試不同 app,看看哪個在視覺與節奏上最符合你的期待。
什麼樣的輸入圖片效果最好?
雖然細節仍取決於各個底層 app,一般來說你會在以下條件下得到較好的結果:
- 清晰、正面的人像照片
- 良好的 光線,五官清楚可見
- 避免遮擋(不要有大面積陰影或遮住臉部的物件)
越接近乾淨的棚拍大頭照,Avatar 的動作與對嘴看起來就會越自然。
我可以用這個技能自動化社群或行銷影片產製嗎?
可以。ai-avatar-video 非常適合:
- 周期性產出 行銷更新影片,由 AI 主持人講解重點
- 依照腳本音訊生成 社群平台 talking head 短影片
- 結合其他 CLI 工具進行尺寸調整、加字幕或上傳流程
你可以用 Bash 或偏好的自動化框架來串起整個流程,將本技能當作 Avatar 影片生成的核心步驟。
ai-avatar-video 是完整的影片剪輯軟體嗎?
不是。ai-avatar-video 專注於利用 inference.sh apps,從圖片 + 音訊生成 AI Avatar / talking head 片段,並不取代完整的非線性剪輯軟體。
在完整製作流程中,請把生成的影片視為時間軸中的一個素材,再搭配你慣用的剪輯工具做切換、轉場、標題、特效等後製。
我要去哪裡查看或修改技能定義?
這個技能位於 inferen-sh/skills 儲存庫中的:
tools/video/ai-avatar-video
請打開 SKILL.md 查看主要說明與快速開始指引。你也可以瀏覽整個目錄結構,了解這個技能如何與其他 CLI video 工作流程工具並列與整合。
