I

ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI,從圖片與音訊軌生成 AI Avatar 與說話頭像(talking head)影片。ai-avatar-video 封裝了 OmniHuman、Fabric 和 PixVerse Lipsync 等應用,用於製作語音驅動的虛擬角色、對嘴影片與虛擬主持人,特別適合行銷、說明影片與社群內容的製作流程。

Stars0
收藏0
評論0
加入時間2026年3月27日
分類视频编辑
安裝指令
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
總覽

概觀

什麼是 ai-avatar-video?

ai-avatar-video 是一個以 CLI 為核心的技能,透過 inference.sh 平台建立 AI Avatar 與 talking head 影片。你可以將圖片與音訊檔送到預先建好的視訊應用程式(OmniHuman、Fabric、PixVerse Lipsync),並取得一段已渲染完成的影片,讓虛擬角色依照你的音訊說話與對嘴。

這個技能是為 Bash 為主的工作流程設計,底層使用 infsh CLI。

主要功能

  • AI talking head 生成:由單張肖像照片產生說話頭像影片
  • 語音驅動 Avatar:將旁白 MP3 或其他支援的音訊對應到數位人像
  • 使用專門的 lipsync 模型產生 對嘴影片
  • 建立用於說明影片、產品導覽或公告的 虛擬主持人與 AI 主講人
  • 透過 inference.sh apps 選擇 不同模型
    • OmniHuman 1.5 – 多角色、畫質較高
    • OmniHuman 1.0 – 單角色 Avatar
    • Fabric 1.0 –「image talks」對嘴效果
    • PixVerse Lipsync – 專注於對嘴生成

誰適合使用 ai-avatar-video?

如果你符合以下情境,ai-avatar-video 會很適合:

  • 製作 行銷影片、短版宣傳內容或 社群媒體影片
  • 需要 AI 代言人虛擬主持人 片段,而不想另外找真人拍攝
  • 想從靜態照片快速試作 數位人像 或虛擬 KOL
  • 比起網頁工具,更偏好 CLI 與自動化(Bash、腳本、CI pipeline)

以下情況則可能不那麼適合:

  • 需要完整的影片剪輯功能(時間軸、特效、多軌編輯)
  • 要求完全離線、不能呼叫外部 API 的流程
  • 想要只用圖形介面(GUI),不想碰命令列工具

運作方式一覽

  1. 安裝並登入 infsh CLI。
  2. 選擇一個模型(例如 bytedance/omnihuman-1-5)。
  3. 在 JSON 中提供 image_urlaudio_url
  4. 執行 infsh app run ...,然後下載產出的影片。

ai-avatar-video 專注在 影片生成這一步,可以被嵌入到更大型的自動化流程或後製管線中。

使用教學

安裝與必要條件

1. 安裝技能

使用 skills CLI 將此技能加入你的環境:

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

這會從 inferen-sh/skills 儲存庫中,將 ai-avatar-video 的技能定義載入到 tools/video/ai-avatar-video 位置。

2. 安裝 inference.sh CLI(infsh

ai-avatar-video 假設你已在 shell 中安裝好 infsh CLI 並可直接使用。請依照官方說明安裝:

  • CLI 安裝指南:https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

安裝完成後,先登入:

infsh login

CLI 會引導你完成驗證流程,好讓它能呼叫 inference.sh apps。

基本流程:建立一支 AI Avatar 影片

1. 準備媒體素材

  • 圖片:清晰、正面的人像照片,放在可存取的 URL,例如 https://portrait.jpg
  • 音訊:一段說話或旁白音檔(例如 MP3),同樣放在可存取的 URL,例如 https://speech.mp3

你可以使用物件儲存、網站伺服器或任何提供直接連結的檔案託管方式。

2. 使用 OmniHuman 1.5 生成高品質 Avatar

使用 bytedance/omnihuman-1-5 app 來產出多角色且畫質最佳的 talking head:

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

CLI 會處理你的請求並輸出結果資訊,通常會包含一個可供下載生成影片的 URL。

3. 試試其他模型

只要切換 app ID,就能探索不同的效果與取捨。

OmniHuman 1.0 – 單角色 Avatar

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – 圖片開口說話並對嘴

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – 專注對嘴效果的生成

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

請依照你的品質需求與輸出風格選擇 app。各 app 的具體參數與輸出形式,會以各自的 inference.sh app 定義為準。

將 ai-avatar-video 串進工作流程

Bash 與 CLI 自動化

ai-avatar-video 專為 *Bash(infsh 使用情境設計,很適合放入各類腳本,例如:

  • 從多張照片與多段旁白批次生成影片
  • 每晚排程自動產出更新的行銷或產品影片
  • 在 CI/CD 流程中,於打上 release tag 時自動渲染發布影片

示意迴圈範例(概念用):

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

搭配剪輯與發佈工具

這個技能聚焦在產出 talking-head 片段。接下來你可以:

  • 匯入影片剪輯軟體,加上字幕、浮水印、疊圖或 B-roll
  • 將片段交給社群排程工具或行銷自動化系統
  • 若你的環境有其他技能,可再用來做字幕產生、尺寸重製或格式轉換

安裝後可查看的檔案與結構

從儲存庫安裝技能後,以下資源相當實用:

  • SKILL.md – 核心說明、快速開始指令與模型總覽
  • tools/video/ai-avatar-video/ – 在 repo 中的位置,可參考與其他 video 工具的關係與脈絡

查看這些檔案,有助於你依照預期的使用方式來實作與整合。

常見問題

什麼時候應該用 ai-avatar-video,而不是用網頁版的 Avatar 工具?

當你需要 以 CLI 為主、可腳本化控制 Avatar 影片生成流程時,就很適合用 ai-avatar-video。如果你熟悉 Bash,並想把 AI Avatar 生成納入自家 pipeline、建置工具或後端服務,這個技能會相當合適。

如果你比較想在瀏覽器裡用可視化介面操作、完全不碰終端機,那純網頁產品可能會更方便。

使用 ai-avatar-video 一定要裝 inference.sh CLI 嗎?

需要。這個技能是圍繞 infsh CLI 與底層的 inference.sh apps 所設計。你必須:

  1. 依官方說明安裝 CLI。
  2. 執行 infsh login
  3. 如快速開始範例中,使用 infsh app run ... 指令。

若沒有 CLI,ai-avatar-video 就無法呼叫其所依賴的模型。

我應該先用哪個模型?

多數情境建議先從 OmniHuman 1.5bytedance/omnihuman-1-5)開始,因為它標示為 多角色品質最佳

你可以在以下情況改用其他模型:

  • OmniHuman 1.0:只需要較單純的單角色 Avatar。
  • Fabric 1.0:偏好直接「圖片開口說話並對嘴」的風格。
  • PixVerse Lipsync:主要在意對嘴的自然度與細節。

可以針對幾支影片交叉測試不同 app,看看哪個在視覺與節奏上最符合你的期待。

什麼樣的輸入圖片效果最好?

雖然細節仍取決於各個底層 app,一般來說你會在以下條件下得到較好的結果:

  • 清晰、正面的人像照片
  • 良好的 光線,五官清楚可見
  • 避免遮擋(不要有大面積陰影或遮住臉部的物件)

越接近乾淨的棚拍大頭照,Avatar 的動作與對嘴看起來就會越自然。

我可以用這個技能自動化社群或行銷影片產製嗎?

可以。ai-avatar-video 非常適合:

  • 周期性產出 行銷更新影片,由 AI 主持人講解重點
  • 依照腳本音訊生成 社群平台 talking head 短影片
  • 結合其他 CLI 工具進行尺寸調整、加字幕或上傳流程

你可以用 Bash 或偏好的自動化框架來串起整個流程,將本技能當作 Avatar 影片生成的核心步驟。

ai-avatar-video 是完整的影片剪輯軟體嗎?

不是。ai-avatar-video 專注於利用 inference.sh apps,從圖片 + 音訊生成 AI Avatar / talking head 片段,並不取代完整的非線性剪輯軟體。

在完整製作流程中,請把生成的影片視為時間軸中的一個素材,再搭配你慣用的剪輯工具做切換、轉場、標題、特效等後製。

我要去哪裡查看或修改技能定義?

這個技能位於 inferen-sh/skills 儲存庫中的:

  • tools/video/ai-avatar-video

請打開 SKILL.md 查看主要說明與快速開始指引。你也可以瀏覽整個目錄結構,了解這個技能如何與其他 CLI video 工作流程工具並列與整合。

評分與評論

尚無評分
分享你的評論
登入後即可為這項技能評分並留言。
G
0/10000
最新評論
儲存中...