ai-avatar-video
作成者 inferen-shinference.sh CLI を使って、画像と音声トラックから AI アバター/トーキングヘッド動画を生成します。ai-avatar-video は OmniHuman、Fabric、PixVerse Lipsync といったアプリをラップし、音声駆動のアバター、リップシンク動画、バーチャルプレゼンターを作成できます。マーケティング動画、解説動画、SNS 向けコンテンツのワークフローに最適です。
概要
ai-avatar-video とは?
ai-avatar-video は、inference.sh プラットフォームを利用して AI アバターやトーキングヘッド動画を作成する、CLI 中心のスキルです。画像と音声ファイルをあらかじめ用意された動画アプリ(OmniHuman、Fabric、PixVerse Lipsync)に送信すると、その音声に合わせて話し、口パクが同期したアバター動画が生成されます。
このスキルは Bash ベースのワークフロー向けに設計されており、内部的に infsh CLI を使用します。
主な機能
- 1 枚のポートレート画像からの AI トーキングヘッド生成
- 音声駆動アバター: ナレーション MP3 など対応音声をデジタルヒューマンにマッピング
- 専用リップシンクモデルを用いた リップシンク動画
- 解説動画、プロダクトツアー、告知などに使える バーチャルプレゼンター/AI プレゼンター
- inference.sh アプリを利用した モデル選択:
- OmniHuman 1.5 – 複数キャラクター対応・高画質
- OmniHuman 1.0 – 単一キャラクターのアバター
- Fabric 1.0 – 「画像が話す」タイプのリップシンク
- PixVerse Lipsync – リップシンク特化の生成
ai-avatar-video が向いているユーザー
ai-avatar-video は、次のようなニーズに適しています。
- マーケティング動画、短尺プロモーション、SNS コンテンツを制作している
- タレントを起用せずに AI スポークスパーソン や バーチャルプレゼンター のクリップを作りたい
- 静止画から デジタルヒューマン やバーチャルインフルエンサーを素早く試作したい
- 手作業の Web ツールよりも、CLI や自動化(Bash、スクリプト、CI パイプライン)を好む
逆に、次のような場合にはあまり向いていません。
- タイムライン、エフェクト、マルチトラック編集などを備えた本格的な動画編集ソフトが必要
- 外部 API を使わない、完全オフラインのワークフローが必須
- コマンドラインではなく、GUI だけで完結するツールを求めている
動作イメージ
infshCLI をインストールしてログインします。- モデル(例:
bytedance/omnihuman-1-5)を選択します。 - JSON で
image_urlとaudio_urlを指定します。 infsh app run ...を実行し、生成された動画をダウンロードします。
ai-avatar-video は 動画生成ステップに特化しており、より大きな自動化フローやポストプロダクションのパイプラインに組み込むことができます。
使い方
インストールと前提条件
1. スキルをインストールする
skills CLI を使って、スキルを環境に追加します。
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
このコマンドにより、inferen-sh/skills リポジトリの tools/video/ai-avatar-video から ai-avatar-video のスキル定義が取得されます。
2. inference.sh CLI(infsh)をインストールする
ai-avatar-video を使うには、infsh CLI がシェルから利用できる状態でインストールされている必要があります。公式手順に従って設定してください。
- CLI インストールガイド:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
インストール後、次のコマンドでログインします。
infsh login
ガイドに従って認証を行うと、CLI から inference.sh の各アプリを呼び出せるようになります。
基本フロー: AI アバター動画を作成する
1. 素材を用意する
- 画像: 正面向きで顔がはっきり写ったポートレート画像を、アクセス可能な URL でホスティングします(例:
https://portrait.jpg)。 - 音声: スピーチやナレーションの音声ファイル(例: MP3)を、同様に URL でホスティングします(例:
https://speech.mp3)。
オブジェクトストレージ、Web サーバーなど、直接アクセスできる URL を提供できるホスティング方法であれば問題ありません。
2. 高品質なアバター用に OmniHuman 1.5 を実行する
マルチキャラクター対応かつ高品質なトーキングヘッドを生成するには、bytedance/omnihuman-1-5 アプリを利用します。
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
CLI がリクエストを処理し、通常は生成された動画をダウンロードできる URL などの出力情報が表示されます。
3. 別モデルも試してみる
アプリ ID を切り替えて、品質やスタイルの違いを比較できます。
OmniHuman 1.0 – 単一キャラクターのアバター
infsh app run bytedance/omnihuman-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Fabric 1.0 – 画像が話すタイプのリップシンク
infsh app run falai/fabric-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
PixVerse Lipsync – リップシンク特化
infsh app run falai/pixverse-lipsync --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
求める画質や出力スタイルに応じてアプリを選択してください。利用可能なオプションや出力仕様は、それぞれの inference.sh アプリ側で定義されています。
ai-avatar-video をワークフローに組み込む
Bash と CLI による自動化
ai-avatar-video は Bash(infsh 系コマンド) 利用を前提に設計されているため、次のようなスクリプトに組み込みやすくなっています。
- 画像とナレーションのリストから、動画を一括生成するバッチ処理
- 毎晩実行される、最新のマーケティング/プロダクト動画を生成する定期ジョブ
- リリースタグ作成時に、リリース告知動画をレンダリングする CI/CD ステップ
概念的なループの例:
while read image audio; do
infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt
編集・配信ツールとの組み合わせ
このスキルは トーキングヘッドのクリップ生成 にフォーカスしています。その後は、次のようなツールと組み合わせて利用できます。
- 生成したクリップを動画編集ソフトに取り込み、テロップ、字幕、B ロールなどを追加
- クリップを SNS 投稿管理ツールやマーケティングオートメーションに連携
- 環境に用意されている他のスキルと組み合わせて、字幕生成やフォーマット変換を実施
参考になるファイルとディレクトリ構成
リポジトリからスキルをインストールした後は、次のファイルやディレクトリが参考になります。
SKILL.md– 機能概要、クイックスタートコマンド、モデルの概要tools/video/ai-avatar-video/– 他の動画ツールと並んだ、リポジトリ内での配置場所
これらを確認しておくと、想定されている使い方や実装パターンとの整合が取りやすくなります。
FAQ
ブラウザベースのアバターツールではなく、ai-avatar-video を使うべきケースは?
アバター動画生成を CLI ベースでスクリプトから細かく制御したい場合 は、ai-avatar-video が適しています。Bash に慣れていて、AI アバター生成をパイプラインやビルドツール、バックエンドサービスに組み込みたい場合、このスキルは強力な選択肢です。
逆に、ブラウザ上でビジュアルにデザインし、ターミナルを使わずに完結させたい場合は、完全 Web ベースのプロダクトの方が便利なこともあります。
ai-avatar-video の利用には inference.sh CLI が必須ですか?
はい。ai-avatar-video は infsh CLI と、その背後にある inference.sh アプリを前提として設計されています。次の手順が必要です。
- 公式手順に従って CLI をインストールする。
infsh loginを実行してログインする。- クイックスタートで紹介しているように、
infsh app run ...コマンドで実行する。
CLI がなければ、ai-avatar-video が依存しているモデルを呼び出すことができません。
どのモデルから試すのがよいですか?
多くのユースケースでは、OmniHuman 1.5(bytedance/omnihuman-1-5)から始めるとよいでしょう。複数キャラクター対応 かつ 高品質 として位置づけられています。
状況に応じて、次のように使い分けることもできます。
- OmniHuman 1.0: よりシンプルな単一キャラクターのアバターで十分な場合。
- Fabric 1.0: 画像が自然にしゃべる「image talks」スタイルを試したい場合。
- PixVerse Lipsync: とにかくリップシンクの挙動を重視したい場合。
いくつかのクリップで比較し、見た目やタイミングが要件に合うアプリを選んでください。
どのような入力画像が最も適していますか?
詳細は各アプリに依存しますが、一般的には次のような画像ほど結果が良くなります。
- 正面を向いたはっきりしたポートレート
- 顔の輪郭や表情がわかる十分なライティング
- 影や物体などによる隠れが少ない、遮蔽物の少ない画像
スタジオで撮影したヘッドショットに近いクオリティの画像ほど、アバターの動きやリップシンクが自然になりやすくなります。
このスキルで SNS やマーケティング動画制作を自動化できますか?
はい。ai-avatar-video は次のような用途に適しています。
- 定期的なマーケティングアップデートを AI プレゼンター動画として生成
- 台本から生成した音声を使い、SNS 向けトーキングヘッドクリップを作成
- 別の CLI ツールと組み合わせて、リサイズ、字幕付与、アップロードまで自動化
Bash やお好みのオートメーションツールを使ってフロー全体をオーケストレーションし、その中のアバター生成ステップとしてこのスキルを組み込めます。
ai-avatar-video はフル機能の動画編集ツールですか?
いいえ。ai-avatar-video は、画像 + 音声から inference.sh アプリを利用して AI アバター/トーキングヘッドのセグメントを生成すること に特化しています。ノンリニア編集ソフトの代替ではありません。
本格的な動画制作では、生成された動画をタイムライン上の 1 つの素材として扱い、カット、トランジション、タイトル、エフェクトといった加工は、お使いの動画編集ソフトで行ってください。
スキル定義はどこで確認・編集できますか?
このスキルは、inferen-sh/skills リポジトリ内の次の場所にあります。
tools/video/ai-avatar-video
メインの説明とクイックスタートは SKILL.md に記載されています。リポジトリのディレクトリ構造を辿ることで、このスキルが他の動画向け CLI ツール群の中でどのように位置付けられているかを把握できます。
