ai-avatar-video

作成者 inferen-sh

inference.sh CLI を使って、画像と音声トラックから AI アバター／トーキングヘッド動画を生成します。ai-avatar-video は OmniHuman、Fabric、PixVerse Lipsync といったアプリをラップし、音声駆動のアバター、リップシンク動画、バーチャルプレゼンターを作成できます。マーケティング動画、解説動画、SNS 向けコンテンツのワークフローに最適です。

スター0

お気に入り0

追加日2026年3月27日

カテゴリーVideo Editing

インストールコマンド

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Video Audio Marketing Social Media Automation Bash Cli

概要

ai-avatar-video とは？

ai-avatar-video は、inference.sh プラットフォームを利用して AI アバターやトーキングヘッド動画を作成する、CLI 中心のスキルです。画像と音声ファイルをあらかじめ用意された動画アプリ（OmniHuman、Fabric、PixVerse Lipsync）に送信すると、その音声に合わせて話し、口パクが同期したアバター動画が生成されます。

このスキルは Bash ベースのワークフロー向けに設計されており、内部的に infsh CLI を使用します。

主な機能

1 枚のポートレート画像からの AI トーキングヘッド生成
音声駆動アバター: ナレーション MP3 など対応音声をデジタルヒューマンにマッピング
専用リップシンクモデルを用いた リップシンク動画
解説動画、プロダクトツアー、告知などに使える バーチャルプレゼンター／AI プレゼンター
inference.sh アプリを利用した モデル選択:
- OmniHuman 1.5 – 複数キャラクター対応・高画質
- OmniHuman 1.0 – 単一キャラクターのアバター
- Fabric 1.0 – 「画像が話す」タイプのリップシンク
- PixVerse Lipsync – リップシンク特化の生成

ai-avatar-video が向いているユーザー

ai-avatar-video は、次のようなニーズに適しています。

マーケティング動画、短尺プロモーション、SNS コンテンツを制作している
タレントを起用せずに AI スポークスパーソン や バーチャルプレゼンター のクリップを作りたい
静止画から デジタルヒューマン やバーチャルインフルエンサーを素早く試作したい
手作業の Web ツールよりも、CLI や自動化（Bash、スクリプト、CI パイプライン）を好む

逆に、次のような場合にはあまり向いていません。

タイムライン、エフェクト、マルチトラック編集などを備えた本格的な動画編集ソフトが必要
外部 API を使わない、完全オフラインのワークフローが必須
コマンドラインではなく、GUI だけで完結するツールを求めている

動作イメージ

infsh CLI をインストールしてログインします。
モデル（例: bytedance/omnihuman-1-5）を選択します。
JSON で image_url と audio_url を指定します。
infsh app run ... を実行し、生成された動画をダウンロードします。

ai-avatar-video は 動画生成ステップに特化しており、より大きな自動化フローやポストプロダクションのパイプラインに組み込むことができます。

使い方

インストールと前提条件

1. スキルをインストールする

skills CLI を使って、スキルを環境に追加します。

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

このコマンドにより、inferen-sh/skills リポジトリの tools/video/ai-avatar-video から ai-avatar-video のスキル定義が取得されます。

2. inference.sh CLI（`infsh`）をインストールする

ai-avatar-video を使うには、infsh CLI がシェルから利用できる状態でインストールされている必要があります。公式手順に従って設定してください。

CLI インストールガイド: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

インストール後、次のコマンドでログインします。

infsh login

ガイドに従って認証を行うと、CLI から inference.sh の各アプリを呼び出せるようになります。

基本フロー: AI アバター動画を作成する

1. 素材を用意する

画像: 正面向きで顔がはっきり写ったポートレート画像を、アクセス可能な URL でホスティングします（例: https://portrait.jpg）。
音声: スピーチやナレーションの音声ファイル（例: MP3）を、同様に URL でホスティングします（例: https://speech.mp3）。

オブジェクトストレージ、Web サーバーなど、直接アクセスできる URL を提供できるホスティング方法であれば問題ありません。

2. 高品質なアバター用に OmniHuman 1.5 を実行する

マルチキャラクター対応かつ高品質なトーキングヘッドを生成するには、bytedance/omnihuman-1-5 アプリを利用します。

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

CLI がリクエストを処理し、通常は生成された動画をダウンロードできる URL などの出力情報が表示されます。

3. 別モデルも試してみる

アプリ ID を切り替えて、品質やスタイルの違いを比較できます。

OmniHuman 1.0 – 単一キャラクターのアバター

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – 画像が話すタイプのリップシンク

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – リップシンク特化

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

求める画質や出力スタイルに応じてアプリを選択してください。利用可能なオプションや出力仕様は、それぞれの inference.sh アプリ側で定義されています。

ai-avatar-video をワークフローに組み込む

Bash と CLI による自動化

ai-avatar-video は Bash（infsh 系コマンド） 利用を前提に設計されているため、次のようなスクリプトに組み込みやすくなっています。

画像とナレーションのリストから、動画を一括生成するバッチ処理
毎晩実行される、最新のマーケティング／プロダクト動画を生成する定期ジョブ
リリースタグ作成時に、リリース告知動画をレンダリングする CI/CD ステップ

概念的なループの例:

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

編集・配信ツールとの組み合わせ

このスキルは トーキングヘッドのクリップ生成 にフォーカスしています。その後は、次のようなツールと組み合わせて利用できます。

生成したクリップを動画編集ソフトに取り込み、テロップ、字幕、B ロールなどを追加
クリップを SNS 投稿管理ツールやマーケティングオートメーションに連携
環境に用意されている他のスキルと組み合わせて、字幕生成やフォーマット変換を実施

参考になるファイルとディレクトリ構成

リポジトリからスキルをインストールした後は、次のファイルやディレクトリが参考になります。

SKILL.md – 機能概要、クイックスタートコマンド、モデルの概要
tools/video/ai-avatar-video/ – 他の動画ツールと並んだ、リポジトリ内での配置場所

これらを確認しておくと、想定されている使い方や実装パターンとの整合が取りやすくなります。

FAQ

ブラウザベースのアバターツールではなく、ai-avatar-video を使うべきケースは？

アバター動画生成を CLI ベースでスクリプトから細かく制御したい場合 は、ai-avatar-video が適しています。Bash に慣れていて、AI アバター生成をパイプラインやビルドツール、バックエンドサービスに組み込みたい場合、このスキルは強力な選択肢です。

逆に、ブラウザ上でビジュアルにデザインし、ターミナルを使わずに完結させたい場合は、完全 Web ベースのプロダクトの方が便利なこともあります。

ai-avatar-video の利用には inference.sh CLI が必須ですか？

はい。ai-avatar-video は infsh CLI と、その背後にある inference.sh アプリを前提として設計されています。次の手順が必要です。

公式手順に従って CLI をインストールする。
infsh login を実行してログインする。
クイックスタートで紹介しているように、infsh app run ... コマンドで実行する。

CLI がなければ、ai-avatar-video が依存しているモデルを呼び出すことができません。

どのモデルから試すのがよいですか？

多くのユースケースでは、OmniHuman 1.5（bytedance/omnihuman-1-5）から始めるとよいでしょう。複数キャラクター対応 かつ 高品質 として位置づけられています。

状況に応じて、次のように使い分けることもできます。

OmniHuman 1.0: よりシンプルな単一キャラクターのアバターで十分な場合。
Fabric 1.0: 画像が自然にしゃべる「image talks」スタイルを試したい場合。
PixVerse Lipsync: とにかくリップシンクの挙動を重視したい場合。

いくつかのクリップで比較し、見た目やタイミングが要件に合うアプリを選んでください。

どのような入力画像が最も適していますか？

詳細は各アプリに依存しますが、一般的には次のような画像ほど結果が良くなります。

正面を向いたはっきりしたポートレート
顔の輪郭や表情がわかる十分なライティング
影や物体などによる隠れが少ない、遮蔽物の少ない画像

スタジオで撮影したヘッドショットに近いクオリティの画像ほど、アバターの動きやリップシンクが自然になりやすくなります。

はい。ai-avatar-video は次のような用途に適しています。

定期的なマーケティングアップデートを AI プレゼンター動画として生成
台本から生成した音声を使い、SNS 向けトーキングヘッドクリップを作成
別の CLI ツールと組み合わせて、リサイズ、字幕付与、アップロードまで自動化

Bash やお好みのオートメーションツールを使ってフロー全体をオーケストレーションし、その中のアバター生成ステップとしてこのスキルを組み込めます。

ai-avatar-video はフル機能の動画編集ツールですか？

いいえ。ai-avatar-video は、画像 + 音声から inference.sh アプリを利用して AI アバター／トーキングヘッドのセグメントを生成すること に特化しています。ノンリニア編集ソフトの代替ではありません。

本格的な動画制作では、生成された動画をタイムライン上の 1 つの素材として扱い、カット、トランジション、タイトル、エフェクトといった加工は、お使いの動画編集ソフトで行ってください。

スキル定義はどこで確認・編集できますか？

このスキルは、inferen-sh/skills リポジトリ内の次の場所にあります。

tools/video/ai-avatar-video

メインの説明とクイックスタートは SKILL.md に記載されています。リポジトリのディレクトリ構造を辿ることで、このスキルが他の動画向け CLI ツール群の中でどのように位置付けられているかを把握できます。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

agent-tools

by inferen-sh

agent-tools は、あなたのエージェント内で inference.sh の CLI を使えるようにし、1つの場所から 150 以上の AI アプリを実行できるようにします（画像生成、動画生成・編集、LLM、検索、3D、Twitter 自動化など）。FLUX、Veo、Gemini, Grok, Claude, Seedance, OmniHuman, Tavily, Exa, OpenRouter などを、GPU や複雑な個別インテグレーションを管理せずに、ひとつのワークフローランナーでまとめて扱いたい場合に最適です。

Workflow Automation

Favorites 0GitHub 0

ai-social-media-content

by inferen-sh

TikTok、Instagram、YouTube、X 向けの、AI を活用したソーシャルメディア用コンテンツ生成スキルです。inference.sh CLI を使って、FLUX、Veo、Seedance、Wan、Kokoro TTS、Claude などのモデルから、各プラットフォーム向けの動画、Reels、Shorts、サムネイル、画像、キャプション、ハッシュタグを生成できます。

Social Media

Favorites 0GitHub 0

ai-marketing-videos

by inferen-sh

AI 搭載の inference.sh CLI を使ってマーケティング動画を生成します。ai-marketing-videos を使うと、Veo、Seedance、Wan、FLUX、Kokoro voiceover などのモデルを用いて、Facebook、YouTube、Instagram、TikTok 向けのプロモーション動画、プロダクトデモ、解説動画、広告クリエイティブを作成できます。

Video Editing

Favorites 0GitHub 0

ai-video-generation

by inferen-sh

inference.sh CLI 経由で Google Veo、Seedance、Wan、Grok など 40 以上のモデルを使って AI 動画を生成できます。text-to-video、image-to-video、lipsync、アバターアニメーション、動画のアップスケーリング、フォーリーサウンドに対応し、SNS クリップ、マーケティング動画、解説動画、プロダクトデモなどに活用できます。

Video Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing は、inference.sh CLI を使って音声や動画を自動で吹き替え・翻訳し、元の話者の声質を保ったまま 29 言語に変換できるスキルです。既存コンテンツの多言語化をすばやく高品質に行いたい動画編集者、ポッドキャスター、ローカリゼーションチームに最適です。

Video Editing

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

inference.sh CLI を通じて ElevenLabs を利用し、テキストプロンプトから AI サウンドエフェクトを生成します。動画編集者、ゲーム開発者、ポッドキャスター、映像制作者、コンテンツクリエイターが、素早くロイヤリティフリーのサウンドデザインを行いたいときに最適です。テキストからの効果音生成、長さの調整、シネマティック／アンビエント／ゲーム向け SFX のためのプロンプトコントロールに対応しています。

Audio Editing

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

inference.sh CLI を使って、画像・動画・音声・テキスト系ツールをつなぐマルチステップの AI コンテンツパイプラインを設計・実行できます。ai-content-pipeline を使えば、「画像生成 → 動画にアニメーション化 → サウンドやボイスを追加 → YouTube や SNS、マーケティング向けに整形」といったワークフローを自動化できます。

Workflow Automation

Favorites 0GitHub 0

overdrive

by pbakaus

overdriveは、シェーダーや物理演算、高性能アニメーションなどの高度なブラウザ機能を活用し、フロントエンド開発者が視覚的に卓越したインターフェースを作れるようにします。標準的なUIの限界を超え、印象的なプロジェクトに最適です。

Frontend Development

Favorites 0GitHub 0

ai-avatar-video

概要

ai-avatar-video とは？

主な機能

ai-avatar-video が向いているユーザー

動作イメージ

使い方

インストールと前提条件

1. スキルをインストールする

2. inference.sh CLI（infsh）をインストールする

基本フロー: AI アバター動画を作成する

1. 素材を用意する

2. 高品質なアバター用に OmniHuman 1.5 を実行する

3. 別モデルも試してみる

ai-avatar-video をワークフローに組み込む

Bash と CLI による自動化

編集・配信ツールとの組み合わせ

参考になるファイルとディレクトリ構成

FAQ

ブラウザベースのアバターツールではなく、ai-avatar-video を使うべきケースは？

ai-avatar-video の利用には inference.sh CLI が必須ですか？

どのモデルから試すのがよいですか？

どのような入力画像が最も適していますか？

このスキルで SNS やマーケティング動画制作を自動化できますか？

ai-avatar-video はフル機能の動画編集ツールですか？

スキル定義はどこで確認・編集できますか？

評価とレビュー

2. inference.sh CLI（`infsh`）をインストールする