ai-video-generation
作成者 inferen-shinference.sh CLI 経由で Google Veo、Seedance、Wan、Grok など 40 以上のモデルを使って AI 動画を生成できます。text-to-video、image-to-video、lipsync、アバターアニメーション、動画のアップスケーリング、フォーリーサウンドに対応し、SNS クリップ、マーケティング動画、解説動画、プロダクトデモなどに活用できます。
概要
ai-video-generation とは?
ai-video-generation スキルは、エージェントを inference.sh CLI に接続し、Google Veo、Seedance、Wan、Grok など 40 以上の AI 動画モデルで動画の生成や編集ができるようにするものです。Bash 経由で CLI ツールを呼び出しながら、ショート動画・ロング動画の両方のアセットを作成・ブラッシュアップするワークフロー向けに設計されています。
このスキルでは、許可されたツールとして Bash(infsh *) が宣言されているため、エージェントは安全に infsh コマンドを実行して、AI 動画生成や関連する処理ステップをトリガーできます。
主な機能
基盤となるモデル群と infsh CLI を組み合わせることで、ai-video-generation は次のようなワークフローをサポートできます。
- Text-to-video (T2V): 自然言語プロンプトから動画クリップを完全レンダリング。
- Image-to-video (I2V): 静止画をアニメーションさせ、動きのあるシーケンスに変換。
- Lipsync & avatars: 音声に合わせて顔やキャラクターを動かし、トーキングヘッドやプレゼンター風コンテンツを生成(対応モデルのみ)。
- Video upscaling: 既存映像の解像度や画質を強化。
- Foley and audio: モデルが対応している場合に、サウンドトラックや環境音を追加・改善。
利用可能なモデル(スキル記述時点)は以下の通りです。
- Google Veo 3.1 / Veo 3 / Veo 3 Fast
- Seedance 1.5 Pro
- Wan 2.5
- Grok Imagine Video
- OmniHuman, Fabric, HunyuanVideo
このほかにも、inference.sh のアプリカタログ経由で多数のモデルにアクセスできます。
このスキルが向いているユーザー
ai-video-generation は次のようなニーズに適しています。
- SNS 向け動画(TikTok、Instagram Reels、YouTube Shorts、X、LinkedIn など)を AI 主導のビジュアルで作りたい。
- プロダクトティーザー、ローンチ動画、広告バリエーションなどのマーケティングアセットを制作したい。
- テキストプロンプトからシーン、UI の流れ、図解などを記述し、それを短い動画にする解説動画やチュートリアルを作りたい。
- AI アバタープレゼンターやトーキングヘッド形式のコンテンツをすばやくプロトタイプしたい。
- Web UI をポチポチ操作するのではなく、
infshCLI をプログラムから呼び出すエージェント主導のワークフローを構築したい。
一方で、次のような要件にはあまり向きません。
- タイムライン編集や手動キーフレームに特化した、完全 GUI ベースの動画エディタが欲しい。
- オンプレミスやオフライン環境で動画生成を行いたい(inference.sh はクラウドサービスです)。
- リアルタイム配信やライブ映像の出力を求めている。
ai-video-generation をスタックに組み込む方法
このスキルは主に 動画編集 や コンテンツマーケティング のワークフローに属します。例えば次のようなスキルやツールと組み合わせられます。
- 台本やプロンプトを作成するコピーライティング系スキル。
- フレームや参照用の静止画を生成し、それを image-to-video でアニメーションさせる画像生成スキル。
- 初回の AI レンダリング後に、ブランディング・字幕・配信オートメーションを追加するポストプロダクションツール。
インストール後、エージェントは次のように動作できます。
- プロンプトや絵コンテ(ストーリーボード)を下書きする。
infsh app run ...コマンドを使って動画クリップをレンダリングする。- クリエイティブブリーフに合うまでプロンプトを反復調整する。
使い方
1. ai-video-generation スキルをインストールする
Skills CLI を使って、このスキルを対応エージェント環境に追加するには、次のコマンドを実行します。
npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation
これにより、inferen-sh/skills リポジトリから ai-video-generation ツール定義が取得され、エージェントから Bash 経由で infsh CLI を呼び出せるようになります。
インストール後は、tools/video/ai-video-generation ディレクトリ内の SKILL.md ファイルを開き、このスキルが参照する詳細な説明やリンクを確認してください。
2. inference.sh CLI のインストールとログイン
このスキルは inference.sh CLI(infsh)に依存しています。リポジトリの SKILL.md から、以下のインストール手順へのリンクが案内されています。
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
記載された手順に従って、お使いのシステムに CLI をインストールしてください。インストール後、以下で認証します。
infsh login
エージェントに任せる前に、通常のシェルから問題なく実行できることを確認してください。エージェントも同じ infsh バイナリを Bash 経由で使用します。
3. クイックスタート: 最初の AI 動画を生成する
クイックスタートでは、Google Veo 3.1 Fast を使った動画生成を紹介しています。
# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'
エージェントワークフロー内では、アシスタントは次のように動きます。
- JSON 形式の
inputペイロード(例: プロンプト文、動画の長さ、アプリが対応していればスタイルオプションなど)を組み立てる。 - 許可された Bash ツールで
infsh app run ...コマンドを呼び出す。 - CLI のレスポンスを解析し、動画 URL や ID をユーザーに返す。
プロンプトはユースケースに合わせて自由に変更できます。例えば:
- プロダクトデモ:
"a rotating 3D render of a sleek wireless headset on a dark gradient background" - SNS ティーザー:
"fast-paced montage of city nightlife, neon lights, and skyscrapers" - 解説動画:
"minimal flat-style animation showing a phone app sending payments across the world"
4. モデルを選択・切り替えする
SKILL.md には、複数の モデルカテゴリ(例: Text-to-Video)が記載されています。各モデルには、infsh で使用する App ID が割り当てられています。
Text-to-Video の基本的な呼び出しパターンは次の通りです。
infsh app run <APP_ID> --input '{"prompt": "your description here"}'
スキルのモデル一覧に基づく例:
-
高品質かつオーディオ対応(対応モデルの場合):
infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}' -
フレーム補間付きの最高品質(Veo 3.1):
infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}' -
高速な試行錯誤用(Veo 3.1 Fast):
infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'
Image-to-video、lipsync、アバター、アップスケーリング向けモデルを使う場合は、リポジトリに記載されている各モデル固有の App ID を参照し、それに合わせて --input の JSON フィールドを調整してください(例: 選択したアプリの仕様に応じて image_url、video_url、audio_url などを含める)。
5. エージェントのプロンプトやワークフローに組み込む
ai-video-generation をエージェントシステムに組み込む際は、次のポイントを押さえてください。
- システムプロンプトでツールを説明する: エージェントに対し、
infsh app run経由で動画生成ができ、Veo、Seedance、Wan などのモデルを切り替えられることを明示します。 - 構造化入力を促す: CLI 用の JSON 入力を明確に組み立てるよう指示し、プロンプト、動画尺、スタイルなど、モデルが対応するフィールドを含めるようにします。
- 長時間処理を前提に設計する: 動画生成はテキスト生成より時間がかかる場合があります。進行状況メッセージやポーリングなど、UX 側でそれを考慮した設計にします。
- 出力のポストプロセス: CLI が返した URL やファイル ID を、プロジェクトノートやマーケティングブリーフ、後続の自動処理ステップなどに書き込むよう、エージェントに指示できます。
6. このスキルが適さないケース
次のような場合は、別のソリューションを検討した方がよいでしょう。
- 対象環境に CLI をインストール・利用できない。
- 外部 API が禁止されている厳格なオンプレミス環境での計算が必要。
- 既存動画の簡単なトリミングや編集だけが必要で、AI 生成自体は不要。
その場合は、クラウドの AI 生成スタックではなく、ピュアな動画編集スキルやデスクトップ NLE との連携を優先してください。
FAQ
ai-video-generation をインストールすると、実際には何が入りますか?
ai-video-generation スキルは、inferen-sh/skills リポジトリからメタデータとツール設定をインストールし、エージェントが infsh CLI を使って AI 動画生成を呼び出せるようにします。infsh バイナリやモデル自体はインストール されません。SKILL.md に記載された手順に従い、inference.sh CLI は別途インストールする必要があります。
ai-video-generation を使うには inference.sh のアカウントが必要ですか?
はい。クイックスタートでは infsh login を実行しますが、これは inference.sh の有効な認証情報が必須です。アカウントとログインがない場合、このスキル経由で呼び出す infsh app run ... コマンドは失敗します。
このスキルで利用できる AI 動画モデルはどれですか?
スキルの説明には、Google Veo 3.1、Veo 3、Veo 3 Fast、Seedance 1.5 Pro、Wan 2.5、Grok Imagine Video、OmniHuman、Fabric、HunyuanVideo など複数の対応アプリが記載されています。このほかにも inference.sh 経由で数多くのモデルにアクセスできます。正確な対応リストや各種パラメータは inference.sh のカタログ側で管理されており、随時更新される可能性があります。
Text-to-video だけでなく、image-to-video や lipsync もできますか?
スキル説明によると、ai-video-generation は text-to-video、image-to-video、lipsync、avatar animation、video upscaling、foley sound に対応しています。これらの機能を備えたモデルを選び、infsh 経由で利用すれば実行可能です。必要な入力(画像・音声・動画 URL など)の詳細は、inference.sh 上の各アプリのドキュメントを確認してください。
動画の長さ、アスペクト比、スタイルはどのように制御できますか?
具体的に使用できる制御パラメータは、inference.sh 上での各モデルの API 仕様に依存します。このスキル自体は、CLI とエージェントの接続にフォーカスしており、共通スキーマを強制するものではありません。尺、アスペクト比、スタイルを調整したい場合は、利用中の App ID がサポートするフィールドを --input の JSON に渡してください。最新のオプションは、モデルごとの inference.sh アプリドキュメントを参照してください。
生成された動画はどこに保存されますか?
このスキルは inference.sh CLI を利用しており、CLI からは結果の URL や ID などの情報が返されます。保存場所や保持期間はスキルではなく inference.sh 側で管理されます。一般的には、ダウンロードや CMS への埋め込み、後続ツールへの受け渡しに利用できるリンクや参照情報が返ってきます。
ai-video-generation は CI/CD やヘッドレス環境でも動作しますか?
はい。環境に infsh CLI をインストール・認証でき、エージェント実行環境から Bash コマンドを叩けるのであれば利用可能です。これにより、マーケティング動画の一括生成、SNS コンテンツのバリエーション生成、自動プレビュークリップの作成などをパイプラインの一部としてスクリプト化できます。
ai-video-generation は従来型の動画編集用途にも向いていますか?
ai-video-generation は、主に AI で動画を生成・変換したい場合 に適したスキルです。既存素材の細かな編集(マルチトラックのタイムライン、手動カット、複雑なトランジションなど)には、従来型の動画編集ソフトが必要になります。ただし、AI でベースとなるクリップを生成し、その後 NLE で仕上げるといった形で、このスキルを従来ワークフローと組み合わせることは可能です。
後からスキルをアップデートまたは削除するには?
インストール時と同じ Skills CLI で管理します。環境がサポートしている場合は、該当する skills コマンド(例: remove や update のサブコマンド)を実行してください。スキルを削除しても infsh CLI 自体はアンインストールされず、エージェントから ai-video-generation の連携が外れるだけです。
