ai-video-generation
par inferen-shGénérez des vidéos IA avec Google Veo, Seedance, Wan, Grok et plus de 40 modèles via la CLI inference.sh. Prend en charge le text-to-video, image-to-video, lipsync, animation d’avatar, upscaling vidéo et bruitages (foley) pour des formats social media, contenus marketing, vidéos explicatives et démos produit.
Vue d’ensemble
Qu’est-ce que ai-video-generation ?
La skill ai-video-generation connecte votre agent à la CLI inference.sh afin qu’il puisse générer et éditer des vidéos avec Google Veo, Seedance, Wan, Grok et plus de 40 modèles de vidéo IA. Elle est conçue pour les workflows où un assistant IA doit appeler un outil CLI (via Bash) pour créer et affiner des vidéos courtes ou longues.
La skill déclare actuellement *Bash(infsh ) comme unique outil autorisé, ce qui signifie que les agents peuvent exécuter en toute sécurité des commandes infsh pour lancer la génération vidéo IA et les traitements associés.
Capacités principales
En s’appuyant sur les modèles disponibles et la CLI infsh, ai-video-generation peut orchestrer des workflows tels que :
- Text-to-video (T2V) : Transformer des prompts en langage naturel en clips vidéo entièrement rendus.
- Image-to-video (I2V) : Animer une image fixe en séquence animée.
- Lipsync & avatars : Animer des visages et personnages à partir d’un audio pour créer des formats « talking head » ou présentateur (lorsque le modèle choisi le permet).
- Upscaling vidéo : Améliorer la résolution et la qualité de vidéos existantes.
- Bruitages et audio : Ajouter ou optimiser les bandes-son et l’ambiance sonore lorsque le modèle les prend en charge.
Les modèles disponibles (tels que décrits dans la skill) incluent notamment :
- Google Veo 3.1 / Veo 3 / Veo 3 Fast
- Seedance 1.5 Pro
- Wan 2.5
- Grok Imagine Video
- OmniHuman, Fabric, HunyuanVideo
et de nombreux autres via le catalogue d’apps inference.sh.
À qui s’adresse cette skill ?
ai-video-generation est particulièrement adaptée si vous :
- Produisez des vidéos pour les réseaux sociaux (TikTok, Instagram Reels, YouTube Shorts, X, LinkedIn) et souhaitez des visuels pensés IA dès le départ.
- Créez des assets marketing comme des teasers produit, vidéos de lancement et variantes de publicités.
- Réalisez des vidéos explicatives et tutoriels où des prompts texte décrivent les scènes, parcours UI ou schémas qui deviennent des vidéos courtes.
- Devez prototyper rapidement des présentateurs IA ou du contenu de type talking head.
- Voulez un workflow piloté par agent qui appelle de façon programmatique la CLI
infshplutôt que de passer par une interface web.
Elle est moins adaptée si vous avez besoin :
- D’un éditeur purement graphique avec timeline et keyframing manuel.
- De génération vidéo on-premise ou hors ligne (inference.sh est un service cloud).
- De streaming temps réel ou de sortie vidéo live.
Place de ai-video-generation dans votre stack
Cette skill s’intègre principalement dans les workflows de montage vidéo et de content marketing. Vous pouvez la combiner avec :
- Des skills de rédaction qui génèrent scripts et prompts.
- Des skills de génération d’images qui produisent des frames ou images de référence, ensuite animées via image-to-video.
- Des outils de post-production qui ajoutent branding, sous-titres et automatisations de diffusion après le rendu IA initial.
Une fois installée, votre agent peut :
- Rédiger des prompts et storyboards.
- Utiliser des commandes
infsh app run ...pour rendre des clips vidéo. - Itérer sur le prompt jusqu’à ce que le résultat corresponde à votre brief créatif.
Comment utiliser
1. Installer la skill ai-video-generation
Pour ajouter cette skill à un environnement d’agent compatible via la Skills CLI :
npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation
Cela récupère la définition de l’outil ai-video-generation depuis le dépôt inferen-sh/skills et la met à disposition de votre agent, qui pourra ainsi appeler la CLI infsh via Bash.
Après l’installation, ouvrez le fichier SKILL.md dans le répertoire tools/video/ai-video-generation pour consulter la description intégrée et les liens utilisés par cette skill.
2. Installer et se connecter à la CLI inference.sh
La skill dépend de la CLI inference.sh (infsh). Le fichier SKILL.md du dépôt renvoie vers les instructions d’installation à l’adresse :
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Suivez ces étapes pour installer la CLI sur votre système. Une fois l’installation terminée, authentifiez-vous :
infsh login
Assurez-vous que cette commande fonctionne dans un shell normal avant de compter sur l’agent. L’agent utilisera le même binaire infsh via Bash.
3. Démarrage rapide : générer votre première vidéo IA
Le guide de démarrage rapide de la skill montre comment générer une vidéo avec Google Veo 3.1 Fast :
# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'
Dans un workflow avec agent, votre assistant va :
- Composer le payload JSON
input(par exemple : texte du prompt, durée, options de style si l’app les supporte). - Appeler l’outil Bash autorisé avec une commande
infsh app run .... - Analyser la réponse de la CLI pour vous renvoyer les URLs ou IDs vidéo.
Vous pouvez adapter le prompt à votre cas d’usage, par exemple :
- Démo produit :
"a rotating 3D render of a sleek wireless headset on a dark gradient background" - Teaser social :
"fast-paced montage of city nightlife, neon lights, and skyscrapers" - Vidéo explicative :
"minimal flat-style animation showing a phone app sending payments across the world"
4. Choisir et basculer entre les modèles
Le fichier SKILL.md documente plusieurs catégories de modèles (par exemple, Text-to-Video). Chaque modèle possède un App ID utilisé par infsh.
Pour le text-to-video, le schéma général est :
infsh app run <APP_ID> --input '{"prompt": "your description here"}'
Exemples basés sur la liste de modèles de la skill :
-
Haute qualité avec audio (si disponible) :
infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}' -
Meilleure qualité avec interpolation de frames (Veo 3.1) :
infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}' -
Itérations rapides (Veo 3.1 Fast) :
infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'
Pour les modèles image-to-video, lipsync, avatar ou upscaling, utilisez les App IDs spécifiques documentés dans le dépôt et adaptez les champs JSON --input en conséquence (par exemple, en incluant un image_url, video_url ou audio_url selon les besoins de l’app choisie).
5. Intégrer la skill dans les prompts et workflows de votre agent
Lors de l’intégration de ai-video-generation dans votre système d’agent :
- Décrivez l’outil dans les prompts système : Indiquez à l’agent qu’il peut générer des vidéos via
infsh app runet que plusieurs options de modèles sont disponibles (Veo, Seedance, Wan, etc.). - Encouragez les entrées structurées : Demandez à l’agent de construire des entrées JSON explicites pour la CLI, avec des champs pour le prompt, la durée et le style lorsque c’est pris en charge.
- Anticipez les opérations longues : La génération vidéo peut être plus lente que les complétions texte. Concevez votre UX en conséquence (messages de progression, polling, etc.).
- Post-traitez les sorties : Une fois que la CLI renvoie des URLs ou IDs de fichiers, l’agent peut les intégrer dans des notes de projet, briefs marketing ou étapes d’automatisation en aval.
6. Quand cette skill n’est pas la mieux adaptée
Vous aurez peut-être intérêt à choisir une autre solution si :
- Vous ne pouvez pas installer ou utiliser une CLI dans l’environnement cible.
- Votre workflow impose un computing strictement on-prem, sans appel à des API externes.
- Vous avez seulement besoin de fonctions basiques de découpe ou d’édition sur des vidéos existantes, sans génération IA.
Dans ces cas, privilégiez des skills axées sur le montage vidéo pur ou des intégrations avec des NLE desktop plutôt qu’une stack de génération IA cloud.
FAQ
Qu’est-ce que ai-video-generation installe concrètement ?
La skill ai-video-generation installe des métadonnées et une configuration d’outils depuis le dépôt inferen-sh/skills, afin que votre agent sache comment appeler la CLI infsh pour la génération vidéo IA. Elle n’installe pas elle-même le binaire infsh ni aucun modèle. Vous devez installer la CLI inference.sh séparément en suivant les instructions référencées dans SKILL.md.
Ai-je besoin d’un compte inference.sh pour utiliser ai-video-generation ?
Oui. Le démarrage rapide utilise explicitement infsh login, qui nécessite des identifiants valides pour inference.sh. Sans compte ni connexion, les commandes infsh app run ... invoquées par la skill échoueront.
Quels modèles de vidéo IA puis-je utiliser avec cette skill ?
La description de la skill liste plusieurs apps supportées, notamment Google Veo 3.1, Veo 3, Veo 3 Fast, Seedance 1.5 Pro, Wan 2.5, Grok Imagine Video, OmniHuman, Fabric et HunyuanVideo, ainsi que de nombreux autres modèles accessibles via inference.sh. La liste exacte et les paramètres sont gérés dans le catalogue inference.sh et peuvent évoluer dans le temps.
Puis-je faire de l’image-to-video et du lipsync, ou seulement du text-to-video ?
Selon la description de la skill, ai-video-generation prend en charge text-to-video, image-to-video, lipsync, animation d’avatar, upscaling vidéo et foley sound, à condition d’utiliser des modèles qui exposent ces fonctionnalités via infsh. Consultez la documentation de l’app concernée sur inference.sh pour connaître les entrées requises (par exemple, URLs d’image, d’audio ou de vidéo).
Comment contrôler la durée, le format (aspect ratio) ou le style de la vidéo ?
Les paramètres de contrôle disponibles dépendent de la surface d’API du modèle choisi dans inference.sh. La skill se concentre sur le raccordement de la CLI à votre agent, sans imposer de schéma unique. Pour ajuster la durée, le format ou le style, passez les champs supportés par l’App ID que vous utilisez dans le JSON --input. Référez-vous à la documentation inference.sh de chaque modèle pour connaître les options à jour.
Où sont stockées les vidéos générées ?
La skill utilise la CLI inference.sh, qui renvoie des informations comme des URLs ou IDs de résultats. L’emplacement de stockage et la durée de rétention sont gérés par inference.sh, pas par la skill elle-même. En général, vous recevez un lien ou un identifiant que vous pouvez télécharger, intégrer à un CMS ou transmettre à d’autres outils.
Puis-je exécuter ai-video-generation dans un environnement CI/CD ou headless ?
Oui, tant que l’environnement peut installer et authentifier la CLI infsh et que le runtime de votre agent peut exécuter des commandes Bash. Cela permet, par exemple, de scénariser de la génération de vidéos marketing en masse, des variantes de contenus social media ou des previews automatisées dans une pipeline.
ai-video-generation est-elle un bon choix pour du montage vidéo traditionnel ?
Utilisez ai-video-generation surtout si vous cherchez à générer ou transformer des vidéos via l’IA. Pour un montage fin sur des rushs existants (timelines multi-pistes, coupes manuelles, transitions complexes), vous aurez toujours besoin d’un éditeur vidéo classique. Vous pouvez toutefois combiner cette skill avec un montage traditionnel en générant des clips de base avec l’IA, puis en les peaufinant dans votre NLE.
Comment mettre à jour ou supprimer la skill par la suite ?
Vous gérez l’installation et la suppression avec la même Skills CLI que celle utilisée pour l’ajout. Exécutez la commande skills appropriée (par exemple une sous-commande de remove ou update, si elle est supportée dans votre environnement). Supprimer la skill ne désinstalle pas la CLI infsh ; cela retire uniquement l’intégration ai-video-generation de votre agent.
