ai-avatar-video
par inferen-shGénérez des vidéos d’avatar IA et de « talking head » à partir d’une image et d’une piste audio avec la CLI inference.sh. ai-avatar-video encapsule les apps OmniHuman, Fabric et PixVerse Lipsync pour créer des avatars pilotés par l’audio, des vidéos lipsync et des présentateurs virtuels, idéal pour les workflows marketing, d’explication et de contenu social.
Vue d’ensemble
Qu’est-ce que ai-avatar-video ?
ai-avatar-video est une skill orientée CLI pour créer des avatars IA et des vidéos de talking head via la plateforme inference.sh. Elle vous permet d’envoyer une image et un fichier audio à des apps vidéo préconfigurées (OmniHuman, Fabric, PixVerse Lipsync) et de recevoir une vidéo rendue où l’avatar parle et synchronise ses lèvres avec votre audio.
Cette skill est conçue pour des workflows basés sur Bash et utilise la CLI infsh en interne.
Capacités principales
- Génération de talking head IA à partir d’une simple image portrait
- Avatars pilotés par l’audio : associez une voix off MP3 ou un autre audio supporté à un humain numérique
- Vidéos lipsync avec des modèles dédiés à la synchronisation labiale
- Présentateurs virtuels et présentateurs IA pour des vidéos explicatives, des visites produit ou des annonces
- Choix de modèles via les apps inference.sh :
- OmniHuman 1.5 – multi-personnage, meilleure qualité
- OmniHuman 1.0 – avatar mono-personnage
- Fabric 1.0 – lipsync « image talks »
- PixVerse Lipsync – génération de lipsync ciblée
À qui s’adresse ai-avatar-video ?
ai-avatar-video est particulièrement adapté si vous :
- Produisez des vidéos marketing, des mini-promos ou du contenu pour les réseaux sociaux
- Avez besoin de clips avec un porte-parole IA ou un présentateur virtuel sans faire appel à des comédiens
- Souhaitez prototyper des humains numériques ou des influenceurs virtuels à partir d’images fixes
- Préférez la CLI et l’automatisation (Bash, scripts, pipelines CI) aux outils web manuels
Ce n’est pas l’option idéale si vous :
- Avez besoin d’un éditeur vidéo complet (timeline, effets, montage multi-pistes)
- Exigez un workflow entièrement hors ligne sans appel à des API externes
- Cherchez une solution 100 % GUI plutôt qu’un outil en ligne de commande
Fonctionnement en un coup d’œil
- Installez et connectez-vous à la CLI
infsh. - Choisissez un modèle (par ex.
bytedance/omnihuman-1-5). - Fournissez un
image_urlet unaudio_urlau format JSON. - Exécutez
infsh app run ...et téléchargez la vidéo générée.
ai-avatar-video se concentre sur l’étape de génération vidéo et peut s’intégrer dans des pipelines d’automatisation ou de post-production plus larges.
Comment utiliser
Installation et prérequis
1. Installer la skill
Utilisez la CLI skills pour ajouter la skill à votre environnement :
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
Cette commande récupère la définition de la skill ai-avatar-video depuis le dépôt inferen-sh/skills, sous tools/video/ai-avatar-video.
2. Installer la CLI inference.sh (infsh)
ai-avatar-video suppose que la CLI infsh est installée et disponible dans votre shell. Suivez les instructions officielles :
- Guide d’installation de la CLI :
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Après l’installation, connectez-vous :
infsh login
Une procédure d’authentification vous guidera afin que la CLI puisse appeler les apps inference.sh.
Workflow de base : créer une vidéo d’avatar IA
1. Préparer vos médias
- Image : une image portrait nette, de face, hébergée à une URL accessible, par ex.
https://portrait.jpg. - Audio : un fichier de voix ou de voix off (par ex. MP3) hébergé à une URL accessible, par ex.
https://speech.mp3.
Vous pouvez utiliser du stockage objet, un serveur web ou tout hébergement fournissant des URLs directes.
2. Lancer OmniHuman 1.5 pour un avatar de haute qualité
Utilisez l’app bytedance/omnihuman-1-5 pour des talking heads multi-personnage et de meilleure qualité :
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
La CLI traite la requête et affiche les informations de sortie, incluant généralement une URL où télécharger la vidéo générée.
3. Tester des modèles alternatifs
Modifiez l’ID de l’app pour explorer différents compromis.
OmniHuman 1.0 – avatar mono-personnage
infsh app run bytedance/omnihuman-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Fabric 1.0 – image talks avec lipsync
infsh app run falai/fabric-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
PixVerse Lipsync – génération de lipsync focalisée
infsh app run falai/pixverse-lipsync --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Choisissez l’app selon vos exigences de qualité et le style de rendu souhaité. Les options exactes et les sorties sont définies par chaque app inference.sh.
Intégrer ai-avatar-video dans vos workflows
Automatisation Bash et CLI
ai-avatar-video est pensé pour un usage Bash (infsh *), et s’intègre donc bien dans des scripts comme :
- Génération en batch de vidéos à partir d’une liste d’images et de voix off
- Tâches nocturnes produisant des vidéos marketing ou produit mises à jour
- Étapes CI/CD qui rendent des vidéos d’annonce de release lorsque vous taguez une version
Exemple de boucle (conceptuel) :
while read image audio; do
infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt
Combiner avec des outils de montage et de publication
La skill se concentre sur la génération du clip talking head. Vous pouvez ensuite :
- Importer la sortie dans un éditeur vidéo pour ajouter overlays, sous-titres ou B-roll
- Envoyer le clip vers des outils de planification pour les réseaux sociaux ou d’automatisation marketing
- Utiliser des skills complémentaires (si disponibles dans votre environnement) pour le sous-titrage ou le reformatage
Fichiers et structure à consulter
Après installation de la skill depuis le dépôt, les références utiles incluent :
SKILL.md– description principale, commandes de démarrage rapide et aperçu des modèlestools/video/ai-avatar-video/– emplacement dans le dépôt, à côté des autres outils vidéo
Consulter ces fichiers vous aidera à aligner votre implémentation sur les modes d’usage prévus.
FAQ
Quand utiliser ai-avatar-video plutôt que des outils d’avatar sur le web ?
Utilisez ai-avatar-video lorsque vous voulez un contrôle en ligne de commande, scriptable pour la génération de vidéos d’avatar. Si vous êtes à l’aise avec Bash et souhaitez brancher la création d’avatars IA dans des pipelines, des outils de build ou des services back-end, cette skill est bien adaptée.
Si vous préférez tout concevoir de manière visuelle dans le navigateur sans jamais toucher au terminal, un produit purement web sera probablement plus pratique.
Ai-je besoin de la CLI inference.sh pour utiliser ai-avatar-video ?
Oui. La skill est construite autour de la CLI infsh et des apps inference.sh sous-jacentes. Vous devez :
- Installer la CLI en suivant les instructions officielles.
- Exécuter
infsh login. - Utiliser les commandes
infsh app run ...comme dans le démarrage rapide.
Sans la CLI, ai-avatar-video ne peut pas appeler les modèles sur lesquels elle repose.
Quel modèle utiliser en premier ?
Pour la plupart des cas d’usage, commencez avec OmniHuman 1.5 (bytedance/omnihuman-1-5), indiqué comme multi-personnage et de meilleure qualité.
Vous pouvez privilégier d’autres modèles lorsque :
- OmniHuman 1.0 : vous avez seulement besoin d’un avatar plus simple, mono-personnage.
- Fabric 1.0 : vous voulez un style direct « image talks avec lipsync ».
- PixVerse Lipsync : vous êtes principalement concentré sur le comportement de lipsync.
Testez plusieurs clips pour voir quelle app correspond le mieux à vos attentes visuelles et de timing.
Quel type d’image d’entrée donne les meilleurs résultats ?
Même si les détails dépendent des apps sous-jacentes, vous obtiendrez généralement de meilleurs résultats avec :
- Un portrait clair, de face
- Un éclairage de qualité et des traits du visage bien visibles
- Peu d’éléments perturbateurs (pas d’ombres fortes ni d’objets occultant le visage)
Plus votre image d’entrée se rapproche d’un portrait studio propre, plus le mouvement de l’avatar et le lipsync auront tendance à paraître naturels.
Puis-je automatiser la production de vidéos marketing ou pour les réseaux sociaux avec cette skill ?
Oui. ai-avatar-video est bien adapté pour :
- Générer des mises à jour marketing récurrentes avec un présentateur IA
- Créer des clips talking head pour les réseaux sociaux à partir d’audios scriptés
- S’intégrer à d’autres outils CLI pour le redimensionnement, le sous-titrage ou l’upload
Vous pouvez orchestrer tout le flux en Bash ou avec votre outil d’automatisation préféré, en utilisant cette skill comme étape de génération d’avatar.
ai-avatar-video est-il un éditeur vidéo complet ?
Non. ai-avatar-video se concentre sur la génération de segments d’avatar IA / talking head à partir d’une image et d’un audio via les apps inference.sh. Il ne remplace pas un éditeur non-linéaire complet.
Pour des productions complètes, considérez la vidéo générée comme un élément de votre timeline de montage, et utilisez vos outils habituels pour les coupes, transitions, titrages et effets.
Où puis-je voir ou modifier la définition de la skill ?
La skill est disponible dans le dépôt inferen-sh/skills sous :
tools/video/ai-avatar-video
Ouvrez SKILL.md pour la description principale et le démarrage rapide. Vous pouvez parcourir l’arborescence du dépôt pour comprendre comment cette skill s’inscrit parmi les autres outils CLI pour les workflows vidéo.
