I

ai-voice-cloning

par inferen-sh

ai-voice-cloning est une compétence basée sur inference.sh pour la génération de voix par IA, le text-to-speech et le clonage de voix depuis la CLI. Elle encapsule les modèles ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs et VibeVoice pour une parole naturelle, des narrations multi-voix et des transformations de voix pour des projets audio et vidéo.

Étoiles0
Favoris0
Commentaires0
Ajouté27 mars 2026
CatégorieVoice Generation
Commande d’installation
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
Vue d’ensemble

Vue d’ensemble

Qu’est-ce que ai-voice-cloning ?

ai-voice-cloning est une compétence de génération et de clonage de voix par IA orientée CLI, construite sur la plateforme inference.sh. Elle vous permet d’appeler depuis la ligne de commande des modèles de text-to-speech et de transformation de voix, notamment ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs et VibeVoice.

La compétence est définie dans le dépôt inferen-sh/skills et conçue pour être intégrée dans des workflows d’agents capables d’appeler Bash via infsh (la CLI inference.sh). Elle se concentre sur la génération de voix naturelles et la transformation d’enregistrements existants, plutôt que sur l’entraînement de modèles ou la gestion de jeux de données.

Capacités principales

  • Text-to-speech (TTS) depuis la CLI avec infsh app run ...
  • Plusieurs modèles de voix IA au même endroit (par ex. elevenlabs/tts, infsh/kokoro-tts)
  • Clonage / modification de voix pour des enregistrements existants via ElevenLabs Voice Changer
  • Prise en charge de nombreuses voix et langues (via les modèles ElevenLabs, selon la description amont)
  • Narration longue durée adaptée aux voiceovers, livres audio et podcasts
  • Lecture conversationnelle et expressive avec des modèles optimisés pour une parole naturelle

Comme ai-voice-cloning est une définition de compétence et non une application autonome, vous interagissez avec elle via la CLI inference.sh et tout agent ou outil autorisé à exécuter des commandes Bash.

À qui s’adresse ai-voice-cloning ?

Cette compétence est particulièrement adaptée si vous :

  • Travaillez sur de l’audio ou de la vidéo et avez besoin d’une génération de voix rapide et scriptable
  • Développez des agents IA, CLIs ou automatisations qui doivent parler ou narrer
  • Produisez des voiceovers, vidéos explicatives, tutoriels ou formations vidéo
  • Souhaitez des voix de qualité ElevenLabs et d’autres modèles TTS spécialisés derrière une seule CLI
  • Préférez des workflows en ligne de commande aux interfaces web

Elle est moins adaptée si vous :

  • Avez besoin d’une interface purement graphique, sans utilisation de la CLI
  • Voulez entraîner des modèles personnalisés à partir de jeux de données audio bruts (non couvert par cette compétence)
  • Exigez un fonctionnement dans le navigateur ou sur l’appareil, sans appel au service inference.sh

Cas d’usage typiques

  • Générer des pistes de narration pour des vidéos YouTube ou marketing
  • Créer des livres audio ou podcasts à partir de scripts texte
  • Produire plusieurs voix de personnages pour des dialogues et conversations
  • Appliquer un changement de voix à des enregistrements existants avec ElevenLabs Voice Changer
  • Ajouter des prompts audio et voix système à des agents, bots et outils interactifs

Guide d’utilisation

1. Prérequis et options d’installation

Pour utiliser ai-voice-cloning, vous avez besoin :

  • D’un accès à la CLI inference.sh (infsh)
  • D’une connectivité réseau vers les API inference.sh
  • D’un environnement shell où les commandes Bash sont autorisées

Vous pouvez intégrer la compétence dans votre environnement d’agent avec :

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Cette commande récupère la définition de compétence depuis inferen-sh/skills et l’enregistre pour que votre agent puisse appeler les outils associés (notamment Bash avec infsh).

Pour une utilisation directe en CLI en dehors d’un agent, installez la CLI inference.sh elle-même. Le fichier SKILL.md de la compétence renvoie vers les instructions d’installation de la CLI à :

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Suivez ce document pour installer infsh sur votre système.

2. Se connecter à inference.sh

Une fois infsh installé, authentifiez-vous :

infsh login

Suivez les instructions pour vous connecter ou configurer vos identifiants, comme décrit dans le guide d’installation de la CLI.

3. Démarrage rapide : générer de la voix avec Kokoro TTS

Le SKILL.md fournit un exemple simple avec Kokoro TTS. Après vous être connecté, vous pouvez générer une voix avec :

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Ce que fait cette commande :

  • Appelle l’application infsh/kokoro-tts
  • Envoie un JSON contenant un prompt (le texte à lire) et un choix de voice
  • Produit en sortie une voix de synthèse (voir la documentation de la CLI pour les chemins de sortie ou le streaming)

Vous pouvez adapter ce modèle à différents prompts et voix prises en charge.

4. Utiliser d’autres modèles (ElevenLabs, DIA, etc.)

Le SKILL.md liste les modèles disponibles dans un tableau Available Models. D’après l’extrait visible, vous pouvez vous attendre à des entrées du type :

  • ElevenLabs TTS – App ID : elevenlabs/tts
  • ElevenLabs Voice Changer – App ID : elevenlabs/voice-changer
  • Kokoro TTS – App ID : infsh/kokoro-tts
  • DIA – App ID commençant par infsh/dia-...
  • Autres modèles comme Chatterbox, Higgs et VibeVoice, mentionnés dans la description de la compétence

Pour appeler une autre app, modifiez l’App ID dans votre commande CLI. Par exemple, un modèle typique pour le TTS avec ElevenLabs pourrait ressembler à :

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Consultez la documentation du dépôt et les README spécifiques à chaque modèle (s’ils existent) pour confirmer le schéma d’entrée exact, car les modèles peuvent utiliser des champs différents comme prompt, text ou voice_id.

5. Changement / clonage de voix avec ElevenLabs Voice Changer

La description de la compétence inclut explicitement ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) pour transformer des enregistrements existants. Un appel CLI typique :

  1. Référence un fichier audio en entrée (votre enregistrement d’origine)
  2. Spécifie une voix cible ou des réglages
  3. Produit un fichier audio transformé en sortie

Un modèle générique ressemblera à :

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Vérifiez la documentation de l’app inference.sh pour confirmer les champs exacts et les formats pris en charge.

6. Intégrer ai-voice-cloning dans des agents

Lorsque vous ajoutez ai-voice-cloning comme compétence avec npx skills add, une plateforme d’agent qui comprend le format inferen-sh/skills peut :

  • Voir que Bash (infsh *) est un outil autorisé
  • Utiliser les exemples et la description du SKILL.md comme guide
  • Générer automatiquement les commandes infsh app run ... appropriées pour créer ou transformer de l’audio

Pour ajuster le comportement dans votre agent :

  1. Ouvrez SKILL.md dans le répertoire tools/audio/ai-voice-cloning.
  2. Passez en revue les exemples, le tableau des modèles disponibles et les notes sur les cas d’usage.
  3. Ajoutez vos propres modèles de prompts, choix de voix ou étapes de post-traitement dans la configuration ou l’orchestrateur de votre agent.

7. Fichiers à examiner dans le dépôt

Pour comprendre plus finement comment la compétence est définie et comment l’utiliser :

  • tools/audio/ai-voice-cloning/SKILL.md – Description principale, démarrage rapide et liste des modèles
  • Documentation à la racine comme README.md et cli-install.md – Guide général d’inference.sh et de la configuration de la CLI

D’autres documents peuvent également être disponibles dans le dossier tools pour un contexte plus large sur les outils.


FAQ

ai-voice-cloning est-il une application autonome ou une définition de compétence ?

ai-voice-cloning est une définition de compétence au sein du dépôt inferen-sh/skills. Elle décrit comment un agent peut utiliser la CLI inference.sh (infsh) pour la génération et le clonage de voix par IA. Vous n’obtenez pas d’application avec interface graphique ; vous obtenez plutôt un moyen clair d’appeler des modèles TTS et de changement de voix depuis la ligne de commande ou depuis des workflows d’agents capables d’exécuter Bash.

De quoi ai-je besoin pour utiliser ai-voice-cloning ?

Vous avez besoin :

  • De la CLI inference.sh (infsh), installée et accessible dans votre shell
  • D’une authentification valide pour inference.sh (configurée via infsh login)
  • D’un environnement qui autorise les commandes Bash (par exemple un terminal local ou un runtime d’agent exposant Bash)

En option, si vous intégrez ceci dans une plateforme d’agents compatible avec le format skills, installez la compétence avec :

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Quels modèles de voix IA sont pris en charge ?

D’après la description de la compétence et le SKILL.md, ai-voice-cloning est conçu pour fonctionner avec plusieurs modèles disponibles via inference.sh, notamment :

  • ElevenLabs TTSelevenlabs/tts
  • ElevenLabs Voice Changerelevenlabs/voice-changer
  • Kokoro TTSinfsh/kokoro-tts
  • Apps TTS DIA (App IDs commençant par infsh/dia-...)
  • Des modèles supplémentaires comme Chatterbox, Higgs et VibeVoice mentionnés dans la description

Reportez-vous au tableau Available Models dans le SKILL.md et à la documentation inference.sh pour la liste complète et à jour, ainsi que leurs paramètres.

ai-voice-cloning gère-t-il la narration longue durée ?

Oui. La compétence est explicitement décrite comme adaptée à la narration longue durée et à des cas d’usage comme les livres audio, les podcasts et la narration de vidéos. Cela dit, les détails de gestion du long format (découpage, longueur maximale de texte, regroupement des segments, etc.) dépendent des limites de chaque modèle sous-jacent et du runtime inference.sh. Si vous prévoyez de traiter des scripts très longs, commencez par des sections plus courtes et consultez la documentation des modèles.

En quoi est-ce différent d’une utilisation directe d’ElevenLabs ou d’autres fournisseurs ?

ai-voice-cloning :

  • Utilise la CLI inference.sh comme interface unifiée
  • Vous permet d’alterner entre plusieurs modèles TTS et de changement de voix avec des commandes infsh app run ... similaires
  • S’intègre naturellement dans des compétences d’agent, scripts Bash et workflows automatisés

Si vous utilisez déjà l’API native d’un fournisseur, ai-voice-cloning peut rester intéressant lorsque vous souhaitez :

  • Une CLI unique qui abstrait plusieurs fournisseurs et modèles
  • Une intégration plus simple avec des frameworks d’agents qui comprennent le format skills

ai-voice-cloning prend-il en charge l’audio en streaming temps réel ?

L’extrait de SKILL.md se concentre sur des commandes de type batch (infsh app run ...) et ne décrit pas explicitement de comportement en streaming temps réel. Les options de streaming ou de faible latence dépendent des apps spécifiques sur inference.sh, pas de la compétence elle-même. Si le temps réel est important pour votre cas d’usage, consultez la documentation inference.sh des modèles que vous envisagez d’utiliser.

Quel format de sortie fournit ai-voice-cloning ?

Les formats de sortie (par ex. wav, mp3) et les modes de mise à disposition (fichiers locaux, URLs, etc.) sont déterminés par les apps inference.sh sous-jacentes comme infsh/kokoro-tts ou elevenlabs/tts. La compétence n’impose pas de format audio particulier ; elle définit simplement comment les agents peuvent appeler ces modèles. Consultez la documentation de chaque app ou lancez une commande de test pour observer le comportement par défaut.

Dans quels cas ai-voice-cloning n’est-il pas adapté ?

Vous devriez envisager une autre solution si :

  • Vous avez besoin d’un workflow sans CLI, entièrement dans le navigateur
  • Vous exigez un TTS hors ligne, sur l’appareil, sans appels à une API externe
  • Votre priorité est l’entraînement de modèles personnalisés à partir de grands jeux de données plutôt que l’utilisation de voix pré-entraînées

Dans ces cas, orientez-vous vers des stations audio (DAW) de bureau avec plugins TTS intégrés ou vers des bibliothèques TTS embarquées. Si votre priorité est une génération de voix IA scriptable et automatisée via CLI ou agents, ai-voice-cloning est un très bon candidat.

Où trouver plus d’informations sur la configuration et les options avancées ?

Commencez par :

  • tools/audio/ai-voice-cloning/SKILL.md dans le dépôt inferen-sh/skills
  • Le document d’installation de la CLI : cli-install.md référencé dans SKILL.md
  • Toute documentation spécifique aux modèles liée depuis inference.sh pour des apps comme infsh/kokoro-tts ou elevenlabs/tts

Ces ressources vous fourniront les dernières commandes d’exemple, listes de paramètres et notes d’utilisation, au-delà des modèles de démarrage rapide présentés ici.

Notes et avis

Aucune note pour le moment
Partagez votre avis
Connectez-vous pour laisser une note et un commentaire sur cet outil.
G
0/10000
Derniers avis
Enregistrement...