ai-voice-cloning

par inferen-sh

ai-voice-cloning est une compétence basée sur inference.sh pour la génération de voix par IA, le text-to-speech et le clonage de voix depuis la CLI. Elle encapsule les modèles ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs et VibeVoice pour une parole naturelle, des narrations multi-voix et des transformations de voix pour des projets audio et vidéo.

Étoiles0

Favoris0

Commentaires0

Ajouté27 mars 2026

CatégorieVoice Generation

Commande d’installation

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Audio Video Cli

Vue d’ensemble

Qu’est-ce que ai-voice-cloning ?

ai-voice-cloning est une compétence de génération et de clonage de voix par IA orientée CLI, construite sur la plateforme inference.sh. Elle vous permet d’appeler depuis la ligne de commande des modèles de text-to-speech et de transformation de voix, notamment ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs et VibeVoice.

La compétence est définie dans le dépôt inferen-sh/skills et conçue pour être intégrée dans des workflows d’agents capables d’appeler Bash via infsh (la CLI inference.sh). Elle se concentre sur la génération de voix naturelles et la transformation d’enregistrements existants, plutôt que sur l’entraînement de modèles ou la gestion de jeux de données.

Capacités principales

Text-to-speech (TTS) depuis la CLI avec infsh app run ...
Plusieurs modèles de voix IA au même endroit (par ex. elevenlabs/tts, infsh/kokoro-tts)
Clonage / modification de voix pour des enregistrements existants via ElevenLabs Voice Changer
Prise en charge de nombreuses voix et langues (via les modèles ElevenLabs, selon la description amont)
Narration longue durée adaptée aux voiceovers, livres audio et podcasts
Lecture conversationnelle et expressive avec des modèles optimisés pour une parole naturelle

Comme ai-voice-cloning est une définition de compétence et non une application autonome, vous interagissez avec elle via la CLI inference.sh et tout agent ou outil autorisé à exécuter des commandes Bash.

À qui s’adresse ai-voice-cloning ?

Cette compétence est particulièrement adaptée si vous :

Travaillez sur de l’audio ou de la vidéo et avez besoin d’une génération de voix rapide et scriptable
Développez des agents IA, CLIs ou automatisations qui doivent parler ou narrer
Produisez des voiceovers, vidéos explicatives, tutoriels ou formations vidéo
Souhaitez des voix de qualité ElevenLabs et d’autres modèles TTS spécialisés derrière une seule CLI
Préférez des workflows en ligne de commande aux interfaces web

Elle est moins adaptée si vous :

Avez besoin d’une interface purement graphique, sans utilisation de la CLI
Voulez entraîner des modèles personnalisés à partir de jeux de données audio bruts (non couvert par cette compétence)
Exigez un fonctionnement dans le navigateur ou sur l’appareil, sans appel au service inference.sh

Cas d’usage typiques

Générer des pistes de narration pour des vidéos YouTube ou marketing
Créer des livres audio ou podcasts à partir de scripts texte
Produire plusieurs voix de personnages pour des dialogues et conversations
Appliquer un changement de voix à des enregistrements existants avec ElevenLabs Voice Changer
Ajouter des prompts audio et voix système à des agents, bots et outils interactifs

Guide d’utilisation

1. Prérequis et options d’installation

Pour utiliser ai-voice-cloning, vous avez besoin :

D’un accès à la CLI inference.sh (infsh)
D’une connectivité réseau vers les API inference.sh
D’un environnement shell où les commandes Bash sont autorisées

Vous pouvez intégrer la compétence dans votre environnement d’agent avec :

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Cette commande récupère la définition de compétence depuis inferen-sh/skills et l’enregistre pour que votre agent puisse appeler les outils associés (notamment Bash avec infsh).

Pour une utilisation directe en CLI en dehors d’un agent, installez la CLI inference.sh elle-même. Le fichier SKILL.md de la compétence renvoie vers les instructions d’installation de la CLI à :

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Suivez ce document pour installer infsh sur votre système.

2. Se connecter à inference.sh

Une fois infsh installé, authentifiez-vous :

infsh login

Suivez les instructions pour vous connecter ou configurer vos identifiants, comme décrit dans le guide d’installation de la CLI.

3. Démarrage rapide : générer de la voix avec Kokoro TTS

Le SKILL.md fournit un exemple simple avec Kokoro TTS. Après vous être connecté, vous pouvez générer une voix avec :

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Ce que fait cette commande :

Appelle l’application infsh/kokoro-tts
Envoie un JSON contenant un prompt (le texte à lire) et un choix de voice
Produit en sortie une voix de synthèse (voir la documentation de la CLI pour les chemins de sortie ou le streaming)

Vous pouvez adapter ce modèle à différents prompts et voix prises en charge.

4. Utiliser d’autres modèles (ElevenLabs, DIA, etc.)

Le SKILL.md liste les modèles disponibles dans un tableau Available Models. D’après l’extrait visible, vous pouvez vous attendre à des entrées du type :

ElevenLabs TTS – App ID : elevenlabs/tts
ElevenLabs Voice Changer – App ID : elevenlabs/voice-changer
Kokoro TTS – App ID : infsh/kokoro-tts
DIA – App ID commençant par infsh/dia-...
Autres modèles comme Chatterbox, Higgs et VibeVoice, mentionnés dans la description de la compétence

Pour appeler une autre app, modifiez l’App ID dans votre commande CLI. Par exemple, un modèle typique pour le TTS avec ElevenLabs pourrait ressembler à :

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Consultez la documentation du dépôt et les README spécifiques à chaque modèle (s’ils existent) pour confirmer le schéma d’entrée exact, car les modèles peuvent utiliser des champs différents comme prompt, text ou voice_id.

5. Changement / clonage de voix avec ElevenLabs Voice Changer

La description de la compétence inclut explicitement ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) pour transformer des enregistrements existants. Un appel CLI typique :

Référence un fichier audio en entrée (votre enregistrement d’origine)
Spécifie une voix cible ou des réglages
Produit un fichier audio transformé en sortie

Un modèle générique ressemblera à :

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Vérifiez la documentation de l’app inference.sh pour confirmer les champs exacts et les formats pris en charge.

6. Intégrer ai-voice-cloning dans des agents

Lorsque vous ajoutez ai-voice-cloning comme compétence avec npx skills add, une plateforme d’agent qui comprend le format inferen-sh/skills peut :

Voir que Bash (infsh *) est un outil autorisé
Utiliser les exemples et la description du SKILL.md comme guide
Générer automatiquement les commandes infsh app run ... appropriées pour créer ou transformer de l’audio

Pour ajuster le comportement dans votre agent :

Ouvrez SKILL.md dans le répertoire tools/audio/ai-voice-cloning.
Passez en revue les exemples, le tableau des modèles disponibles et les notes sur les cas d’usage.
Ajoutez vos propres modèles de prompts, choix de voix ou étapes de post-traitement dans la configuration ou l’orchestrateur de votre agent.

7. Fichiers à examiner dans le dépôt

Pour comprendre plus finement comment la compétence est définie et comment l’utiliser :

tools/audio/ai-voice-cloning/SKILL.md – Description principale, démarrage rapide et liste des modèles
Documentation à la racine comme README.md et cli-install.md – Guide général d’inference.sh et de la configuration de la CLI

D’autres documents peuvent également être disponibles dans le dossier tools pour un contexte plus large sur les outils.

FAQ

ai-voice-cloning est-il une application autonome ou une définition de compétence ?

ai-voice-cloning est une définition de compétence au sein du dépôt inferen-sh/skills. Elle décrit comment un agent peut utiliser la CLI inference.sh (infsh) pour la génération et le clonage de voix par IA. Vous n’obtenez pas d’application avec interface graphique ; vous obtenez plutôt un moyen clair d’appeler des modèles TTS et de changement de voix depuis la ligne de commande ou depuis des workflows d’agents capables d’exécuter Bash.

De quoi ai-je besoin pour utiliser ai-voice-cloning ?

Vous avez besoin :

De la CLI inference.sh (infsh), installée et accessible dans votre shell
D’une authentification valide pour inference.sh (configurée via infsh login)
D’un environnement qui autorise les commandes Bash (par exemple un terminal local ou un runtime d’agent exposant Bash)

En option, si vous intégrez ceci dans une plateforme d’agents compatible avec le format skills, installez la compétence avec :

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Quels modèles de voix IA sont pris en charge ?

D’après la description de la compétence et le SKILL.md, ai-voice-cloning est conçu pour fonctionner avec plusieurs modèles disponibles via inference.sh, notamment :

ElevenLabs TTS – elevenlabs/tts
ElevenLabs Voice Changer – elevenlabs/voice-changer
Kokoro TTS – infsh/kokoro-tts
Apps TTS DIA (App IDs commençant par infsh/dia-...)
Des modèles supplémentaires comme Chatterbox, Higgs et VibeVoice mentionnés dans la description

Reportez-vous au tableau Available Models dans le SKILL.md et à la documentation inference.sh pour la liste complète et à jour, ainsi que leurs paramètres.

ai-voice-cloning gère-t-il la narration longue durée ?

Oui. La compétence est explicitement décrite comme adaptée à la narration longue durée et à des cas d’usage comme les livres audio, les podcasts et la narration de vidéos. Cela dit, les détails de gestion du long format (découpage, longueur maximale de texte, regroupement des segments, etc.) dépendent des limites de chaque modèle sous-jacent et du runtime inference.sh. Si vous prévoyez de traiter des scripts très longs, commencez par des sections plus courtes et consultez la documentation des modèles.

En quoi est-ce différent d’une utilisation directe d’ElevenLabs ou d’autres fournisseurs ?

ai-voice-cloning :

Utilise la CLI inference.sh comme interface unifiée
Vous permet d’alterner entre plusieurs modèles TTS et de changement de voix avec des commandes infsh app run ... similaires
S’intègre naturellement dans des compétences d’agent, scripts Bash et workflows automatisés

Si vous utilisez déjà l’API native d’un fournisseur, ai-voice-cloning peut rester intéressant lorsque vous souhaitez :

Une CLI unique qui abstrait plusieurs fournisseurs et modèles
Une intégration plus simple avec des frameworks d’agents qui comprennent le format skills

ai-voice-cloning prend-il en charge l’audio en streaming temps réel ?

L’extrait de SKILL.md se concentre sur des commandes de type batch (infsh app run ...) et ne décrit pas explicitement de comportement en streaming temps réel. Les options de streaming ou de faible latence dépendent des apps spécifiques sur inference.sh, pas de la compétence elle-même. Si le temps réel est important pour votre cas d’usage, consultez la documentation inference.sh des modèles que vous envisagez d’utiliser.

Quel format de sortie fournit ai-voice-cloning ?

Les formats de sortie (par ex. wav, mp3) et les modes de mise à disposition (fichiers locaux, URLs, etc.) sont déterminés par les apps inference.sh sous-jacentes comme infsh/kokoro-tts ou elevenlabs/tts. La compétence n’impose pas de format audio particulier ; elle définit simplement comment les agents peuvent appeler ces modèles. Consultez la documentation de chaque app ou lancez une commande de test pour observer le comportement par défaut.

Dans quels cas ai-voice-cloning n’est-il pas adapté ?

Vous devriez envisager une autre solution si :

Vous avez besoin d’un workflow sans CLI, entièrement dans le navigateur
Vous exigez un TTS hors ligne, sur l’appareil, sans appels à une API externe
Votre priorité est l’entraînement de modèles personnalisés à partir de grands jeux de données plutôt que l’utilisation de voix pré-entraînées

Dans ces cas, orientez-vous vers des stations audio (DAW) de bureau avec plugins TTS intégrés ou vers des bibliothèques TTS embarquées. Si votre priorité est une génération de voix IA scriptable et automatisée via CLI ou agents, ai-voice-cloning est un très bon candidat.

Où trouver plus d’informations sur la configuration et les options avancées ?

Commencez par :

tools/audio/ai-voice-cloning/SKILL.md dans le dépôt inferen-sh/skills
Le document d’installation de la CLI : cli-install.md référencé dans SKILL.md
Toute documentation spécifique aux modèles liée depuis inference.sh pour des apps comme infsh/kokoro-tts ou elevenlabs/tts

Ces ressources vous fourniront les dernières commandes d’exemple, listes de paramètres et notes d’utilisation, au-delà des modèles de démarrage rapide présentés ici.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

requesting-code-review

by obra

À utiliser lorsque vous terminez des tâches, implémentez des fonctionnalités majeures ou avant un merge pour vérifier que le travail respecte les exigences

Code Review

Favorites 0GitHub 0

nodejs-backend-patterns

by wshobson

Modèles complets et bonnes pratiques pour construire des services backend Node.js évolutifs avec Express ou Fastify. Couvre middleware, gestion des erreurs, authentification, intégration base de données et conception d'API REST, GraphQL et microservices.

Backend Development

Favorites 0GitHub 0

normalize

by pbakaus

Audite et réaligne les fonctionnalités UI pour correspondre aux standards du système de design, garantissant une cohérence des espacements, tokens et motifs. Idéal pour corriger les dérives de design et appliquer les principes du système de design.

UI Design

Favorites 0GitHub 14,1 k

ab-test-setup

by coreyhaines31

ab-test-setup vous aide à planifier et concevoir des expériences A/B et multivariées statistiquement robustes, de l’hypothèse au calcul de taille d’échantillon et au choix des métriques, avant toute mise en place de tracking ou de modifications de code.

Data Analysis

Favorites 0GitHub 0

helm-chart-scaffolding

by wshobson

Générez, organisez et validez rapidement des Helm charts pour vos applications Kubernetes. Idéal pour les développeurs et équipes DevOps créant des modèles de déploiement réutilisables et prêts pour la production.

Frontend Development

Favorites 0GitHub 0

llm-evaluation

by wshobson

Mettez en place des workflows d'évaluation robustes pour les applications LLM grâce à des métriques automatisées, des retours humains et des benchmarks. Parfait pour les équipes testant les performances des LLM, comparant des modèles ou validant des améliorations IA.

Skill Testing

Favorites 0GitHub 0

delight

by pbakaus

Transformez des interfaces fonctionnelles en expériences mémorables et agréables en ajoutant des moments de joie, de personnalité et de finition soignée. La skill delight est idéale pour les designers UI et les développeurs frontend souhaitant renforcer l'engagement utilisateur grâce à des animations, micro-interactions et touches réfléchies.

UI Design

Favorites 0GitHub 0

prompt-engineering-patterns

by wshobson

Maîtrisez des techniques avancées d'ingénierie de prompt pour maximiser la performance, la fiabilité et le contrôle des grands modèles de langage (LLM) en production. À utiliser pour optimiser les prompts, améliorer les résultats des LLM ou concevoir des modèles de prompt pour la production.

Skill Authoring

Favorites 0GitHub 0