elevenlabs-voice-isolator

par inferen-sh

Skill ElevenLabs de nettoyage vocal en ligne de commande pour supprimer le bruit de fond et isoler les voix à partir d’un fichier audio via inference.sh. Idéal pour nettoyer des podcasts, interviews, voix de musique, enregistrements bruyants et pour des workflows de restauration audio.

Étoiles232

Favoris0

Commentaires0

CatégorieAudio Editing

Commande d’installation

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

Audio Cli Bash Ffmpeg

Vue d’ensemble

Qu’est-ce que elevenlabs-voice-isolator ?

Le skill elevenlabs-voice-isolator est un outil de nettoyage audio en ligne de commande qui utilise l’app ElevenLabs Voice Isolator via le CLI inference.sh (infsh). Il se concentre sur la suppression du bruit de fond et l’isolation de la voix parlée ou des voix chantées à partir d’un fichier audio en entrée.

Il est conçu comme un skill réutilisable dans le dépôt inferen-sh/skills, ce qui vous permet de l’appeler depuis des environnements d’agents compatibles ou directement depuis votre propre terminal, dès lors que le CLI infsh est installé et configuré.

Capacités principales

En s’appuyant sur le modèle ElevenLabs voice isolator via infsh, ce skill permet de :

Supprimer le bruit de fond ambiant (bruit de pièce, bourdonnement, trafic, bruit de foule)
Isoler les voix ou les parties vocales d’un enregistrement bruyant
Nettoyer des pistes de podcast et des enregistrements d’interview
Améliorer l’intelligibilité de la parole dans des environnements difficiles
Prendre en charge les formats audio courants (WAV, MP3, FLAC, OGG, AAC)
Traiter des enregistrements longs (jusqu’à 1 heure, 500 Mo par fichier, comme indiqué dans la documentation du skill)

À qui s’adresse ce skill ?

Utilisez elevenlabs-voice-isolator si vous :

Enregistrez des podcasts et souhaitez des pistes voix plus propres sans faire de réduction de bruit manuelle
Réalisez des interviews à distance et devez réduire le bruit de fond chez vos invités
Travaillez avec des maquettes musicales ou prises de voix et voulez mieux isoler la ligne vocale
Gérez des archives audio et cherchez une restauration de base centrée sur la parole
Construisez des agents IA ou automatisations qui doivent nettoyer l’audio à la volée via un outil CLI

Si vous utilisez déjà ffmpeg ou une STAN (DAW) mais que vous cherchez une étape d’isolation vocale plus haut niveau, accessible depuis le terminal ou un agent, ce skill répond à ce besoin spécifique.

Quand ce skill est-il adapté (ou non) ?

Pertinent lorsque :

Votre objectif principal est l’isolation de la voix ou le nettoyage de la parole, pas un mixage audio multipiste complet.
Vous êtes à l’aise avec l’exécution de commandes en ligne de commande (Bash) et la manipulation d’URL ou de fichiers locaux.
Vous pouvez installer et authentifier le CLI inference.sh (infsh).

Moins adapté lorsque :

Vous avez besoin de montage avancé, de mixage multipiste ou de chaînes d’effets dans une STAN avec interface graphique.
Votre workflow est entièrement hors ligne et vous ne pouvez pas utiliser le CLI infsh ni des appels à des modèles externes.
Vous exigez un contrôle très fin, image par image, sur le traitement du signal audio (DSP), plutôt qu’un isolateur piloté par un modèle.

Guide d’utilisation

Prérequis

Avant d’utiliser elevenlabs-voice-isolator, assurez-vous d’avoir :

Le CLI inference.sh (infsh) installé
- Le guide de démarrage rapide du skill s’appuie sur infsh et renvoie vers les instructions d’installation du CLI.
- Suivez les dernières instructions d’installation depuis :
  - https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
L’accès à l’app ElevenLabs Voice Isolator via infsh
- Le skill appelle elevenlabs/voice-isolator via infsh app run.
Un environnement compatible Bash
- Les allowed-tools du skill incluent Bash(infsh *), il est donc conçu pour les shells Bash et les workflows en ligne de commande.

Installation de base dans un environnement de skills pour agents

Si vous utilisez un environnement prenant en charge npx skills et le dépôt inferen-sh/skills, vous pouvez ajouter le skill avec :

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

Cela rend le skill elevenlabs-voice-isolator disponible aux côtés des autres outils du même dépôt. Une fois ajouté, votre agent ou vos outils peuvent invoquer les commandes infsh sous‑jacentes définies par le skill.

Se connecter à inference.sh

Avant d’exécuter toute isolation vocale, authentifiez le CLI :

infsh login

Suivez les invites pour finaliser la connexion. Cette étape est indispensable pour que les commandes infsh app run fonctionnent.

Exécuter une commande simple d’isolation de voix

Le schéma d’utilisation de base de elevenlabs-voice-isolator via infsh ressemble à ceci :

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'

Remplacez https://noisy-recording.mp3 par l’URL de votre propre fichier audio bruyant. L’app traite l’entrée et renvoie une réponse (généralement en JSON) contenant des références vers l’audio nettoyé.

Formats audio pris en charge et limites

D’après la documentation du skill, ElevenLabs voice isolator prend en charge :

WAV – jusqu’à 500 Mo, 1 heure maximum
MP3 – jusqu’à 500 Mo, 1 heure maximum
FLAC – jusqu’à 500 Mo, 1 heure maximum
OGG – jusqu’à 500 Mo, 1 heure maximum
AAC – jusqu’à 500 Mo, 1 heure maximum

Pour une stabilité optimale, restez dans ces tailles et durées lors de la préparation de l’audio pour elevenlabs-voice-isolator.

Exemple : Nettoyer un enregistrement de podcast

Cet exemple reprend le scénario de démarrage rapide du skill pour le nettoyage de podcast :

# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'

Utilisez ce modèle pour tout contenu parlé où vous souhaitez une narration ou des dialogues plus clairs. Hébergez votre fichier sur un emplacement accessible en HTTPS (ou suivez les recommandations actuelles de infsh concernant l’usage de fichiers locaux, si cela est pris en charge dans votre environnement).

Exemple : Nettoyer un enregistrement d’interview

Pour améliorer une interview avec du bruit de pièce ou de rue, adaptez simplement l’URL d’entrée :

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'

Vous pouvez intégrer cette commande dans des scripts qui nettoient automatiquement chaque nouvel enregistrement d’interview avant le montage.

Intégration avec vos propres outils et agents

Comme elevenlabs-voice-isolator est défini comme un skill dans inferen-sh/skills :

Agents : Un agent IA capable d’appeler Bash(infsh *) peut utiliser ce skill pour nettoyer l’audio dans un pipeline (par exemple, isolation → transcription → synthèse).
Pipelines CLI : Vous pouvez encapsuler infsh app run elevenlabs-voice-isolator dans des scripts shell, workflows CI ou outils de traitement par lot.
Post‑production audio : Utilisez ce skill comme étape de pré‑traitement avant d’importer le fichier nettoyé dans une STAN ou un éditeur comme Audacity, Reaper ou Adobe Audition.

Fichiers et configuration à consulter

Dans le dépôt inferen-sh/skills, ouvrez :

tools/audio/elevenlabs-voice-isolator/SKILL.md

Ce fichier décrit le skill, son descriptif et les commandes d’exemple. Il n’expose pas de configuration complexe spécifique à chaque utilisateur, mais le CLI et l’app peuvent proposer des options supplémentaires documentées ailleurs dans l’écosystème inference.sh.

FAQ

Que fait concrètement elevenlabs-voice-isolator à mon audio ?

Le skill elevenlabs-voice-isolator envoie votre audio au modèle ElevenLabs Voice Isolator via le CLI inference.sh. Le modèle se concentre sur la séparation et l’amélioration de la voix tout en réduisant le bruit de fond. Le résultat est un fichier audio où la parole ou les voix sont plus claires et moins bruyantes, adapté aux podcasts, interviews et contenus similaires.

Ai-je besoin du CLI inference.sh pour utiliser elevenlabs-voice-isolator ?

Oui. Le guide de démarrage rapide publié montre une utilisation via le CLI inference.sh (infsh). Vous devez installer et authentifier infsh avant d’exécuter les commandes d’exemple ou d’intégrer le skill dans un agent.

Quels formats audio puis-je traiter ?

Selon la documentation du skill, elevenlabs-voice-isolator prend en charge :

WAV, MP3, FLAC, OGG et AAC
Jusqu’à 500 Mo par fichier et 1 heure de durée par fichier

Si vos fichiers dépassent ces limites, coupez‑les ou réduisez leur taille avant de les traiter.

Puis-je utiliser elevenlabs-voice-isolator sur des fichiers locaux plutôt que des URLs ?

Les exemples dans SKILL.md utilisent des URLs HTTPS pour le champ audio. La prise en charge de chemins locaux dépend des capacités et de la configuration actuelles de infsh. Consultez la documentation la plus récente du CLI inference.sh pour savoir comment référencer des fichiers locaux (par exemple via upload ou conventions de chemin local) et adaptez en conséquence votre argument --input.

elevenlabs-voice-isolator convient‑il à la production musicale ?

Il peut être utile pour isoler des voix ou nettoyer des maquettes bruyantes, mais ce n’est pas une suite complète de production musicale. Utilisez‑le comme étape de pré‑traitement ou d’utilitaire, puis finalisez le mixage et le mastering détaillés dans votre STAN.

En quoi est‑ce différent d’une réduction de bruit classique dans une STAN ?

La réduction de bruit classique dans une STAN nécessite souvent des empreintes de bruit, des réglages manuels et une écoute en temps réel. elevenlabs-voice-isolator est un processus par lot, basé sur un modèle, accessible en CLI. Vous fournissez un fichier audio, le modèle réalise l’isolation et la réduction de bruit, puis vous récupérez un résultat traité. C’est pratique pour le nettoyage automatisé ou à grande échelle, surtout en combinaison avec des agents ou des scripts.

Et si je veux juste un simple filtre de réduction de bruit, sans isolation de la voix ?

Le skill elevenlabs-voice-isolator est conçu pour combiner isolation de la voix et suppression du bruit de fond. Si vous avez seulement besoin d’un débruitage basique ou d’un égaliseur, un filtre local ffmpeg ou un plugin de STAN sera peut‑être plus simple. Utilisez ce skill lorsque vous cherchez spécifiquement une séparation de la voix et une amélioration de la clarté de la parole via le modèle ElevenLabs.

Où puis-je en savoir plus ou résoudre des problèmes ?

Pour obtenir des informations à jour et détaillées :

Ouvrez tools/audio/elevenlabs-voice-isolator/SKILL.md dans le dépôt inferen-sh/skills.
Consultez le guide général d’installation et d’utilisation de infsh dans cli-install.md du même dépôt.
Reportez‑vous à la documentation inference.sh et ElevenLabs pour les limites de service, l’authentification et les codes d’erreur.

En cas d’échec, commencez par vérifier que infsh login aboutit, que l’URL de votre audio est accessible, et que votre fichier respecte les formats pris en charge ainsi que les limites de taille et de durée.

Notes et avis

Aucune note pour le moment

Partagez votre avis

Connectez-vous pour laisser une note et un commentaire sur cet outil.

0/10000

Derniers avis

Enregistrement...

Autres outils de cette catégorie

elevenlabs-dialogue

by inferen-sh

Générez un audio de dialogue multi-intervenants soigné avec ElevenLabs via la CLI inference.sh. Transformez des scripts structurés en conversations naturelles avec plusieurs voix dans un seul fichier pour des podcasts, des livres audio, des vidéos explicatives, des tutoriels, des dialogues de personnages et des scripts vidéo.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Générez un audio de dialogue réaliste avec plusieurs interlocuteurs grâce à Dia TTS et ElevenLabs via la CLI inference.sh. La skill dialogue-audio vous aide à contrôler les voix, l’émotion, le rythme et le déroulé de la conversation pour des podcasts, livres audio, contenus explicatifs, scènes de personnages et autres formats conversationnels.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Reconnaissance vocale ElevenLabs haute précision via le CLI inference.sh, en utilisant les modèles Scribe v1/v2. Prend en charge la transcription, la diarisation des locuteurs, le tagging d’événements audio, les timecodes au mot, le forced alignment et la génération de sous-titres pour les réunions, podcasts et autres workflows audio.

Audio Editing

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Générez de la musique IA et des chansons complètes à partir de prompts texte avec ElevenLabs Music, Diffrythm et Tencent Song Generation via le CLI inference.sh. Idéal pour les musiques de fond, bandes-son, clips sociaux, podcasts et musique libre de droits. Prend en charge la génération rapide de chansons, les instrumentaux et les morceaux avec voix complètes.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning est une compétence basée sur inference.sh pour la génération de voix par IA, le text-to-speech et le clonage de voix depuis la CLI. Elle encapsule les modèles ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs et VibeVoice pour une parole naturelle, des narrations multi-voix et des transformations de voix pour des projets audio et vidéo.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Créez des podcasts et contenus vocaux alimentés par l’IA à partir de texte en utilisant Kokoro TTS, DIA TTS et le CLI inference.sh. Mixez plusieurs voix, ajoutez de la musique et assemblez des épisodes complets pour des podcasts, des livres audio et des newsletters audio.

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

Skill de changement de voix ElevenLabs utilisant le CLI inference.sh (infsh) pour transformer une voix enregistrée en une autre voix synthétique tout en préservant le contenu et l’émotion. Prend en charge `eleven_multilingual_sts_v2` (70+ langues) et `eleven_english_sts_v2` pour le speech-to-speech, le changement d’accent et la dissimulation de voix dans la création de contenu, le doublage et les voix de personnages.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing permet de doubler et traduire automatiquement de l’audio ou de la vidéo dans 29 langues via le CLI inference.sh, tout en conservant la voix des locuteurs d’origine. Idéal pour les monteurs vidéo, podcasteurs et équipes de localisation qui ont besoin de versions multilingues rapides et de haute qualité à partir de contenus existants.

Video Editing

Favorites 0GitHub 0