elevenlabs-voice-isolator

bởi inferen-sh

Skill elevenlabs-voice-isolator chạy qua CLI để khử ồn nền và tách giọng nói/vocal khỏi audio bằng inference.sh. Lý tưởng cho dọn sạch podcast, phỏng vấn, vocal nhạc, bản thu ồn và các quy trình khôi phục âm thanh.

Stars232

Yêu thích0

Bình luận0

Đã thêm27 thg 3, 2026

Danh mụcAudio Editing

Lệnh cài đặt

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator

Audio Cli Bash Ffmpeg

Tổng quan

elevenlabs-voice-isolator là gì?

Skill elevenlabs-voice-isolator là một công cụ dọn sạch audio chạy trên dòng lệnh, sử dụng ứng dụng ElevenLabs Voice Isolator thông qua inference.sh (infsh) CLI. Trọng tâm của nó là loại bỏ tiếng ồn nền và tách giọng nói/vocal khỏi một file audio đầu vào.

Skill này được xây dựng như một skill dùng lại được bên trong repository inferen-sh/skills, vì vậy bạn có thể gọi nó từ các môi trường agent tương thích hoặc ngay trong terminal của bạn miễn là đã cài infsh CLI.

Các khả năng chính

Khi dùng mô hình ElevenLabs voice isolator thông qua infsh, skill này có thể:

Loại bỏ tiếng ồn môi trường (tiếng phòng, ù, xe cộ, đám đông)
Tách giọng nói hoặc vocal khỏi bản thu bị ồn
Làm sạch track podcast và bản thu phỏng vấn
Cải thiện độ rõ của lời nói trong môi trường thu khó
Hỗ trợ các định dạng audio phổ biến (WAV, MP3, FLAC, OGG, AAC)
Xử lý các bản thu dài (tối đa 1 giờ, 500MB mỗi file theo tài liệu skill)

Skill này phù hợp với ai?

Hãy dùng elevenlabs-voice-isolator nếu bạn:

Thu podcast và muốn có track giọng sạch hơn mà không phải tự tay khử ồn
Thu phỏng vấn từ xa và cần giảm tiếng ồn nền từ khách mời
Làm việc với demo nhạc hoặc bản thu vocal và muốn tách rõ hơn đường vocal
Lưu trữ kho audio và cần phục hồi cơ bản tập trung vào lời nói
Xây dựng AI agent hoặc workflow tự động cần dọn sạch audio tức thì bằng công cụ CLI

Nếu bạn đã dùng ffmpeg hoặc một DAW nhưng muốn có một bước tách giọng ở mức cao, gọi được từ terminal hoặc agent, thì skill này phù hợp với nhu cầu đó.

Khi nào phù hợp (và khi nào không)

Phù hợp khi:

Mục tiêu chính của bạn là tách giọng hoặc làm sạch lời nói, không phải mix đa track toàn diện.
Bạn quen với việc chạy lệnh CLI (Bash) và làm việc với URL hoặc file cục bộ.
Bạn có thể cài đặt và xác thực inference.sh CLI (infsh).

Không tối ưu khi:

Bạn cần chỉnh sửa sâu, mix đa track hoặc chuỗi hiệu ứng bên trong một DAW giao diện đồ họa.
Toàn bộ quy trình của bạn hoàn toàn offline và bạn không thể dùng infsh CLI hay gọi mô hình bên ngoài.
Bạn cần kiểm soát chi tiết ở mức frame đối với quá trình DSP thay vì một bộ tách dựa trên mô hình.

Cách sử dụng

Yêu cầu trước khi bắt đầu

Trước khi dùng elevenlabs-voice-isolator, hãy đảm bảo bạn đã có:

Đã cài inference.sh CLI (infsh)
- Hướng dẫn quick start của skill tham chiếu đến infsh và dẫn link tới hướng dẫn cài CLI.
- Làm theo hướng dẫn cài đặt mới nhất tại:
  - https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Quyền truy cập ứng dụng ElevenLabs Voice Isolator qua infsh
- Skill gọi elevenlabs/voice-isolator thông qua infsh app run.
Môi trường hỗ trợ Bash
- allowed-tools của skill bao gồm Bash(infsh *), nên nó được thiết kế cho shell Bash và workflow CLI.

Cài đặt cơ bản trong môi trường agent skills

Nếu bạn dùng một môi trường hỗ trợ npx skills và repository inferen-sh/skills, bạn có thể thêm skill bằng:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator
``

Lệnh này giúp skill elevenlabs-voice-isolator khả dụng cùng các công cụ khác trong cùng repo. Sau khi thêm, agent hoặc công cụ của bạn có thể gọi các lệnh `infsh` nền tảng được định nghĩa bởi skill.

### Đăng nhập vào inference.sh
Trước khi chạy bất kỳ tác vụ tách giọng nào, hãy xác thực CLI:

```bash
infsh login

Làm theo hướng dẫn trên màn hình để hoàn tất đăng nhập. Bước này là bắt buộc để các lệnh infsh app run tiếp theo hoạt động.

Chạy lệnh tách giọng đơn giản

Mẫu sử dụng cốt lõi cho elevenlabs-voice-isolator qua infsh trông như sau:

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'

Thay https://noisy-recording.mp3 bằng URL dẫn tới file audio bị ồn của bạn. Ứng dụng sẽ xử lý đầu vào và trả về phản hồi (thường ở dạng JSON) với link tới audio đã được làm sạch.

Định dạng audio và giới hạn hỗ trợ

Theo tài liệu skill, ElevenLabs voice isolator hỗ trợ:

WAV – tối đa 500MB, dài tối đa 1 giờ
MP3 – tối đa 500MB, dài tối đa 1 giờ
FLAC – tối đa 500MB, dài tối đa 1 giờ
OGG – tối đa 500MB, dài tối đa 1 giờ
AAC – tối đa 500MB, dài tối đa 1 giờ

Để ổn định nhất, hãy giữ file trong phạm vi dung lượng và thời lượng này khi chuẩn bị audio cho elevenlabs-voice-isolator.

Ví dụ: Làm sạch bản thu podcast

Ví dụ này phản ánh kịch bản quick start của skill dành cho dọn sạch podcast:

# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'

Hãy dùng mẫu này cho mọi nội dung lời nói mà bạn muốn lời dẫn hoặc đối thoại rõ ràng hơn. Hãy host file ở nơi có thể truy cập qua HTTPS (hoặc làm theo hướng dẫn infsh hiện tại về cách dùng file cục bộ nếu môi trường của bạn hỗ trợ).

Ví dụ: Làm sạch bản thu phỏng vấn

Để cải thiện bản phỏng vấn có tiếng phòng hoặc tiếng đường phố, chỉ cần đổi URL input:

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'

Bạn có thể tích hợp lệnh này vào script tự động dọn sạch mọi file phỏng vấn mới trước khi bước vào khâu biên tập.

Tích hợp với công cụ và agent của riêng bạn

Vì elevenlabs-voice-isolator được định nghĩa như một skill trong inferen-sh/skills:

Agents: Một AI agent có thể gọi Bash(infsh *) có thể dùng skill này để dọn audio như một phần của pipeline (ví dụ: tách giọng → nhận dạng giọng nói → tóm tắt).
Pipeline CLI: Bạn có thể bao infsh app run elevenlabs/voice-isolator trong shell script, workflow CI hoặc các công cụ xử lý batch.
Hậu kỳ audio: Dùng skill này như bước tiền xử lý trước khi import file đã làm sạch vào DAW hoặc trình biên tập như Audacity, Reaper hay Adobe Audition.

File và cấu hình nên xem qua

Trong repository inferen-sh/skills, hãy mở:

tools/audio/elevenlabs-voice-isolator/SKILL.md

File này mô tả skill, phần mô tả và các lệnh ví dụ. Không có cấu hình phức tạp cho từng người dùng được phơi ra trong file skill, nhưng CLI và ứng dụng có thể có thêm tùy chọn được tài liệu hóa ở những nơi khác trong hệ sinh thái inference.sh.

Câu hỏi thường gặp (FAQ)

elevenlabs-voice-isolator thực sự làm gì với audio của tôi?

Skill elevenlabs-voice-isolator gửi audio của bạn tới mô hình ElevenLabs Voice Isolator thông qua inference.sh CLI. Mô hình tập trung tách và tăng cường giọng nói, đồng thời giảm tiếng ồn nền. Kết quả là một file audio mà lời nói hoặc vocal rõ hơn, ít ồn hơn, phù hợp cho podcast, phỏng vấn và nội dung tương tự.

Tôi có bắt buộc phải dùng inference.sh CLI để chạy elevenlabs-voice-isolator không?

Có. Hướng dẫn quick start công khai cho thấy cách dùng thông qua inference.sh CLI (infsh). Bạn phải cài đặt và xác thực infsh trước khi chạy các lệnh ví dụ hoặc tích hợp skill vào một agent.

Tôi có thể xử lý những định dạng audio nào?

Theo tài liệu của skill, elevenlabs-voice-isolator hỗ trợ:

WAV, MP3, FLAC, OGG và AAC
Tối đa 500MB mỗi file và 1 giờ thời lượng mỗi file

Nếu file của bạn vượt quá các giới hạn này, hãy cắt ngắn hoặc giảm chất lượng trước khi xử lý.

Tôi có thể chạy elevenlabs-voice-isolator trên file cục bộ thay vì URL không?

Các ví dụ trong SKILL.md sử dụng URL HTTPS cho trường audio. Việc có hỗ trợ path cục bộ hay không phụ thuộc vào khả năng và cấu hình infsh hiện tại. Hãy kiểm tra tài liệu mới nhất của inference.sh CLI để biết cách tham chiếu file cục bộ (ví dụ: thông qua upload hoặc quy ước đường dẫn cục bộ) và điều chỉnh tham số --input cho phù hợp.

elevenlabs-voice-isolator có phù hợp cho sản xuất nhạc không?

Nó có thể hữu ích để tách vocal hoặc làm sạch các bản demo bị ồn, nhưng không phải là một bộ công cụ sản xuất nhạc hoàn chỉnh. Hãy sử dụng nó như bước tiền xử lý hoặc tiện ích; sau đó thực hiện mix và master chi tiết trong DAW của bạn.

Điều này khác gì so với khử ồn truyền thống trong DAW?

Các công cụ khử ồn trong DAW truyền thống thường cần lấy mẫu noise print, tinh chỉnh thủ công và nghe realtime. elevenlabs-voice-isolator là một quy trình dựa trên mô hình, chạy batch thông qua CLI. Bạn truyền vào một file audio, mô hình thực hiện tách giọng và khử ồn, rồi bạn nhận lại output đã xử lý. Cách này thuận tiện cho dọn sạch tự động hoặc quy mô lớn, đặc biệt khi kết hợp với agent hoặc script.

Nếu tôi chỉ muốn một bộ lọc khử ồn đơn giản mà không cần tách giọng thì sao?

Skill elevenlabs-voice-isolator tập trung vào tách giọng và loại bỏ nền đồng thời. Nếu bạn chỉ cần khử ồn cơ bản hoặc chỉnh EQ, một filter ffmpeg cục bộ hoặc plugin trong DAW có thể đơn giản hơn. Hãy dùng skill này khi bạn cần tách giọng và tăng độ rõ lời nói được dẫn dắt bởi mô hình ElevenLabs.

Tôi có thể tìm thêm thông tin hoặc xử lý lỗi ở đâu?

Để có thông tin chính xác và cập nhật nhất:

Mở tools/audio/elevenlabs-voice-isolator/SKILL.md trong repository inferen-sh/skills.
Xem hướng dẫn cài đặt và sử dụng infsh tổng quan tại cli-install.md trong cùng repo.
Tham khảo tài liệu của inference.sh và ElevenLabs để biết giới hạn dịch vụ, cơ chế xác thực và mã lỗi.

Nếu có lỗi, hãy bắt đầu bằng việc kiểm tra infsh login đã thành công chưa, URL audio có truy cập được không, và file của bạn có tuân thủ định dạng, dung lượng và thời lượng được hỗ trợ hay không.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

ai-podcast-creation

by inferen-sh

Tạo podcast và nội dung giọng nói dùng AI từ văn bản với Kokoro TTS, DIA TTS và CLI inference.sh. Trộn nhiều giọng, thêm nhạc và lắp ráp trọn vẹn các tập cho podcast, sách nói và bản tin âm thanh.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing cho phép bạn tự động lồng tiếng và dịch âm thanh hoặc video sang 29 ngôn ngữ bằng CLI inference.sh, đồng thời giữ nguyên giọng nói của người nói ban đầu. Rất phù hợp cho biên tập viên video, podcaster và các đội ngũ bản địa hóa cần tạo nhanh phiên bản đa ngôn ngữ chất lượng cao cho nội dung sẵn có.

Video Editing

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Tạo nhạc AI và bài hát hoàn chỉnh từ prompt văn bản bằng ElevenLabs Music, Diffrythm và Tencent Song Generation thông qua CLI inference.sh. Lý tưởng cho nhạc nền, soundtrack, clip mạng xã hội, podcast và nhạc không bản quyền. Hỗ trợ tạo bài hát nhanh, bản nhạc không lời và bài hát đầy đủ giọng hát.

Voice Generation

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

Skill ElevenLabs voice changer sử dụng CLI inference.sh (infsh) để biến đổi giọng nói ghi âm sang một giọng tổng hợp khác, vẫn giữ nguyên nội dung và cảm xúc. Hỗ trợ eleven_multilingual_sts_v2 (hơn 70 ngôn ngữ) và eleven_english_sts_v2 cho tác vụ speech-to-speech, đổi accent và ngụy trang giọng nói trong sáng tạo nội dung, lồng tiếng và tạo giọng nhân vật.

Voice Generation

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

Tạo hiệu ứng âm thanh AI từ prompt văn bản bằng ElevenLabs thông qua công cụ dòng lệnh inference.sh. Lý tưởng cho biên tập video, nhà phát triển game, podcaster, nhà làm phim và creator nội dung cần thiết kế âm thanh nhanh, không lo bản quyền. Hỗ trợ chuyển văn bản thành hiệu ứng âm thanh, tùy chỉnh độ dài và kiểm soát prompt cho SFX cinematic, ambient và sẵn sàng dùng trong game.

Audio Editing

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning là một kỹ năng dựa trên inference.sh để tạo giọng nói AI, text-to-speech và nhân bản giọng nói từ CLI. Nó bao bọc các mô hình ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs và VibeVoice để tạo giọng nói tự nhiên, đọc nhiều giọng, và biến đổi giọng nói cho các dự án audio và video.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Tạo audio hội thoại nhiều người nói được xử lý mượt mà với ElevenLabs thông qua CLI inference.sh. Biến kịch bản có cấu trúc thành các cuộc trò chuyện tự nhiên với nhiều giọng trong một file duy nhất cho podcast, sách nói, video giải thích, hướng dẫn, thoại nhân vật và kịch bản video.

Voice Generation

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

Thiết kế và vận hành các pipeline nội dung AI nhiều bước, xâu chuỗi công cụ hình ảnh, video, âm thanh và văn bản lại với nhau thông qua inference.sh CLI. Dùng ai-content-pipeline để tự động hóa các quy trình như: tạo ảnh, dựng thành video, thêm âm thanh hoặc lời thuyết minh, và chuẩn bị nội dung cho YouTube, mạng xã hội và các chiến dịch marketing.

Workflow Automation

Favorites 0GitHub 0