I

elevenlabs-voice-isolator

bởi inferen-sh

Skill elevenlabs-voice-isolator chạy qua CLI để khử ồn nền và tách giọng nói/vocal khỏi audio bằng inference.sh. Lý tưởng cho dọn sạch podcast, phỏng vấn, vocal nhạc, bản thu ồn và các quy trình khôi phục âm thanh.

Stars232
Yêu thích0
Bình luận0
Đã thêm27 thg 3, 2026
Danh mụcAudio Editing
Lệnh cài đặt
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator
Tổng quan

Tổng quan

elevenlabs-voice-isolator là gì?

Skill elevenlabs-voice-isolator là một công cụ dọn sạch audio chạy trên dòng lệnh, sử dụng ứng dụng ElevenLabs Voice Isolator thông qua inference.sh (infsh) CLI. Trọng tâm của nó là loại bỏ tiếng ồn nền và tách giọng nói/vocal khỏi một file audio đầu vào.

Skill này được xây dựng như một skill dùng lại được bên trong repository inferen-sh/skills, vì vậy bạn có thể gọi nó từ các môi trường agent tương thích hoặc ngay trong terminal của bạn miễn là đã cài infsh CLI.

Các khả năng chính

Khi dùng mô hình ElevenLabs voice isolator thông qua infsh, skill này có thể:

  • Loại bỏ tiếng ồn môi trường (tiếng phòng, ù, xe cộ, đám đông)
  • Tách giọng nói hoặc vocal khỏi bản thu bị ồn
  • Làm sạch track podcast và bản thu phỏng vấn
  • Cải thiện độ rõ của lời nói trong môi trường thu khó
  • Hỗ trợ các định dạng audio phổ biến (WAV, MP3, FLAC, OGG, AAC)
  • Xử lý các bản thu dài (tối đa 1 giờ, 500MB mỗi file theo tài liệu skill)

Skill này phù hợp với ai?

Hãy dùng elevenlabs-voice-isolator nếu bạn:

  • Thu podcast và muốn có track giọng sạch hơn mà không phải tự tay khử ồn
  • Thu phỏng vấn từ xa và cần giảm tiếng ồn nền từ khách mời
  • Làm việc với demo nhạc hoặc bản thu vocal và muốn tách rõ hơn đường vocal
  • Lưu trữ kho audio và cần phục hồi cơ bản tập trung vào lời nói
  • Xây dựng AI agent hoặc workflow tự động cần dọn sạch audio tức thì bằng công cụ CLI

Nếu bạn đã dùng ffmpeg hoặc một DAW nhưng muốn có một bước tách giọng ở mức cao, gọi được từ terminal hoặc agent, thì skill này phù hợp với nhu cầu đó.

Khi nào phù hợp (và khi nào không)

Phù hợp khi:

  • Mục tiêu chính của bạn là tách giọng hoặc làm sạch lời nói, không phải mix đa track toàn diện.
  • Bạn quen với việc chạy lệnh CLI (Bash) và làm việc với URL hoặc file cục bộ.
  • Bạn có thể cài đặt và xác thực inference.sh CLI (infsh).

Không tối ưu khi:

  • Bạn cần chỉnh sửa sâu, mix đa track hoặc chuỗi hiệu ứng bên trong một DAW giao diện đồ họa.
  • Toàn bộ quy trình của bạn hoàn toàn offline và bạn không thể dùng infsh CLI hay gọi mô hình bên ngoài.
  • Bạn cần kiểm soát chi tiết ở mức frame đối với quá trình DSP thay vì một bộ tách dựa trên mô hình.

Cách sử dụng

Yêu cầu trước khi bắt đầu

Trước khi dùng elevenlabs-voice-isolator, hãy đảm bảo bạn đã có:

  1. Đã cài inference.sh CLI (infsh)

    • Hướng dẫn quick start của skill tham chiếu đến infsh và dẫn link tới hướng dẫn cài CLI.
    • Làm theo hướng dẫn cài đặt mới nhất tại:
      • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
  2. Quyền truy cập ứng dụng ElevenLabs Voice Isolator qua infsh

    • Skill gọi elevenlabs/voice-isolator thông qua infsh app run.
  3. Môi trường hỗ trợ Bash

    • allowed-tools của skill bao gồm Bash(infsh *), nên nó được thiết kế cho shell Bash và workflow CLI.

Cài đặt cơ bản trong môi trường agent skills

Nếu bạn dùng một môi trường hỗ trợ npx skills và repository inferen-sh/skills, bạn có thể thêm skill bằng:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-isolator
``

Lệnh này giúp skill elevenlabs-voice-isolator khả dụng cùng các công cụ khác trong cùng repo. Sau khi thêm, agent hoặc công cụ của bạn có thể gọi các lệnh `infsh` nền tảng được định nghĩa bởi skill.

### Đăng nhập vào inference.sh
Trước khi chạy bất kỳ tác vụ tách giọng nào, hãy xác thực CLI:

```bash
infsh login

Làm theo hướng dẫn trên màn hình để hoàn tất đăng nhập. Bước này là bắt buộc để các lệnh infsh app run tiếp theo hoạt động.

Chạy lệnh tách giọng đơn giản

Mẫu sử dụng cốt lõi cho elevenlabs-voice-isolator qua infsh trông như sau:

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-recording.mp3"}'

Thay https://noisy-recording.mp3 bằng URL dẫn tới file audio bị ồn của bạn. Ứng dụng sẽ xử lý đầu vào và trả về phản hồi (thường ở dạng JSON) với link tới audio đã được làm sạch.

Định dạng audio và giới hạn hỗ trợ

Theo tài liệu skill, ElevenLabs voice isolator hỗ trợ:

  • WAV – tối đa 500MB, dài tối đa 1 giờ
  • MP3 – tối đa 500MB, dài tối đa 1 giờ
  • FLAC – tối đa 500MB, dài tối đa 1 giờ
  • OGG – tối đa 500MB, dài tối đa 1 giờ
  • AAC – tối đa 500MB, dài tối đa 1 giờ

Để ổn định nhất, hãy giữ file trong phạm vi dung lượng và thời lượng này khi chuẩn bị audio cho elevenlabs-voice-isolator.

Ví dụ: Làm sạch bản thu podcast

Ví dụ này phản ánh kịch bản quick start của skill dành cho dọn sạch podcast:

# Remove background noise from a podcast recording
infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-podcast.mp3"}'

Hãy dùng mẫu này cho mọi nội dung lời nói mà bạn muốn lời dẫn hoặc đối thoại rõ ràng hơn. Hãy host file ở nơi có thể truy cập qua HTTPS (hoặc làm theo hướng dẫn infsh hiện tại về cách dùng file cục bộ nếu môi trường của bạn hỗ trợ).

Ví dụ: Làm sạch bản thu phỏng vấn

Để cải thiện bản phỏng vấn có tiếng phòng hoặc tiếng đường phố, chỉ cần đổi URL input:

infsh app run elevenlabs/voice-isolator --input '{"audio": "https://noisy-interview-file.mp3"}'

Bạn có thể tích hợp lệnh này vào script tự động dọn sạch mọi file phỏng vấn mới trước khi bước vào khâu biên tập.

Tích hợp với công cụ và agent của riêng bạn

Vì elevenlabs-voice-isolator được định nghĩa như một skill trong inferen-sh/skills:

  • Agents: Một AI agent có thể gọi Bash(infsh *) có thể dùng skill này để dọn audio như một phần của pipeline (ví dụ: tách giọng → nhận dạng giọng nói → tóm tắt).
  • Pipeline CLI: Bạn có thể bao infsh app run elevenlabs/voice-isolator trong shell script, workflow CI hoặc các công cụ xử lý batch.
  • Hậu kỳ audio: Dùng skill này như bước tiền xử lý trước khi import file đã làm sạch vào DAW hoặc trình biên tập như Audacity, Reaper hay Adobe Audition.

File và cấu hình nên xem qua

Trong repository inferen-sh/skills, hãy mở:

  • tools/audio/elevenlabs-voice-isolator/SKILL.md

File này mô tả skill, phần mô tả và các lệnh ví dụ. Không có cấu hình phức tạp cho từng người dùng được phơi ra trong file skill, nhưng CLI và ứng dụng có thể có thêm tùy chọn được tài liệu hóa ở những nơi khác trong hệ sinh thái inference.sh.

Câu hỏi thường gặp (FAQ)

elevenlabs-voice-isolator thực sự làm gì với audio của tôi?

Skill elevenlabs-voice-isolator gửi audio của bạn tới mô hình ElevenLabs Voice Isolator thông qua inference.sh CLI. Mô hình tập trung tách và tăng cường giọng nói, đồng thời giảm tiếng ồn nền. Kết quả là một file audio mà lời nói hoặc vocal rõ hơn, ít ồn hơn, phù hợp cho podcast, phỏng vấn và nội dung tương tự.

Tôi có bắt buộc phải dùng inference.sh CLI để chạy elevenlabs-voice-isolator không?

Có. Hướng dẫn quick start công khai cho thấy cách dùng thông qua inference.sh CLI (infsh). Bạn phải cài đặt và xác thực infsh trước khi chạy các lệnh ví dụ hoặc tích hợp skill vào một agent.

Tôi có thể xử lý những định dạng audio nào?

Theo tài liệu của skill, elevenlabs-voice-isolator hỗ trợ:

  • WAV, MP3, FLAC, OGG và AAC
  • Tối đa 500MB mỗi file và 1 giờ thời lượng mỗi file

Nếu file của bạn vượt quá các giới hạn này, hãy cắt ngắn hoặc giảm chất lượng trước khi xử lý.

Tôi có thể chạy elevenlabs-voice-isolator trên file cục bộ thay vì URL không?

Các ví dụ trong SKILL.md sử dụng URL HTTPS cho trường audio. Việc có hỗ trợ path cục bộ hay không phụ thuộc vào khả năng và cấu hình infsh hiện tại. Hãy kiểm tra tài liệu mới nhất của inference.sh CLI để biết cách tham chiếu file cục bộ (ví dụ: thông qua upload hoặc quy ước đường dẫn cục bộ) và điều chỉnh tham số --input cho phù hợp.

elevenlabs-voice-isolator có phù hợp cho sản xuất nhạc không?

Nó có thể hữu ích để tách vocal hoặc làm sạch các bản demo bị ồn, nhưng không phải là một bộ công cụ sản xuất nhạc hoàn chỉnh. Hãy sử dụng nó như bước tiền xử lý hoặc tiện ích; sau đó thực hiện mix và master chi tiết trong DAW của bạn.

Điều này khác gì so với khử ồn truyền thống trong DAW?

Các công cụ khử ồn trong DAW truyền thống thường cần lấy mẫu noise print, tinh chỉnh thủ công và nghe realtime. elevenlabs-voice-isolator là một quy trình dựa trên mô hình, chạy batch thông qua CLI. Bạn truyền vào một file audio, mô hình thực hiện tách giọng và khử ồn, rồi bạn nhận lại output đã xử lý. Cách này thuận tiện cho dọn sạch tự động hoặc quy mô lớn, đặc biệt khi kết hợp với agent hoặc script.

Nếu tôi chỉ muốn một bộ lọc khử ồn đơn giản mà không cần tách giọng thì sao?

Skill elevenlabs-voice-isolator tập trung vào tách giọng và loại bỏ nền đồng thời. Nếu bạn chỉ cần khử ồn cơ bản hoặc chỉnh EQ, một filter ffmpeg cục bộ hoặc plugin trong DAW có thể đơn giản hơn. Hãy dùng skill này khi bạn cần tách giọngtăng độ rõ lời nói được dẫn dắt bởi mô hình ElevenLabs.

Tôi có thể tìm thêm thông tin hoặc xử lý lỗi ở đâu?

Để có thông tin chính xác và cập nhật nhất:

  • Mở tools/audio/elevenlabs-voice-isolator/SKILL.md trong repository inferen-sh/skills.
  • Xem hướng dẫn cài đặt và sử dụng infsh tổng quan tại cli-install.md trong cùng repo.
  • Tham khảo tài liệu của inference.sh và ElevenLabs để biết giới hạn dịch vụ, cơ chế xác thực và mã lỗi.

Nếu có lỗi, hãy bắt đầu bằng việc kiểm tra infsh login đã thành công chưa, URL audio có truy cập được không, và file của bạn có tuân thủ định dạng, dung lượng và thời lượng được hỗ trợ hay không.

Đánh giá & nhận xét

Chưa có đánh giá nào
Chia sẻ nhận xét của bạn
Đăng nhập để chấm điểm và để lại nhận xét cho skill này.
G
0/10000
Nhận xét mới nhất
Đang lưu...