I

elevenlabs-voice-changer

bởi inferen-sh

Skill ElevenLabs voice changer sử dụng CLI inference.sh (infsh) để biến đổi giọng nói ghi âm sang một giọng tổng hợp khác, vẫn giữ nguyên nội dung và cảm xúc. Hỗ trợ eleven_multilingual_sts_v2 (hơn 70 ngôn ngữ) và eleven_english_sts_v2 cho tác vụ speech-to-speech, đổi accent và ngụy trang giọng nói trong sáng tạo nội dung, lồng tiếng và tạo giọng nhân vật.

Stars0
Yêu thích0
Bình luận0
Đã thêm27 thg 3, 2026
Danh mụcVoice Generation
Lệnh cài đặt
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
Tổng quan

Tổng quan

elevenlabs-voice-changer là gì?

elevenlabs-voice-changer là một skill kết nối công cụ đổi giọng speech-to-speech của ElevenLabs với giao diện dòng lệnh inference.sh (infsh). Nó cho phép bạn gửi một bản ghi âm có sẵn và nhận lại cùng nội dung giọng nói đó trong một giọng tổng hợp khác, nhưng vẫn giữ nguyên nội dung và cách diễn đạt.

Ở phía dưới, skill này gọi ứng dụng voice-changer của ElevenLabs thông qua lệnh infsh app run elevenlabs/voice-changer, nên bạn không cần tự nối API thủ công. Bạn chỉ cần mô tả audio đầu vào và giọng đích, dịch vụ sẽ trả về audio đã được biến đổi.

Các khả năng chính

  • Chuyển đổi speech-to-speech – biến mọi đoạn thu âm thành một giọng mới mà không cần thu lại.
  • Hỗ trợ đa ngôn ngữ (70+ ngôn ngữ) – qua model eleven_multilingual_sts_v2.
  • Model tối ưu cho tiếng Anh – qua eleven_english_sts_v2 cho chất lượng tiếng Anh cao hơn.
  • Đổi accent và phong cách – thay đổi accent, tông giọng hoặc persona bằng các giọng premium của ElevenLabs.
  • Ngụy trang giọng nói, bảo vệ riêng tư – ẩn hoặc che giấu giọng thật khi xuất bản nội dung công khai.

Skill này phù hợp với ai?

Skill này phù hợp nếu bạn:

  • Tạo nội dung YouTube, TikTok hoặc mạng xã hội và muốn thay đổi hoặc nâng cấp giọng đọc thuyết minh.
  • Sản xuất podcast hoặc voiceover và cần đổi ngôn ngữ, accent hoặc giọng nhanh chóng.
  • Làm marketing hoặc video giải thích sản phẩm và muốn có nhiều giọng thương hiệu mà không phải thuê nhiều diễn viên.
  • Xây dựng nhân vật AI hoặc demo và cần những giọng nhất quán, có thể tái sử dụng.

Skill này ít phù hợp hơn nếu bạn:

  • Cần quy trình chỉ dùng GUI với chỉnh sửa timeline (skill tập trung vào CLI).
  • Yêu cầu xử lý hoàn toàn offline (phụ thuộc vào inference.sh và ElevenLabs trên cloud).
  • Muốn các công cụ kỹ thuật âm thanh chi tiết như EQ, mixing hoặc chỉnh sửa multi-track; skill này tập trung vào biến đổi giọng nói, không phải một DAW đầy đủ.

Model và tùy chọn giọng

Skill elevenlabs-voice-changer cung cấp các model giống như mô tả trong repository:

  • Multilingual STS v2 – model ID: eleven_multilingual_sts_v2 (mặc định, hỗ trợ hơn 70 ngôn ngữ).
  • English STS v2 – model ID: eleven_english_sts_v2 (tối ưu cho tiếng Anh).

Skill có thể dùng hơn 22 giọng ElevenLabs premium cũng xuất hiện trong các sản phẩm TTS của họ, bao gồm các giọng mặc định như:

  • george – Anh, uy nghiêm (giọng mặc định trong tài liệu).
  • aria – Mỹ, thân mật, hội thoại.

Bạn chọn các giọng này bằng cách truyền tham số voice khi gọi app.

Cách sử dụng

1. Yêu cầu trước và cài đặt

Trước khi dùng elevenlabs-voice-changer, bạn cần cài đặt và đăng nhập được inference.sh CLI.

  1. Cài đặt inference.sh CLI (infsh)
    Làm theo hướng dẫn chính thức từ repository:
    https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

  2. Đăng nhập vào inference.sh bằng tài khoản của bạn:

    infsh login
    
  3. Thêm skill (Agent Skills Finder / skills registry)
    Nếu bạn dùng skill này bên trong bộ sưu tập skills, hãy thêm bằng lệnh:

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
    

Sau các bước này, môi trường của bạn đã sẵn sàng để gọi ứng dụng ElevenLabs voice changer qua infsh.

2. Biến đổi giọng cơ bản

Cách nhanh nhất để thử elevenlabs-voice-changer là chạy ví dụ có sẵn trong tài liệu skill:

infsh login

# Transform voice
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

Trong ví dụ này:

  • audio là URL trỏ tới bản ghi âm đầu vào của bạn (ví dụ một file .mp3 được host online).
  • voice là ID giọng ElevenLabs đích (aria trong ví dụ).

App sẽ xử lý bản ghi và trả về một file audio mới với nội dung lời nói giống hệt, nhưng được đọc bằng giọng aria.

3. Chọn model và ngôn ngữ

Theo mặc định, skill được cấu hình dùng:

  • eleven_multilingual_sts_v2 cho phạm vi ngôn ngữ rộng (hơn 70 ngôn ngữ).

Nếu trường hợp sử dụng của bạn chỉ cần tiếng Anh và bạn muốn một model tối ưu riêng cho tiếng Anh, hãy cấu hình input của app hoặc workflow để dùng:

  • eleven_english_sts_v2 để có độ rõ và ngữ điệu tiếng Anh tốt hơn.

Trường (field) cụ thể để chọn model được xử lý bên trong phần cấu hình app của ElevenLabs, nhưng khi lựa chọn model, hãy dùng các ID này như được tham chiếu trong tài liệu skill.

4. Làm việc với nhiều giọng và accent khác nhau

Để thử các accent hoặc phong cách khác nhau, hãy thay đổi tham số voice trong JSON truyền vào --input.

Ví dụ (mẫu):

# British, authoritative
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "george"}'

# American, conversational
infsh app run elevenlabs/voice-changer --input '{"audio": "https://recording.mp3", "voice": "aria"}'

Bạn có thể dùng cùng một bản ghi gốc, chạy nhiều lần với các ID voice khác nhau để nghe thử nhanh nhiều giọng cho dự án của mình.

5. Tích hợp vào quy trình làm việc

Vì elevenlabs-voice-changer chạy hoàn toàn qua CLI, nên rất dễ tích hợp vào các pipeline script hoặc tự động hóa:

  • Xử lý hàng loạt – lặp qua một thư mục chứa URL audio hoặc các bản thu đã upload và gọi infsh app run liên tục.
  • Bản địa hóa nội dung – thu âm một lần, sau đó biến đổi phần thuyết minh sang các accent hoặc giọng khác nhau cho từng thị trường.
  • Ngụy danh giọng nói – xử lý lại các cuộc gọi, phỏng vấn hoặc nội dung người dùng gửi trước khi xuất bản.

Nếu bạn đang dùng một framework agent hoặc lớp orchestration rộng hơn, bạn có thể gọi skill này như một bước trong pipeline bất cứ khi nào cần “voice conversion” hoặc “dubbing”.

6. Các file nên xem trong repository

Khi mở skill trong repository inferen-sh/skills, hãy bắt đầu với:

  • SKILL.md – mô tả tổng quan, khả năng và lệnh khởi động nhanh mà bạn có thể copy rồi chỉnh sửa.

Các file phổ biến khác trong skills repository (như AGENTS.md, metadata.json, và các thư mục rules/ hoặc scripts/ khi xuất hiện cùng các tool khác) cho thấy cách các skill được ghép vào những workflow agent lớn hơn. Với elevenlabs-voice-changer, SKILL.md là tài liệu chính.

Câu hỏi thường gặp (FAQ)

elevenlabs-voice-changer thực sự làm gì?

elevenlabs-voice-changer sử dụng các model speech-to-speech của ElevenLabs, được gọi thông qua inference.sh CLI, để chuyển một bản ghi giọng nói có sẵn thành một giọng AI khác. Nó giữ nguyên từ ngữ và cảm xúc ban đầu nhưng thay đổi âm sắc và cách giọng nói được thể hiện.

Tôi cài elevenlabs-voice-changer như thế nào?

Bạn không cài skill này như một ứng dụng độc lập. Thay vào đó, bạn:

  1. Cài infsh CLI theo hướng dẫn tại:
    https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

  2. Chạy infsh login để xác thực.

  3. (Tuỳ chọn) Đăng ký skill trong bộ skills của bạn bằng lệnh:

    npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-voice-changer
    

Sau đó, bạn có thể gọi ứng dụng ElevenLabs voice changer bằng infsh app run elevenlabs/voice-changer.

Tôi có cần tài khoản ElevenLabs để dùng skill này không?

Skill này thực chất là một lớp bao (wrapper) quanh các model của ElevenLabs chạy qua inference.sh. Mọi yêu cầu nền tảng để dùng ElevenLabs (như tài khoản, credit hoặc quota) đều do thiết lập inference.sh và ElevenLabs của bạn quản lý. Hãy xem tài liệu của inference.sh và ElevenLabs để biết thông tin mới nhất về truy cập và tính phí.

Tôi có thể chạy elevenlabs-voice-changer hoàn toàn cục bộ, không dùng cloud không?

Tài liệu repository cho thấy skill được chạy qua infsh kết nối tới một app ElevenLabs online. Tài liệu không mô tả chế độ offline hoàn toàn. Hãy coi là bạn sẽ cần kết nối mạng tới inference.sh và backend ElevenLabs.

Tôi có thể dùng những định dạng audio nào làm đầu vào?

Ví dụ trong tài liệu dùng một file .mp3 được phục vụ qua HTTP ("https://recording.mp3"). Định dạng và giới hạn dung lượng cụ thể do chính app ElevenLabs quy định. Để ổn định, hãy dùng các định dạng audio web phổ biến (như mp3) được host tại một URL ổn định.

Tôi có thể dùng giọng tùy chỉnh của riêng mình không?

Mô tả về skill tập trung vào bộ giọng ElevenLabs chuẩn (hơn 22 giọng premium) như georgearia. Tài liệu không mô tả quy trình huấn luyện giọng tuỳ chỉnh. Nếu bạn cần một giọng riêng, hãy xem tài liệu chính thức của ElevenLabs để biết cách tích hợp giọng custom vào app speech-to-speech của họ.

Skill này có phù hợp để đổi giọng thời gian thực không?

Repository mô tả cách dùng dựa trên file cho speech-to-speech qua CLI: bạn cung cấp URL file ghi âm và nhận lại file đã xử lý. Tài liệu không nói về chuyển đổi giọng thời gian thực hoặc trên cuộc gọi live, nên hãy coi đây là công cụ bất đồng bộ, dựa trên file, không phải voice changer live.

Khi nào tôi không nên dùng elevenlabs-voice-changer?

Hãy cân nhắc công cụ khác nếu bạn:

  • Cần một DAW đầy đủ hoặc trình chỉnh sửa nonlinear cho mixing và mastering chi tiết.
  • Cần hiệu ứng giọng live, độ trễ thấp cho streaming hoặc gaming.
  • Phải vận hành mọi thứ offline, không dùng dịch vụ cloud.

Với các tác vụ chuyển đổi giọng speech-to-speech theo kịch bản, lặp lại được qua CLI, elevenlabs-voice-changer là một lựa chọn rất phù hợp.

Tôi xem hoặc chỉnh sửa cấu hình ở đâu?

Hãy mở skill trong GitHub repository inferen-sh/skills tại:

  • tools/audio/elevenlabs-voice-changer/

Xem file SKILL.md ở đó để nắm hướng dẫn quick start, các model và tùy chọn giọng, rồi chỉnh sửa các lệnh ví dụ cho phù hợp với môi trường của bạn.

Đánh giá & nhận xét

Chưa có đánh giá nào
Chia sẻ nhận xét của bạn
Đăng nhập để chấm điểm và để lại nhận xét cho skill này.
G
0/10000
Nhận xét mới nhất
Đang lưu...