I

ai-voice-cloning

bởi inferen-sh

ai-voice-cloning là một kỹ năng dựa trên inference.sh để tạo giọng nói AI, text-to-speech và nhân bản giọng nói từ CLI. Nó bao bọc các mô hình ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs và VibeVoice để tạo giọng nói tự nhiên, đọc nhiều giọng, và biến đổi giọng nói cho các dự án audio và video.

Stars0
Yêu thích0
Bình luận0
Danh mụcVoice Generation
Lệnh cài đặt
npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning
Tổng quan

Tổng quan

ai-voice-cloning là gì?

ai-voice-cloning là một kỹ năng tập trung cho CLI dùng để tạo và nhân bản giọng nói bằng AI, được xây dựng trên nền tảng inference.sh. Nó cho phép bạn gọi các mô hình text-to-speech và chuyển đổi giọng nói ngay từ dòng lệnh, bao gồm ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs và VibeVoice.

Kỹ năng này được định nghĩa trong repository inferen-sh/skills và được thiết kế để nhúng vào các workflow agent có thể gọi Bash thông qua infsh (CLI của inference.sh). Trọng tâm là tạo giọng nói tự nhiên và biến đổi các bản thu âm sẵn có, chứ không phải huấn luyện mô hình hay quản lý dữ liệu.

Các khả năng chính

  • Text-to-speech (TTS) từ CLI bằng infsh app run ...
  • Nhiều mô hình giọng nói AI tập trung trong một nơi (ví dụ: elevenlabs/tts, infsh/kokoro-tts)
  • Voice cloning / đổi giọng cho các bản thu sẵn có thông qua ElevenLabs Voice Changer
  • Hỗ trợ nhiều giọng và nhiều ngôn ngữ (qua các mô hình ElevenLabs, theo mô tả upstream)
  • Đọc dài (long-form narration) phù hợp cho voiceover, audiobook và podcast
  • Giọng hội thoại, diễn cảm sử dụng các mô hình tinh chỉnh cho giọng nói tự nhiên

Vì ai-voice-cloning là một định nghĩa skill chứ không phải app độc lập, bạn tương tác với nó thông qua inference.sh CLI và bất kỳ agent hay công cụ nào được phép chạy lệnh Bash.

ai-voice-cloning phù hợp với ai?

Kỹ năng này phù hợp nếu bạn:

  • Làm việc với audio hoặc video và cần tạo giọng nói nhanh, có kịch bản rõ ràng
  • Xây dựng AI agent, CLI hoặc hệ thống tự động hóa cần nói hoặc thuyết minh
  • Sản xuất voiceover, video giải thích, hướng dẫn hoặc video đào tạo
  • Muốn chất lượng giọng ElevenLabs và các mô hình TTS chuyên biệt khác sau một CLI duy nhất
  • Thích làm việc qua dòng lệnh hơn là giao diện web GUI

Ít phù hợp hơn nếu bạn:

  • Cần giao diện đồ họa thuần túy, không dùng CLI
  • Muốn tự huấn luyện mô hình từ dữ liệu audio thô (kỹ năng này không hỗ trợ)
  • Yêu cầu chạy hoàn toàn trong trình duyệt hoặc trên thiết bị mà không gọi dịch vụ inference.sh

Các trường hợp sử dụng điển hình

  • Tạo track thuyết minh cho video YouTube hoặc video marketing
  • Biến kịch bản văn bản thành audiobook hoặc podcast
  • Tạo nhiều giọng nhân vật khác nhau cho đoạn hội thoại, đối thoại
  • Áp dụng voice changing lên các bản thu sẵn bằng ElevenLabs Voice Changer
  • Thêm audio prompt và giọng hệ thống cho agent, bot và các công cụ tương tác

Cách sử dụng

1. Điều kiện tiên quyết và lựa chọn cài đặt

Để dùng ai-voice-cloning, bạn cần:

  • Truy cập được inference.sh CLI (infsh)
  • Kết nối mạng tới API của inference.sh
  • Môi trường shell cho phép chạy lệnh Bash

Bạn có thể tích hợp skill vào môi trường agent của mình bằng lệnh:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Lệnh này kéo định nghĩa skill từ inferen-sh/skills và đăng ký để agent của bạn có thể gọi các tool liên quan (đặc biệt là Bash với infsh).

Để dùng trực tiếp qua CLI, bên ngoài agent, hãy cài inference.sh CLI. File SKILL.md của skill có liên kết tới hướng dẫn cài CLI tại:

  • https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Làm theo tài liệu đó để cài infsh trên hệ thống của bạn.

2. Đăng nhập vào inference.sh

Sau khi cài infsh, tiến hành xác thực:

infsh login

Làm theo hướng dẫn hiện ra để đăng nhập hoặc cấu hình thông tin xác thực như mô tả trong tài liệu cài CLI.

3. Bắt đầu nhanh: tạo giọng nói với Kokoro TTS

SKILL.md cung cấp một ví dụ đơn giản với Kokoro TTS. Sau khi đăng nhập, bạn có thể tạo giọng nói bằng:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Lệnh này làm gì:

  • Gọi app infsh/kokoro-tts
  • Gửi input JSON với prompt (văn bản cần đọc) và lựa chọn voice
  • Tạo ra giọng nói tổng hợp (xem tài liệu CLI để biết đường dẫn file output hoặc cách streaming)

Bạn có thể tùy chỉnh mẫu này cho các câu prompt và giọng được hỗ trợ khác.

4. Dùng các mô hình khác (ElevenLabs, DIA, v.v.)

SKILL.md liệt kê các mô hình có trong bảng Available Models. Từ phần trích dẫn, bạn có thể kỳ vọng các dòng như:

  • ElevenLabs TTS – App ID: elevenlabs/tts
  • ElevenLabs Voice Changer – App ID: elevenlabs/voice-changer
  • Kokoro TTS – App ID: infsh/kokoro-tts
  • DIA – App ID bắt đầu với infsh/dia-...
  • Các mô hình khác như Chatterbox, Higgs và VibeVoice cũng được nhắc đến trong mô tả skill.

Để gọi app khác, chỉ cần thay App ID trong lệnh CLI. Ví dụ, mẫu lệnh TTS với ElevenLabs thường sẽ giống:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Hãy xem tài liệu trong repository và README riêng cho từng mô hình (nếu có) để xác nhận schema input chính xác, vì mỗi mô hình có thể dùng các field khác nhau như prompt, text hoặc voice_id.

5. Đổi giọng / nhân bản giọng với ElevenLabs Voice Changer

Mô tả skill nêu rõ có ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) để biến đổi bản thu âm có sẵn. Một lệnh CLI điển hình sẽ:

  1. Tham chiếu đến file audio đầu vào (bản thu gốc của bạn)
  2. Chỉ định giọng đích hoặc các thiết lập mong muốn
  3. Xuất ra file audio đã được chuyển giọng

Mẫu lệnh chung có dạng:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Hãy kiểm tra tài liệu app trên inference.sh để xác nhận các field chính xác và định dạng được hỗ trợ.

6. Tích hợp ai-voice-cloning vào các agent

Khi bạn thêm ai-voice-cloning dưới dạng skill bằng npx skills add, một nền tảng agent hiểu định dạng inferen-sh/skills có thể:

  • Nhận biết Bash (infsh \*) là tool được phép dùng
  • Sử dụng các ví dụ và mô tả trong SKILL.md làm hướng dẫn
  • Tự động sinh các lệnh infsh app run ... phù hợp để tạo hoặc chuyển đổi audio

Để tinh chỉnh hành vi cho agent của bạn:

  1. Mở SKILL.md trong thư mục tools/audio/ai-voice-cloning.
  2. Xem kỹ các ví dụ, bảng mô hình có sẵn, và ghi chú về use case.
  3. Thêm các mẫu prompt riêng, lựa chọn giọng hoặc bước hậu xử lý trong cấu hình agent hay lớp điều phối (orchestration) của bạn.

7. Các file nên xem trong repository

Để hiểu sâu hơn cách skill được định nghĩa và cách sử dụng:

  • tools/audio/ai-voice-cloning/SKILL.md – Mô tả cốt lõi, hướng dẫn bắt đầu nhanh và danh sách mô hình
  • Các tài liệu ở thư mục gốc như README.mdcli-install.md – Hướng dẫn chung về inference.sh và thiết lập CLI

Có thể còn các tài liệu bổ sung trong thư mục tools để bạn nắm thêm bối cảnh về hệ thống tool.


Câu hỏi thường gặp (FAQ)

ai-voice-cloning là app độc lập hay định nghĩa skill?

ai-voice-cloning là một định nghĩa skill trong repository inferen-sh/skills. Nó mô tả cách một agent có thể dùng inference.sh CLI (infsh) để tạo và nhân bản giọng nói bằng AI. Bạn không nhận được ứng dụng GUI, mà là một cách rõ ràng để gọi các mô hình TTS và voice changer từ dòng lệnh hoặc từ các workflow agent có thể chạy Bash.

Tôi cần cài gì để sử dụng ai-voice-cloning?

Bạn cần:

  • inference.sh CLI (infsh) được cài và truy cập được từ shell
  • Xác thực hợp lệ cho inference.sh (thiết lập qua infsh login)
  • Môi trường cho phép chạy lệnh Bash (ví dụ: terminal trên máy hoặc môi trường runtime của agent cho phép Bash)

Tuỳ chọn, nếu bạn tích hợp vào một nền tảng agent hỗ trợ định dạng skills, hãy cài skill bằng:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Những mô hình giọng nói AI nào được hỗ trợ?

Theo mô tả skill và SKILL.md, ai-voice-cloning được thiết kế để làm việc với nhiều mô hình trên inference.sh, bao gồm:

  • ElevenLabs TTSelevenlabs/tts
  • ElevenLabs Voice Changerelevenlabs/voice-changer
  • Kokoro TTSinfsh/kokoro-tts
  • Các app TTS DIA (App ID bắt đầu với infsh/dia-...)
  • Các mô hình bổ sung như Chatterbox, HiggsVibeVoice được nhắc trong mô tả

Hãy tham khảo bảng Available Models trong SKILL.md và tài liệu inference.sh để có danh sách mới nhất, đầy đủ cùng tham số tương ứng.

ai-voice-cloning có xử lý đọc dài (long-form) được không?

Có. Skill này được mô tả rõ là phù hợp cho long-form narration và các use case như audiobook, podcast và thuyết minh video. Tuy nhiên, chi tiết về xử lý nội dung dài (như cách chia đoạn, giới hạn độ dài văn bản, cách ghép lại) phụ thuộc vào giới hạn của từng mô hình nền và runtime của inference.sh. Nếu bạn dự định xử lý kịch bản rất dài, hãy thử với các đoạn nhỏ trước và tham khảo tài liệu từng mô hình.

Khác gì so với việc dùng trực tiếp ElevenLabs hoặc nhà cung cấp khác?

ai-voice-cloning:

  • Sử dụng inference.sh CLI như một giao diện thống nhất
  • Cho phép bạn chuyển đổi giữa nhiều mô hình TTS và voice changer chỉ với các lệnh infsh app run ... tương tự nhau
  • Tích hợp tự nhiên vào kỹ năng của agent, script Bash và workflow tự động hóa

Nếu bạn đã dùng API gốc của một nhà cung cấp, ai-voice-cloning vẫn hữu ích khi bạn muốn:

  • Một CLI duy nhất trừu tượng hóa nhiều nhà cung cấp và mô hình
  • Tích hợp dễ dàng hơn với framework agent hiểu định dạng skills

ai-voice-cloning có hỗ trợ audio streaming thời gian thực không?

Phần trích SKILL.md tập trung vào lệnh dạng batch (infsh app run ...) và không nói rõ về streaming thời gian thực. Bất kỳ tuỳ chọn streaming hay độ trễ thấp nào đều phụ thuộc vào từng app trên inference.sh, chứ không phải bản thân skill. Nếu bạn cần output thời gian thực, hãy kiểm tra tài liệu inference.sh cho các mô hình bạn định dùng.

Output audio từ ai-voice-cloning có định dạng gì?

Định dạng output (ví dụ: wav, mp3) và cách cung cấp (file cục bộ, URL, v.v.) được quyết định bởi từng app inference.sh như infsh/kokoro-tts hoặc elevenlabs/tts. Skill không ép buộc định dạng audio cụ thể; nó chỉ định nghĩa cách agent có thể gọi các mô hình này. Hãy xem tài liệu từng app hoặc chạy thử lệnh để xem hành vi output mặc định.

Khi nào ai-voice-cloning không phù hợp?

Bạn có thể cần giải pháp khác nếu:

  • Bạn muốn workflow hoàn toàn không dùng CLI, chỉ trong trình duyệt
  • Bạn cần TTS offline, chạy trên thiết bị mà không gọi API bên ngoài
  • Ưu tiên của bạn là tự huấn luyện mô hình từ tập dữ liệu lớn hơn là dùng giọng dựng sẵn

Trong các trường hợp đó, hãy cân nhắc DAW trên desktop với plugin TTS tích hợp hoặc thư viện TTS chạy trên thiết bị. Nếu trọng tâm của bạn là tạo giọng nói AI có kịch bản, tự động hóa qua CLI hoặc agent, ai-voice-cloning là một lựa chọn mạnh.

Tôi có thể tìm thêm thông tin về cấu hình và tuỳ chọn nâng cao ở đâu?

Hãy bắt đầu với:

  • tools/audio/ai-voice-cloning/SKILL.md trong repository inferen-sh/skills
  • Tài liệu cài CLI: cli-install.md được tham chiếu trong SKILL.md
  • Các tài liệu riêng cho từng mô hình được liên kết từ inference.sh, như app infsh/kokoro-tts hoặc elevenlabs/tts

Những tài nguyên này cung cấp các lệnh ví dụ mới nhất, danh sách tham số và ghi chú sử dụng chi tiết hơn so với các mẫu bắt đầu nhanh ở đây.

Đánh giá & nhận xét

Chưa có đánh giá nào
Chia sẻ nhận xét của bạn
Đăng nhập để chấm điểm và để lại nhận xét cho skill này.
G
0/10000
Nhận xét mới nhất
Đang lưu...