ai-voice-cloning

bởi inferen-sh

ai-voice-cloning là một kỹ năng dựa trên inference.sh để tạo giọng nói AI, text-to-speech và nhân bản giọng nói từ CLI. Nó bao bọc các mô hình ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs và VibeVoice để tạo giọng nói tự nhiên, đọc nhiều giọng, và biến đổi giọng nói cho các dự án audio và video.

Stars0

Yêu thích0

Bình luận0

Danh mụcVoice Generation

Lệnh cài đặt

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Audio Video Developer Audience Cli Ai

Tổng quan

ai-voice-cloning là gì?

ai-voice-cloning là một kỹ năng tập trung cho CLI dùng để tạo và nhân bản giọng nói bằng AI, được xây dựng trên nền tảng inference.sh. Nó cho phép bạn gọi các mô hình text-to-speech và chuyển đổi giọng nói ngay từ dòng lệnh, bao gồm ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs và VibeVoice.

Kỹ năng này được định nghĩa trong repository inferen-sh/skills và được thiết kế để nhúng vào các workflow agent có thể gọi Bash thông qua infsh (CLI của inference.sh). Trọng tâm là tạo giọng nói tự nhiên và biến đổi các bản thu âm sẵn có, chứ không phải huấn luyện mô hình hay quản lý dữ liệu.

Các khả năng chính

Text-to-speech (TTS) từ CLI bằng infsh app run ...
Nhiều mô hình giọng nói AI tập trung trong một nơi (ví dụ: elevenlabs/tts, infsh/kokoro-tts)
Voice cloning / đổi giọng cho các bản thu sẵn có thông qua ElevenLabs Voice Changer
Hỗ trợ nhiều giọng và nhiều ngôn ngữ (qua các mô hình ElevenLabs, theo mô tả upstream)
Đọc dài (long-form narration) phù hợp cho voiceover, audiobook và podcast
Giọng hội thoại, diễn cảm sử dụng các mô hình tinh chỉnh cho giọng nói tự nhiên

Vì ai-voice-cloning là một định nghĩa skill chứ không phải app độc lập, bạn tương tác với nó thông qua inference.sh CLI và bất kỳ agent hay công cụ nào được phép chạy lệnh Bash.

ai-voice-cloning phù hợp với ai?

Kỹ năng này phù hợp nếu bạn:

Làm việc với audio hoặc video và cần tạo giọng nói nhanh, có kịch bản rõ ràng
Xây dựng AI agent, CLI hoặc hệ thống tự động hóa cần nói hoặc thuyết minh
Sản xuất voiceover, video giải thích, hướng dẫn hoặc video đào tạo
Muốn chất lượng giọng ElevenLabs và các mô hình TTS chuyên biệt khác sau một CLI duy nhất
Thích làm việc qua dòng lệnh hơn là giao diện web GUI

Ít phù hợp hơn nếu bạn:

Cần giao diện đồ họa thuần túy, không dùng CLI
Muốn tự huấn luyện mô hình từ dữ liệu audio thô (kỹ năng này không hỗ trợ)
Yêu cầu chạy hoàn toàn trong trình duyệt hoặc trên thiết bị mà không gọi dịch vụ inference.sh

Các trường hợp sử dụng điển hình

Tạo track thuyết minh cho video YouTube hoặc video marketing
Biến kịch bản văn bản thành audiobook hoặc podcast
Tạo nhiều giọng nhân vật khác nhau cho đoạn hội thoại, đối thoại
Áp dụng voice changing lên các bản thu sẵn bằng ElevenLabs Voice Changer
Thêm audio prompt và giọng hệ thống cho agent, bot và các công cụ tương tác

Cách sử dụng

1. Điều kiện tiên quyết và lựa chọn cài đặt

Để dùng ai-voice-cloning, bạn cần:

Truy cập được inference.sh CLI (infsh)
Kết nối mạng tới API của inference.sh
Môi trường shell cho phép chạy lệnh Bash

Bạn có thể tích hợp skill vào môi trường agent của mình bằng lệnh:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Lệnh này kéo định nghĩa skill từ inferen-sh/skills và đăng ký để agent của bạn có thể gọi các tool liên quan (đặc biệt là Bash với infsh).

Để dùng trực tiếp qua CLI, bên ngoài agent, hãy cài inference.sh CLI. File SKILL.md của skill có liên kết tới hướng dẫn cài CLI tại:

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Làm theo tài liệu đó để cài infsh trên hệ thống của bạn.

2. Đăng nhập vào inference.sh

Sau khi cài infsh, tiến hành xác thực:

infsh login

Làm theo hướng dẫn hiện ra để đăng nhập hoặc cấu hình thông tin xác thực như mô tả trong tài liệu cài CLI.

3. Bắt đầu nhanh: tạo giọng nói với Kokoro TTS

SKILL.md cung cấp một ví dụ đơn giản với Kokoro TTS. Sau khi đăng nhập, bạn có thể tạo giọng nói bằng:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Hello! This is an AI-generated voice that sounds natural and engaging.",
  "voice": "af_sarah"
}'

Lệnh này làm gì:

Gọi app infsh/kokoro-tts
Gửi input JSON với prompt (văn bản cần đọc) và lựa chọn voice
Tạo ra giọng nói tổng hợp (xem tài liệu CLI để biết đường dẫn file output hoặc cách streaming)

Bạn có thể tùy chỉnh mẫu này cho các câu prompt và giọng được hỗ trợ khác.

4. Dùng các mô hình khác (ElevenLabs, DIA, v.v.)

SKILL.md liệt kê các mô hình có trong bảng Available Models. Từ phần trích dẫn, bạn có thể kỳ vọng các dòng như:

ElevenLabs TTS – App ID: elevenlabs/tts
ElevenLabs Voice Changer – App ID: elevenlabs/voice-changer
Kokoro TTS – App ID: infsh/kokoro-tts
DIA – App ID bắt đầu với infsh/dia-...
Các mô hình khác như Chatterbox, Higgs và VibeVoice cũng được nhắc đến trong mô tả skill.

Để gọi app khác, chỉ cần thay App ID trong lệnh CLI. Ví dụ, mẫu lệnh TTS với ElevenLabs thường sẽ giống:

infsh app run elevenlabs/tts --input '{
  "text": "This audio was generated using the ai-voice-cloning skill.",
  "voice": "some_voice_id"
}'

Hãy xem tài liệu trong repository và README riêng cho từng mô hình (nếu có) để xác nhận schema input chính xác, vì mỗi mô hình có thể dùng các field khác nhau như prompt, text hoặc voice_id.

5. Đổi giọng / nhân bản giọng với ElevenLabs Voice Changer

Mô tả skill nêu rõ có ElevenLabs Voice Changer (App ID elevenlabs/voice-changer) để biến đổi bản thu âm có sẵn. Một lệnh CLI điển hình sẽ:

Tham chiếu đến file audio đầu vào (bản thu gốc của bạn)
Chỉ định giọng đích hoặc các thiết lập mong muốn
Xuất ra file audio đã được chuyển giọng

Mẫu lệnh chung có dạng:

infsh app run elevenlabs/voice-changer --input '{
  "audio_url": "https://.../your-input-audio.wav",
  "voice": "target_voice_id"
}'

Hãy kiểm tra tài liệu app trên inference.sh để xác nhận các field chính xác và định dạng được hỗ trợ.

6. Tích hợp ai-voice-cloning vào các agent

Khi bạn thêm ai-voice-cloning dưới dạng skill bằng npx skills add, một nền tảng agent hiểu định dạng inferen-sh/skills có thể:

Nhận biết Bash (infsh \*) là tool được phép dùng
Sử dụng các ví dụ và mô tả trong SKILL.md làm hướng dẫn
Tự động sinh các lệnh infsh app run ... phù hợp để tạo hoặc chuyển đổi audio

Để tinh chỉnh hành vi cho agent của bạn:

Mở SKILL.md trong thư mục tools/audio/ai-voice-cloning.
Xem kỹ các ví dụ, bảng mô hình có sẵn, và ghi chú về use case.
Thêm các mẫu prompt riêng, lựa chọn giọng hoặc bước hậu xử lý trong cấu hình agent hay lớp điều phối (orchestration) của bạn.

7. Các file nên xem trong repository

Để hiểu sâu hơn cách skill được định nghĩa và cách sử dụng:

tools/audio/ai-voice-cloning/SKILL.md – Mô tả cốt lõi, hướng dẫn bắt đầu nhanh và danh sách mô hình
Các tài liệu ở thư mục gốc như README.md và cli-install.md – Hướng dẫn chung về inference.sh và thiết lập CLI

Có thể còn các tài liệu bổ sung trong thư mục tools để bạn nắm thêm bối cảnh về hệ thống tool.

Câu hỏi thường gặp (FAQ)

ai-voice-cloning là app độc lập hay định nghĩa skill?

ai-voice-cloning là một định nghĩa skill trong repository inferen-sh/skills. Nó mô tả cách một agent có thể dùng inference.sh CLI (infsh) để tạo và nhân bản giọng nói bằng AI. Bạn không nhận được ứng dụng GUI, mà là một cách rõ ràng để gọi các mô hình TTS và voice changer từ dòng lệnh hoặc từ các workflow agent có thể chạy Bash.

Tôi cần cài gì để sử dụng ai-voice-cloning?

Bạn cần:

inference.sh CLI (infsh) được cài và truy cập được từ shell
Xác thực hợp lệ cho inference.sh (thiết lập qua infsh login)
Môi trường cho phép chạy lệnh Bash (ví dụ: terminal trên máy hoặc môi trường runtime của agent cho phép Bash)

Tuỳ chọn, nếu bạn tích hợp vào một nền tảng agent hỗ trợ định dạng skills, hãy cài skill bằng:

npx skills add https://github.com/inferen-sh/skills --skill ai-voice-cloning

Những mô hình giọng nói AI nào được hỗ trợ?

Theo mô tả skill và SKILL.md, ai-voice-cloning được thiết kế để làm việc với nhiều mô hình trên inference.sh, bao gồm:

ElevenLabs TTS – elevenlabs/tts
ElevenLabs Voice Changer – elevenlabs/voice-changer
Kokoro TTS – infsh/kokoro-tts
Các app TTS DIA (App ID bắt đầu với infsh/dia-...)
Các mô hình bổ sung như Chatterbox, Higgs và VibeVoice được nhắc trong mô tả

Hãy tham khảo bảng Available Models trong SKILL.md và tài liệu inference.sh để có danh sách mới nhất, đầy đủ cùng tham số tương ứng.

ai-voice-cloning có xử lý đọc dài (long-form) được không?

Có. Skill này được mô tả rõ là phù hợp cho long-form narration và các use case như audiobook, podcast và thuyết minh video. Tuy nhiên, chi tiết về xử lý nội dung dài (như cách chia đoạn, giới hạn độ dài văn bản, cách ghép lại) phụ thuộc vào giới hạn của từng mô hình nền và runtime của inference.sh. Nếu bạn dự định xử lý kịch bản rất dài, hãy thử với các đoạn nhỏ trước và tham khảo tài liệu từng mô hình.

Khác gì so với việc dùng trực tiếp ElevenLabs hoặc nhà cung cấp khác?

ai-voice-cloning:

Sử dụng inference.sh CLI như một giao diện thống nhất
Cho phép bạn chuyển đổi giữa nhiều mô hình TTS và voice changer chỉ với các lệnh infsh app run ... tương tự nhau
Tích hợp tự nhiên vào kỹ năng của agent, script Bash và workflow tự động hóa

Nếu bạn đã dùng API gốc của một nhà cung cấp, ai-voice-cloning vẫn hữu ích khi bạn muốn:

Một CLI duy nhất trừu tượng hóa nhiều nhà cung cấp và mô hình
Tích hợp dễ dàng hơn với framework agent hiểu định dạng skills

ai-voice-cloning có hỗ trợ audio streaming thời gian thực không?

Phần trích SKILL.md tập trung vào lệnh dạng batch (infsh app run ...) và không nói rõ về streaming thời gian thực. Bất kỳ tuỳ chọn streaming hay độ trễ thấp nào đều phụ thuộc vào từng app trên inference.sh, chứ không phải bản thân skill. Nếu bạn cần output thời gian thực, hãy kiểm tra tài liệu inference.sh cho các mô hình bạn định dùng.

Output audio từ ai-voice-cloning có định dạng gì?

Định dạng output (ví dụ: wav, mp3) và cách cung cấp (file cục bộ, URL, v.v.) được quyết định bởi từng app inference.sh như infsh/kokoro-tts hoặc elevenlabs/tts. Skill không ép buộc định dạng audio cụ thể; nó chỉ định nghĩa cách agent có thể gọi các mô hình này. Hãy xem tài liệu từng app hoặc chạy thử lệnh để xem hành vi output mặc định.

Khi nào ai-voice-cloning không phù hợp?

Bạn có thể cần giải pháp khác nếu:

Bạn muốn workflow hoàn toàn không dùng CLI, chỉ trong trình duyệt
Bạn cần TTS offline, chạy trên thiết bị mà không gọi API bên ngoài
Ưu tiên của bạn là tự huấn luyện mô hình từ tập dữ liệu lớn hơn là dùng giọng dựng sẵn

Trong các trường hợp đó, hãy cân nhắc DAW trên desktop với plugin TTS tích hợp hoặc thư viện TTS chạy trên thiết bị. Nếu trọng tâm của bạn là tạo giọng nói AI có kịch bản, tự động hóa qua CLI hoặc agent, ai-voice-cloning là một lựa chọn mạnh.

Tôi có thể tìm thêm thông tin về cấu hình và tuỳ chọn nâng cao ở đâu?

Hãy bắt đầu với:

tools/audio/ai-voice-cloning/SKILL.md trong repository inferen-sh/skills
Tài liệu cài CLI: cli-install.md được tham chiếu trong SKILL.md
Các tài liệu riêng cho từng mô hình được liên kết từ inference.sh, như app infsh/kokoro-tts hoặc elevenlabs/tts

Những tài nguyên này cung cấp các lệnh ví dụ mới nhất, danh sách tham số và ghi chú sử dụng chi tiết hơn so với các mẫu bắt đầu nhanh ở đây.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

elevenlabs-voice-changer

by inferen-sh

Skill ElevenLabs voice changer sử dụng CLI inference.sh (infsh) để biến đổi giọng nói ghi âm sang một giọng tổng hợp khác, vẫn giữ nguyên nội dung và cảm xúc. Hỗ trợ eleven_multilingual_sts_v2 (hơn 70 ngôn ngữ) và eleven_english_sts_v2 cho tác vụ speech-to-speech, đổi accent và ngụy trang giọng nói trong sáng tạo nội dung, lồng tiếng và tạo giọng nhân vật.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Tạo nhạc AI và bài hát hoàn chỉnh từ prompt văn bản bằng ElevenLabs Music, Diffrythm và Tencent Song Generation thông qua CLI inference.sh. Lý tưởng cho nhạc nền, soundtrack, clip mạng xã hội, podcast và nhạc không bản quyền. Hỗ trợ tạo bài hát nhanh, bản nhạc không lời và bài hát đầy đủ giọng hát.

Voice Generation

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Tạo audio hội thoại nhiều người nói chân thực với Dia TTS và ElevenLabs thông qua CLI inference.sh. Kỹ năng dialogue-audio giúp bạn kiểm soát người nói, cảm xúc, nhịp độ và dòng chảy cuộc trò chuyện cho podcast, sách nói, video giải thích, cảnh nhân vật và các nội dung mang tính đối thoại khác.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing cho phép bạn tự động lồng tiếng và dịch âm thanh hoặc video sang 29 ngôn ngữ bằng CLI inference.sh, đồng thời giữ nguyên giọng nói của người nói ban đầu. Rất phù hợp cho biên tập viên video, podcaster và các đội ngũ bản địa hóa cần tạo nhanh phiên bản đa ngôn ngữ chất lượng cao cho nội dung sẵn có.

Video Editing

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Tạo nhạc AI gốc từ prompt văn bản bằng inference.sh CLI và ElevenLabs. Kiểm soát độ dài, phong cách và mood để tạo nhạc nền, soundtrack, jingle, nhạc lót podcast và âm thanh game không bản quyền trực tiếp từ terminal của bạn.

Audio Editing

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

ElevenLabs text-to-speech thông qua inference.sh CLI, với hơn 22 giọng đọc cao cấp, hỗ trợ đa ngôn ngữ và các tùy chọn model nhanh cho quy trình tạo giọng nói phục vụ sản xuất.

Voice Generation

Favorites 0GitHub 0

elevenlabs-stt

by inferen-sh

Chuyển giọng nói thành văn bản độ chính xác cao với ElevenLabs thông qua inference.sh CLI, dùng các model Scribe v1/v2. Hỗ trợ nhận dạng lời nói, phân tách người nói, gắn nhãn sự kiện âm thanh, timestamp theo từng từ, forced alignment và tạo phụ đề cho họp, podcast và các quy trình xử lý audio khác.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Tạo audio hội thoại nhiều người nói được xử lý mượt mà với ElevenLabs thông qua CLI inference.sh. Biến kịch bản có cấu trúc thành các cuộc trò chuyện tự nhiên với nhiều giọng trong một file duy nhất cho podcast, sách nói, video giải thích, hướng dẫn, thoại nhân vật và kịch bản video.

Voice Generation

Favorites 0GitHub 0