ai-podcast-creation

bởi inferen-sh

Tạo podcast và nội dung giọng nói dùng AI từ văn bản với Kokoro TTS, DIA TTS và CLI inference.sh. Trộn nhiều giọng, thêm nhạc và lắp ráp trọn vẹn các tập cho podcast, sách nói và bản tin âm thanh.

Stars0

Yêu thích0

Bình luận0

Đã thêm27 thg 3, 2026

Danh mụcVoice Generation

Lệnh cài đặt

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Audio Video Automation Workflow Cli Ai

Tổng quan

ai-podcast-creation là gì?

Skill ai-podcast-creation là một workflow chuyên tạo podcast và nội dung giọng nói dùng AI với CLI inference.sh. Trọng tâm là chuyển prompt dạng văn bản thành giọng đọc tự nhiên bằng Kokoro TTS và DIA TTS, sau đó dùng thêm các công cụ nhạc nền và ghép media để tạo thành các đoạn podcast hoàn chỉnh.

Skill này được thiết kế cho những người sáng tạo nội dung muốn một pipeline tự động từ script sang audio, thay vì phải tự thu và chỉnh sửa giọng đọc thủ công.

Các khả năng chính

Với ai-podcast-creation, bạn có thể:

Tạo text-to-speech chất lượng cao bằng Kokoro TTS thông qua infsh app run infsh/kokoro-tts.
Dùng các voice ID dựng sẵn (ví dụ: af_sarah, af_nicole, am_michael) phù hợp cho host, khách mời hoặc người thuyết minh.
Tạo các đoạn podcast và phần thuyết minh trực tiếp từ script viết sẵn.
Xây dựng cuộc hội thoại đa giọng và giọng nhân vật bằng cách gọi app TTS nhiều lần với các voice ID khác nhau.
Tích hợp với các app khác trên inference.sh như DIA TTS, Chatterbox, AI music generation và media merger để thêm nhạc nền và lắp ráp nhiều track (như mô tả trong skill).

Skill này phù hợp với ai?

ai-podcast-creation phù hợp nếu bạn là:

Nhà làm podcast hoặc đội ngũ sản xuất muốn prototype hoặc tự động hóa các tập mới.
Marketer nội dung muốn chuyển bài viết, newsletter thành audio.
Indie developer hoặc kỹ sư tự động hóa xây dựng workflow media dựa trên CLI.
Nhà nghiên cứu hoặc giáo viên tạo audio dạng bài giảng hoặc nội dung giải thích.

Skill này sẽ kém phù hợp nếu bạn cần:

Voice chat tương tác thời gian thực trong trình duyệt (skill này tập trung vào CLI).
Chỉnh sửa kiểu DAW thủ công trực tiếp trong skill (bạn sẽ xuất file audio rồi chỉnh trong công cụ riêng).

Khi nào nên dùng ai-podcast-creation

Hãy dùng skill này khi:

Bạn đã có sẵn script, show notes hoặc nội dung dài và muốn chuyển chúng thành giọng đọc.
Bạn ưu tiên tự động hóa trong terminal và pipeline có thể lặp lại, hơn là các công cụ GUI.
Bạn muốn thử nghiệm giọng đọc nhanh trước khi đầu tư vào setup sản xuất phức tạp hơn.

Cân nhắc giải pháp khác nếu bạn:

Chỉ cần hậu kỳ audio rất tùy biến bên trong DAW.
Không thể cài đặt hoặc sử dụng CLI inference.sh (infsh), đây là yêu cầu bắt buộc của skill.

Cách sử dụng

Yêu cầu trước

Để chạy ai-podcast-creation, bạn cần:

Truy cập được terminal trên macOS, Linux hoặc môi trường WSL/ tương thích.
Đã cài CLI inference.sh (infsh).
Tài khoản inference.sh hợp lệ và thông tin đăng nhập để chạy infsh login.

SKILL.md của skill ghi rõ:

Requires inference.sh CLI (infsh). Install instructions

Hãy làm theo đường dẫn đó để xem hướng dẫn cài CLI chính thức trước khi dùng skill này.

1. Cài đặt skill ai-podcast-creation

Dùng Agent Skills CLI để thêm skill từ repository inferen-sh/skills:

npx skills add https://github.com/inferen-sh/skills --skill ai-podcast-creation

Lệnh này sẽ tải về hướng dẫn và metadata cho ai-podcast-creation để agent hoặc toolchain của bạn có thể tham chiếu.

2. Thiết lập inference.sh CLI

Sau khi cài CLI, tiến hành xác thực:

infsh login

Làm theo hướng dẫn trên màn hình để hoàn tất đăng nhập với tài khoản inference.sh của bạn.

Sau khi đăng nhập, bạn có thể gọi các app như infsh/kokoro-tts trực tiếp từ terminal hoặc trong các workflow script.

3. Tạo đoạn podcast đầu tiên

Cách nhanh nhất để thử ai-podcast-creation là chạy ví dụ Kokoro TTS trong SKILL.md:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "Welcome to the AI Frontiers podcast. Today we explore the latest developments in generative AI.",
  "voice": "am_michael"
}'

Lệnh này sẽ:

Gửi nội dung prompt đến app infsh/kokoro-tts.
Dùng giọng am_michael (nam Mỹ, phong cách uy tín, phù hợp nội dung tài liệu hoặc công nghệ).
Trả về file audio đã sinh, bạn có thể lưu lại hoặc pipe sang bước xử lý tiếp theo tùy cấu hình CLI.

4. Chọn giọng đọc phù hợp

Tài liệu của skill cung cấp bảng giọng dưới mục Available Voices → Kokoro TTS. Một số giọng ví dụ:

af_sarah – Nữ Mỹ, ấm áp; phù hợp làm host và người thuyết minh.
af_nicole – Nữ Mỹ, chuyên nghiệp; phù hợp chương trình tin tức hoặc business.
am_michael – Nam Mỹ, uy tín; phù hợp podcast công nghệ hoặc tài liệu.

Bạn có thể thay giọng trong lệnh của mình:

infsh app run infsh/kokoro-tts --input '{
  "prompt": "In today\'s episode, we break down three key trends in machine learning.",
  "voice": "af_nicole"
}'

Bằng cách chạy nhiều lệnh với các giọng và prompt khác nhau, bạn có thể tạo các đoạn hội thoại nhiều người và sau đó ghép với nhạc hoặc hiệu ứng bằng các app khác được mô tả trong skill (ví dụ: media merger).

5. Xây dựng workflow có thể lặp lại

Khi đã quen với việc tạo từng câu/đoạn, hãy đóng gói quy trình vào script. Ví dụ, bạn có thể:

Lưu script tập podcast vào file như episode01.txt.
Tách thành các đoạn: intro của host, câu trả lời của khách mời, outro.
Gọi infsh app run infsh/kokoro-tts cho từng đoạn với các giọng khác nhau.
Dùng thêm các app trên inference.sh (AI music generation, media merger) để thêm nhạc mở đầu, nền, hoặc crossfade như gợi ý trong mô tả skill.

Dù phần trích từ repository tập trung vào Kokoro TTS, mô tả SKILL cho biết còn hỗ trợ DIA TTS và Chatterbox. Bạn sẽ làm theo mẫu infsh app run tương tự với các app đó, dùng các tham số được tài liệu của chúng quy định.

6. Xem thêm tài liệu skill trong repo

Sau khi cài, hãy mở các file của skill để xem hướng dẫn chi tiết hơn:

SKILL.md – Hướng dẫn chính cho ai-podcast-creation, gồm quick start và chi tiết về các giọng có sẵn.
Các thư mục liên quan trong repository (ví dụ: guides/content/ai-podcast-creation) – Chứa nội dung mở rộng và ví dụ về workflow TTS và media.

Dựa vào các tài liệu này, bạn có thể tối ưu:

Cách chọn giọng cho các định dạng chương trình khác nhau.
Cách xâu chuỗi TTS, nhạc, và ghép media.
Cách thích nghi workflow với hệ thống tự động hóa hoặc CI/CD sẵn có.

Câu hỏi thường gặp (FAQ)

ai-podcast-creation thực sự làm được gì?

ai-podcast-creation là một workflow được tài liệu hóa, hướng dẫn bạn sử dụng CLI inference.sh, Kokoro TTS, DIA TTS, Chatterbox và các app liên quan để tạo audio dạng podcast từ văn bản. Skill cung cấp lựa chọn giọng đọc, ví dụ lệnh, và hướng dẫn lắp ráp trọn một tập với nhạc và công cụ chỉnh sửa.

Tôi có bắt buộc phải cài inference.sh CLI để dùng skill này không?

Có. Skill yêu cầu rõ ràng phải có inference.sh CLI (infsh). Bạn cần cài đặt và chạy infsh login trước khi có thể dùng các lệnh như:

infsh app run infsh/kokoro-tts --input '{"prompt": "...", "voice": "am_michael"}'

Không có infsh, workflow ai-podcast-creation sẽ không thể chạy.

Tôi có thể tạo hội thoại đa giọng bằng skill này không?

Có. Dù ví dụ code chỉ minh họa một giọng, mô tả skill nhấn mạnh multi-voice conversations. Bạn triển khai bằng cách:

Gọi app TTS nhiều lần với các voice ID khác nhau cho từng người nói.
Sinh các clip audio riêng cho từng câu hoặc đoạn.
Ghép các clip đó (và nhạc nếu cần) bằng công cụ ghép media, như được nêu trong mô tả skill.

Đây có phải là công cụ chỉnh sửa podcast đầy đủ hoặc thay thế DAW không?

Không. ai-podcast-creation tập trung vào khâu sinh và lắp ráp bằng các app CLI. Nó đặc biệt hữu ích cho:

Chuyển script thành audio.
Tạo nội dung đa giọng và nhạc AI.
Workflow tự động hoặc xử lý hàng loạt.

Để chỉnh sửa waveform chi tiết, mix hoặc master, bạn vẫn nên dùng DAW chuyên dụng (như Audacity, Reaper, v.v.) sau khi đã sinh xong file audio.

Tôi có thể dùng ai-podcast-creation cho sách nói và voiceover không?

Có. Mô tả skill nêu rõ các use case như sách nói, nội dung giọng đọc và bản tin âm thanh. Những lệnh TTS bạn dùng cho podcast cũng có thể đọc nội dung dài, tài liệu đào tạo hoặc script quảng cáo. Bạn chỉ cần điều chỉnh cấu trúc script và lựa chọn giọng cho phù hợp định dạng.

ai-podcast-creation khác gì so với các công cụ podcast AI chạy trên trình duyệt?

Các công cụ chạy trên trình duyệt thường cung cấp GUI, trong khi ai-podcast-creation là CLI-first và dễ script hóa. Hãy chọn ai-podcast-creation nếu bạn:

Ưa thích tự động hóa và workflow dòng lệnh có thể lặp lại.
Muốn tích hợp sinh giọng nói vào pipeline hiện tại, cron job hoặc CI.

Chọn công cụ trên trình duyệt nếu bạn:

Cần giao diện point-and-click.
Không định làm việc với terminal hoặc script.

Tôi có thể tìm danh sách giọng đọc ở đâu?

Danh sách giọng cho Kokoro TTS nằm trong SKILL.md dưới mục Available Voices → Kokoro TTS. Hãy mở file đó trong repository inferen-sh/skills để xem từng voice ID, mô tả và gợi ý sử dụng (ví dụ: host, narrator, news).

Tôi nên làm gì nếu lệnh bị lỗi?

Nếu infsh app run bị lỗi:

Kiểm tra lại CLI inference.sh đã cài đúng chưa theo hướng dẫn chính thức.
Chạy lại infsh login để đảm bảo session còn hiệu lực.
Kiểm tra JSON trong phần --input có hợp lệ không (dấu nháy và escape chính xác).
Xác nhận tên app (infsh/kokoro-tts) và các voice ID khớp với tài liệu trong SKILL.md.

Nếu vẫn không khắc phục được, hãy tham khảo tài liệu chính của inference.sh hoặc mục issues trong repository để tìm trợ giúp phù hợp với môi trường của bạn.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

elevenlabs-music

by inferen-sh

Tạo nhạc AI gốc từ prompt văn bản bằng inference.sh CLI và ElevenLabs. Kiểm soát độ dài, phong cách và mood để tạo nhạc nền, soundtrack, jingle, nhạc lót podcast và âm thanh game không bản quyền trực tiếp từ terminal của bạn.

Audio Editing

Favorites 0GitHub 0

elevenlabs-voice-changer

by inferen-sh

Skill ElevenLabs voice changer sử dụng CLI inference.sh (infsh) để biến đổi giọng nói ghi âm sang một giọng tổng hợp khác, vẫn giữ nguyên nội dung và cảm xúc. Hỗ trợ eleven_multilingual_sts_v2 (hơn 70 ngôn ngữ) và eleven_english_sts_v2 cho tác vụ speech-to-speech, đổi accent và ngụy trang giọng nói trong sáng tạo nội dung, lồng tiếng và tạo giọng nhân vật.

Voice Generation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning là một kỹ năng dựa trên inference.sh để tạo giọng nói AI, text-to-speech và nhân bản giọng nói từ CLI. Nó bao bọc các mô hình ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs và VibeVoice để tạo giọng nói tự nhiên, đọc nhiều giọng, và biến đổi giọng nói cho các dự án audio và video.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dialogue

by inferen-sh

Tạo audio hội thoại nhiều người nói được xử lý mượt mà với ElevenLabs thông qua CLI inference.sh. Biến kịch bản có cấu trúc thành các cuộc trò chuyện tự nhiên với nhiều giọng trong một file duy nhất cho podcast, sách nói, video giải thích, hướng dẫn, thoại nhân vật và kịch bản video.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

ElevenLabs text-to-speech thông qua inference.sh CLI, với hơn 22 giọng đọc cao cấp, hỗ trợ đa ngôn ngữ và các tùy chọn model nhanh cho quy trình tạo giọng nói phục vụ sản xuất.

Voice Generation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing cho phép bạn tự động lồng tiếng và dịch âm thanh hoặc video sang 29 ngôn ngữ bằng CLI inference.sh, đồng thời giữ nguyên giọng nói của người nói ban đầu. Rất phù hợp cho biên tập viên video, podcaster và các đội ngũ bản địa hóa cần tạo nhanh phiên bản đa ngôn ngữ chất lượng cao cho nội dung sẵn có.

Video Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Tạo audio hội thoại nhiều người nói chân thực với Dia TTS và ElevenLabs thông qua CLI inference.sh. Kỹ năng dialogue-audio giúp bạn kiểm soát người nói, cảm xúc, nhịp độ và dòng chảy cuộc trò chuyện cho podcast, sách nói, video giải thích, cảnh nhân vật và các nội dung mang tính đối thoại khác.

Voice Generation

Favorites 0GitHub 0

ai-music-generation

by inferen-sh

Tạo nhạc AI và bài hát hoàn chỉnh từ prompt văn bản bằng ElevenLabs Music, Diffrythm và Tencent Song Generation thông qua CLI inference.sh. Lý tưởng cho nhạc nền, soundtrack, clip mạng xã hội, podcast và nhạc không bản quyền. Hỗ trợ tạo bài hát nhanh, bản nhạc không lời và bài hát đầy đủ giọng hát.

Voice Generation

Favorites 0GitHub 0