dialogue-audio
bởi inferen-shTạo audio hội thoại nhiều người nói chân thực với Dia TTS và ElevenLabs thông qua CLI inference.sh. Kỹ năng dialogue-audio giúp bạn kiểm soát người nói, cảm xúc, nhịp độ và dòng chảy cuộc trò chuyện cho podcast, sách nói, video giải thích, cảnh nhân vật và các nội dung mang tính đối thoại khác.
Tổng quan
Kỹ năng dialogue-audio làm được gì
Kỹ năng dialogue-audio biến đoạn hội thoại dạng văn bản thành audio nhiều người nói tự nhiên bằng Dia TTS thông qua CLI inference.sh (infsh), với hỗ trợ giọng chất lượng ElevenLabs phía sau.
Kỹ năng này được thiết kế cho:
- Hội thoại giữa hai nhân vật
- Podcast, phỏng vấn dạng đối thoại
- Cảnh sách nói với người kể chuyện luân phiên
- Nội dung giải thích dạng host/guest
- Lời thoại nhân vật và bản thử nghiệm lồng tiếng
Kỹ năng tập trung vào:
- Tách người nói bằng các thẻ đơn giản như
[S1]và[S2] - Giữ giọng nhất quán cho mỗi người nói trong một phiên
- Kiểm soát cảm xúc và biểu đạt thông qua cách dùng từ và dấu câu
- Nhịp độ và dòng chảy của cuộc trò chuyện qua lại
- Gợi ý hậu kỳ để đưa audio vào quy trình sản xuất nội dung của bạn
Nếu bạn muốn một cách tự động để biến kịch bản hai người thành audio hội thoại chỉ bằng dòng lệnh, dialogue-audio được xây dựng chính xác cho nhu cầu đó.
Kỹ năng này phù hợp với ai
Kỹ năng này phù hợp nếu bạn là:
- Podcaster muốn phác thảo hoặc mô phỏng các cuộc trò chuyện
- Nhà sản xuất audio hoặc biên tập video cần thêm track giọng nói vào timeline
- Tác giả hoặc người viết kịch bản với nhiều đoạn thoại
- Lập trình viên hoặc người làm nội dung thiên về tự động hóa thích dùng CLI và quy trình có thể tái lập
Kỹ năng này không phù hợp nếu bạn cần:
- Hơn hai người nói khác nhau trong một lần sinh
- Thiết kế âm thanh phức tạp, nhạc nền hoặc mix được xử lý tự động
- Giao diện point-and-click thay vì công cụ dòng lệnh
Với các nhu cầu đó, bạn có thể cần thêm công cụ DAW hoặc dịch vụ TTS đa người nói, sau đó dùng dialogue-audio cho track hội thoại hai giọng chính.
Yêu cầu nhanh
Để dùng dialogue-audio hiệu quả, bạn cần:
- Truy cập inference.sh CLI (
infsh) - Môi trường terminal hoặc dòng lệnh (macOS, Linux, hoặc Windows với shell)
- Hiểu cơ bản về chỉnh sửa prompt văn bản và chạy lệnh CLI
Cách sử dụng
1. Cài đặt kỹ năng dialogue-audio
Bạn có thể thêm kỹ năng dialogue-audio vào môi trường Agent bằng npx:
npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio
Lệnh này tải cấu hình dialogue-audio từ repository inferen-sh/skills và giúp bạn dùng lại như một workflow có sẵn.
Tiếp theo, đảm bảo bạn đã cài inference.sh CLI (infsh). Làm theo hướng dẫn chính thức:
- Hướng dẫn cài CLI:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Sau khi cài xong, hãy xác thực:
infsh login
2. Hiểu quy trình lõi
Cốt lõi, dialogue-audio sử dụng app Dia TTS thông qua infsh:
infsh app run falai/dia-tts --input '{
"prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'
Lệnh này:
- Gọi app
falai/dia-tts - Gửi payload JSON với trường
prompt - Dùng thẻ
[S1]và[S2]để đánh dấu lượt lời - Trả về audio hội thoại cho toàn bộ đoạn trao đổi
Kỹ năng dialogue-audio gói mẫu này thành một workflow có sẵn, giúp bạn cấu trúc prompt, xử lý hai người nói rõ ràng và lặp lại để tinh chỉnh biểu đạt, nhịp độ.
3. Dùng thẻ người nói đúng cách
Dia TTS dựa vào thẻ người nói để biết ai đang nói:
[S1]— Người nói 1 (tự động gán voice A)[S2]— Người nói 2 (tự động gán voice B)
Các quy tắc chính:
- Luôn bắt đầu mỗi lượt lời bằng thẻ phù hợp
- Thẻ phải viết hoa:
[S1],[S2](không dùng[s1]hoặc[speaker1]) - Tối đa 2 người nói cho mỗi lần sinh
- Mỗi người nói giữ một giọng nhất quán trong suốt phiên
Ví dụ prompt hai người nói gọn gàng:
[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.
4. Điều chỉnh cảm xúc, giọng điệu và nhịp độ
Kỹ năng dialogue-audio khuyến khích bạn dùng tín hiệu tự nhiên trong cách viết để ảnh hưởng đến audio sinh ra:
- Dùng dấu câu (dấu phẩy, ba chấm, dấu chấm than) để tạo ngắt nghỉ và nhấn mạnh
- Dùng câu ngắn cho hội thoại nhanh, dứt khoát
- Dùng câu dài hơn hoặc ngôn ngữ miêu tả cho giọng chậm rãi, suy tư hơn
- Thêm chỉ dẫn sân khấu trong ngoặc đơn một cách tiết chế để gợi ý cảm xúc, ví dụ:
[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.
Hãy thử thay đổi nhỏ và chạy lại lệnh để nghe cách giọng điệu và nhịp độ thay đổi.
5. Lặp lại để tối ưu dòng chảy hội thoại
Để có kết quả tốt hơn với dialogue-audio:
- Soạn toàn bộ cuộc trò chuyện trong một trình soạn thảo văn bản
- Đảm bảo mọi câu đều gắn thẻ đúng và không có thẻ thừa
- Giữ các lượt lời ngắn gọn; độc thoại quá dài sẽ kém tự nhiên
- Chia các cảnh phức tạp thành nhiều lần sinh nếu cần, rồi ghép lại trong trình biên tập của bạn
Bạn có thể lặp nhanh bằng cách chỉnh nhẹ prompt và chạy lại lệnh infsh app run falai/dia-tts cho đến khi nhịp, thời lượng và cảm xúc phù hợp với dự án.
6. Hậu kỳ và tích hợp
Output từ Dia TTS là một file audio mà bạn có thể đưa vào các công cụ quen thuộc. Kỹ năng dialogue-audio tập trung vào tạo giọng, không phải mix hoàn chỉnh, nhưng bạn có thể:
- Import đoạn hội thoại đã tạo vào DAW (ví dụ Audacity, Reaper, Logic Pro)
- Thêm nhạc nền, hiệu ứng âm thanh hoặc tiếng nền phòng
- Chỉnh mức âm lượng, EQ và nén để khớp với tổng thể sản xuất
- Đồng bộ track hội thoại với video trong các trình biên tập như Premiere Pro, Final Cut hoặc DaVinci Resolve
Điều này khiến dialogue-audio trở thành một khối xây dựng tốt trong workflow audio/video lớn hơn: tạo phần trình diễn hội thoại nhiều người nói, sau đó polish bằng bộ công cụ quen thuộc của bạn.
7. Các file nên xem trong repository
Sau khi cài đặt, bạn có thể xem định nghĩa skill trong repo inferen-sh/skills để hiểu rõ hơn:
SKILL.md— Mô tả chính, hướng dẫn nhanh và ghi chú sử dụng cho workflow dialogue-audio
Hãy dùng các file này làm tài liệu tham khảo khi bạn tùy biến thiết lập cho automation hoặc pipeline CI của riêng mình.
Câu hỏi thường gặp (FAQ)
dialogue-audio chỉ giới hạn hai người nói thôi sao?
Đúng. Kỹ năng dialogue-audio, thông qua Dia TTS, được thiết kế cho tối đa hai người nói mỗi lần sinh, sử dụng thẻ [S1] và [S2]. Nếu cảnh của bạn có nhiều nhân vật hơn, bạn có thể:
- Chỉ tập trung sinh thoại cho hai nhân vật một lần, hoặc
- Chia kịch bản thành nhiều đoạn hội thoại và ghép lại trong khâu hậu kỳ.
Tôi có bắt buộc phải dùng inference.sh CLI để chạy dialogue-audio không?
Có. Kỹ năng dialogue-audio phụ thuộc vào inference.sh CLI (infsh). Bạn phải cài nó, chạy infsh login, rồi gọi infsh app run falai/dia-tts với prompt của mình. Không có infsh, bạn không thể truy cập app Dia TTS trong workflow này.
Tôi có thể chọn giọng ElevenLabs cụ thể cho từng người nói không?
Tài liệu của repository cho biết giọng được gán tự động cho mỗi người nói: [S1] gắn với một giọng và [S2] với giọng khác, giữ nhất quán trong phiên. Kỹ năng này không có tài liệu về việc chọn giọng thủ công cho từng người nói, nên hãy coi việc chọn giọng là do cấu hình Dia TTS / inference.sh xử lý, chứ không phải bằng ID giọng trong prompt.
Làm sao điều khiển cảm xúc hoặc độ mạnh nhẹ trong lời thoại?
Kỹ năng dialogue-audio dựa vào thiết kế prompt và dấu câu hơn là thanh trượt cảm xúc rõ ràng. Bạn có thể:
- Dùng từ ngữ biểu cảm (ví dụ: "shouted", "whispered", "nervously")
- Chỉnh dấu câu (
...,!,?) để tác động tới độ dài ngắt nghỉ và nhấn mạnh - Thêm chỉ dẫn ngắn trong ngoặc như
(whispering)hoặc(frustrated)khi cần
Hãy chạy các biến thể nhỏ để nghe phản hồi của mô hình và chọn phong cách phù hợp với dự án của bạn.
dialogue-audio có phù hợp cho sách nói dài không?
Có, với các đoạn nhiều hội thoại giữa hai nhân vật, dialogue-audio hoạt động khá tốt. Với nội dung rất dài:
- Chia kịch bản thành cảnh hoặc chương hợp lý
- Sinh audio theo từng đoạn và sắp xếp chúng trong DAW
- Đảm bảo thẻ và giọng điệu nhất quán giữa các đoạn
Nếu sách nói của bạn có nhiều người dẫn truyện hoặc phong cách dẫn chuyện phức tạp, bạn có thể cần thêm các thiết lập TTS khác bên cạnh kỹ năng tập trung vào hai người nói này.
Tôi có thể tự động hóa dialogue-audio trong một workflow lớn hơn không?
Có. Vì dialogue-audio được xây dựng xoay quanh infsh CLI, nó rất phù hợp cho môi trường script hoặc automation:
- Tích hợp lệnh
infsh app run falai/dia-ttsvào shell script - Chạy sinh nội dung từ pipeline CI/CD hoặc job chạy theo lịch
- Kết hợp với các skill khác từ
inferen-sh/skillsđể tạo pipeline nội dung lớn hơn
Kỹ năng này đặc biệt hữu ích cho lập trình viên và người dùng kỹ thuật muốn quy trình tạo audio tái lập, điều khiển bằng văn bản.
Khi nào dialogue-audio không phải lựa chọn phù hợp?
Hãy cân nhắc giải pháp khác nếu bạn:
- Cần hơn hai giọng riêng biệt trong một lần sinh
- Muốn workflow chỉ dùng GUI, không muốn động tới dòng lệnh
- Muốn mix tự động, nhạc nền hoặc SFX thay vì chỉ sinh lời thoại
Trong các trường hợp đó, hãy kết hợp công cụ audio chuyên dụng hoặc dịch vụ TTS đa người nói với DAW của bạn, và chỉ dùng dialogue-audio khi bạn cần một track hội thoại hai người gọn, sạch.
Tôi có thể xem cấu hình đầy đủ ở đâu?
Mở phần dialogue-audio trong repository inferen-sh/skills:
- Repo:
https://github.com/inferen-sh/skills - Skill path:
tools/audio/dialogue-audio
Hãy bắt đầu với SKILL.md để hiểu cách dùng được đề xuất và bất kỳ ghi chú cập nhật nào về tích hợp Dia TTS và lệnh CLI.
