dialogue-audio

bởi inferen-sh

Tạo audio hội thoại nhiều người nói chân thực với Dia TTS và ElevenLabs thông qua CLI inference.sh. Kỹ năng dialogue-audio giúp bạn kiểm soát người nói, cảm xúc, nhịp độ và dòng chảy cuộc trò chuyện cho podcast, sách nói, video giải thích, cảnh nhân vật và các nội dung mang tính đối thoại khác.

Stars0

Yêu thích0

Bình luận0

Đã thêm27 thg 3, 2026

Danh mụcVoice Generation

Lệnh cài đặt

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Audio Video Workflow Cli

Tổng quan

Kỹ năng dialogue-audio làm được gì

Kỹ năng dialogue-audio biến đoạn hội thoại dạng văn bản thành audio nhiều người nói tự nhiên bằng Dia TTS thông qua CLI inference.sh (infsh), với hỗ trợ giọng chất lượng ElevenLabs phía sau.

Kỹ năng này được thiết kế cho:

Hội thoại giữa hai nhân vật
Podcast, phỏng vấn dạng đối thoại
Cảnh sách nói với người kể chuyện luân phiên
Nội dung giải thích dạng host/guest
Lời thoại nhân vật và bản thử nghiệm lồng tiếng

Kỹ năng tập trung vào:

Tách người nói bằng các thẻ đơn giản như [S1] và [S2]
Giữ giọng nhất quán cho mỗi người nói trong một phiên
Kiểm soát cảm xúc và biểu đạt thông qua cách dùng từ và dấu câu
Nhịp độ và dòng chảy của cuộc trò chuyện qua lại
Gợi ý hậu kỳ để đưa audio vào quy trình sản xuất nội dung của bạn

Nếu bạn muốn một cách tự động để biến kịch bản hai người thành audio hội thoại chỉ bằng dòng lệnh, dialogue-audio được xây dựng chính xác cho nhu cầu đó.

Kỹ năng này phù hợp với ai

Kỹ năng này phù hợp nếu bạn là:

Podcaster muốn phác thảo hoặc mô phỏng các cuộc trò chuyện
Nhà sản xuất audio hoặc biên tập video cần thêm track giọng nói vào timeline
Tác giả hoặc người viết kịch bản với nhiều đoạn thoại
Lập trình viên hoặc người làm nội dung thiên về tự động hóa thích dùng CLI và quy trình có thể tái lập

Kỹ năng này không phù hợp nếu bạn cần:

Hơn hai người nói khác nhau trong một lần sinh
Thiết kế âm thanh phức tạp, nhạc nền hoặc mix được xử lý tự động
Giao diện point-and-click thay vì công cụ dòng lệnh

Với các nhu cầu đó, bạn có thể cần thêm công cụ DAW hoặc dịch vụ TTS đa người nói, sau đó dùng dialogue-audio cho track hội thoại hai giọng chính.

Yêu cầu nhanh

Để dùng dialogue-audio hiệu quả, bạn cần:

Truy cập inference.sh CLI (infsh)
Môi trường terminal hoặc dòng lệnh (macOS, Linux, hoặc Windows với shell)
Hiểu cơ bản về chỉnh sửa prompt văn bản và chạy lệnh CLI

Cách sử dụng

1. Cài đặt kỹ năng dialogue-audio

Bạn có thể thêm kỹ năng dialogue-audio vào môi trường Agent bằng npx:

npx skills add https://github.com/inferen-sh/skills --skill dialogue-audio

Lệnh này tải cấu hình dialogue-audio từ repository inferen-sh/skills và giúp bạn dùng lại như một workflow có sẵn.

Tiếp theo, đảm bảo bạn đã cài inference.sh CLI (infsh). Làm theo hướng dẫn chính thức:

Hướng dẫn cài CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Sau khi cài xong, hãy xác thực:

infsh login

2. Hiểu quy trình lõi

Cốt lõi, dialogue-audio sử dụng app Dia TTS thông qua infsh:

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Lệnh này:

Gọi app falai/dia-tts
Gửi payload JSON với trường prompt
Dùng thẻ [S1] và [S2] để đánh dấu lượt lời
Trả về audio hội thoại cho toàn bộ đoạn trao đổi

Kỹ năng dialogue-audio gói mẫu này thành một workflow có sẵn, giúp bạn cấu trúc prompt, xử lý hai người nói rõ ràng và lặp lại để tinh chỉnh biểu đạt, nhịp độ.

3. Dùng thẻ người nói đúng cách

Dia TTS dựa vào thẻ người nói để biết ai đang nói:

[S1] — Người nói 1 (tự động gán voice A)
[S2] — Người nói 2 (tự động gán voice B)

Các quy tắc chính:

Luôn bắt đầu mỗi lượt lời bằng thẻ phù hợp
Thẻ phải viết hoa: [S1], [S2] (không dùng [s1] hoặc [speaker1])
Tối đa 2 người nói cho mỗi lần sinh
Mỗi người nói giữ một giọng nhất quán trong suốt phiên

Ví dụ prompt hai người nói gọn gàng:

[S1] Welcome back to the show. Today we are talking about productivity hacks.
[S2] I am excited for this. Some of these tricks saved me hours every week.
[S1] Let’s start with batching tasks. Why does it work so well?
[S2] Because you stay in the same mental mode instead of constantly context switching.

4. Điều chỉnh cảm xúc, giọng điệu và nhịp độ

Kỹ năng dialogue-audio khuyến khích bạn dùng tín hiệu tự nhiên trong cách viết để ảnh hưởng đến audio sinh ra:

Dùng dấu câu (dấu phẩy, ba chấm, dấu chấm than) để tạo ngắt nghỉ và nhấn mạnh
Dùng câu ngắn cho hội thoại nhanh, dứt khoát
Dùng câu dài hơn hoặc ngôn ngữ miêu tả cho giọng chậm rãi, suy tư hơn
Thêm chỉ dẫn sân khấu trong ngoặc đơn một cách tiết chế để gợi ý cảm xúc, ví dụ:

[S1] (laughing softly) I honestly did not expect that to work.
[S2] Me neither, but I am glad we tried.

Hãy thử thay đổi nhỏ và chạy lại lệnh để nghe cách giọng điệu và nhịp độ thay đổi.

5. Lặp lại để tối ưu dòng chảy hội thoại

Để có kết quả tốt hơn với dialogue-audio:

Soạn toàn bộ cuộc trò chuyện trong một trình soạn thảo văn bản
Đảm bảo mọi câu đều gắn thẻ đúng và không có thẻ thừa
Giữ các lượt lời ngắn gọn; độc thoại quá dài sẽ kém tự nhiên
Chia các cảnh phức tạp thành nhiều lần sinh nếu cần, rồi ghép lại trong trình biên tập của bạn

Bạn có thể lặp nhanh bằng cách chỉnh nhẹ prompt và chạy lại lệnh infsh app run falai/dia-tts cho đến khi nhịp, thời lượng và cảm xúc phù hợp với dự án.

6. Hậu kỳ và tích hợp

Output từ Dia TTS là một file audio mà bạn có thể đưa vào các công cụ quen thuộc. Kỹ năng dialogue-audio tập trung vào tạo giọng, không phải mix hoàn chỉnh, nhưng bạn có thể:

Import đoạn hội thoại đã tạo vào DAW (ví dụ Audacity, Reaper, Logic Pro)
Thêm nhạc nền, hiệu ứng âm thanh hoặc tiếng nền phòng
Chỉnh mức âm lượng, EQ và nén để khớp với tổng thể sản xuất
Đồng bộ track hội thoại với video trong các trình biên tập như Premiere Pro, Final Cut hoặc DaVinci Resolve

Điều này khiến dialogue-audio trở thành một khối xây dựng tốt trong workflow audio/video lớn hơn: tạo phần trình diễn hội thoại nhiều người nói, sau đó polish bằng bộ công cụ quen thuộc của bạn.

7. Các file nên xem trong repository

Sau khi cài đặt, bạn có thể xem định nghĩa skill trong repo inferen-sh/skills để hiểu rõ hơn:

SKILL.md — Mô tả chính, hướng dẫn nhanh và ghi chú sử dụng cho workflow dialogue-audio

Hãy dùng các file này làm tài liệu tham khảo khi bạn tùy biến thiết lập cho automation hoặc pipeline CI của riêng mình.

Câu hỏi thường gặp (FAQ)

dialogue-audio chỉ giới hạn hai người nói thôi sao?

Đúng. Kỹ năng dialogue-audio, thông qua Dia TTS, được thiết kế cho tối đa hai người nói mỗi lần sinh, sử dụng thẻ [S1] và [S2]. Nếu cảnh của bạn có nhiều nhân vật hơn, bạn có thể:

Chỉ tập trung sinh thoại cho hai nhân vật một lần, hoặc
Chia kịch bản thành nhiều đoạn hội thoại và ghép lại trong khâu hậu kỳ.

Tôi có bắt buộc phải dùng inference.sh CLI để chạy dialogue-audio không?

Có. Kỹ năng dialogue-audio phụ thuộc vào inference.sh CLI (infsh). Bạn phải cài nó, chạy infsh login, rồi gọi infsh app run falai/dia-tts với prompt của mình. Không có infsh, bạn không thể truy cập app Dia TTS trong workflow này.

Tôi có thể chọn giọng ElevenLabs cụ thể cho từng người nói không?

Tài liệu của repository cho biết giọng được gán tự động cho mỗi người nói: [S1] gắn với một giọng và [S2] với giọng khác, giữ nhất quán trong phiên. Kỹ năng này không có tài liệu về việc chọn giọng thủ công cho từng người nói, nên hãy coi việc chọn giọng là do cấu hình Dia TTS / inference.sh xử lý, chứ không phải bằng ID giọng trong prompt.

Làm sao điều khiển cảm xúc hoặc độ mạnh nhẹ trong lời thoại?

Kỹ năng dialogue-audio dựa vào thiết kế prompt và dấu câu hơn là thanh trượt cảm xúc rõ ràng. Bạn có thể:

Dùng từ ngữ biểu cảm (ví dụ: "shouted", "whispered", "nervously")
Chỉnh dấu câu (..., !, ?) để tác động tới độ dài ngắt nghỉ và nhấn mạnh
Thêm chỉ dẫn ngắn trong ngoặc như (whispering) hoặc (frustrated) khi cần

Hãy chạy các biến thể nhỏ để nghe phản hồi của mô hình và chọn phong cách phù hợp với dự án của bạn.

dialogue-audio có phù hợp cho sách nói dài không?

Có, với các đoạn nhiều hội thoại giữa hai nhân vật, dialogue-audio hoạt động khá tốt. Với nội dung rất dài:

Chia kịch bản thành cảnh hoặc chương hợp lý
Sinh audio theo từng đoạn và sắp xếp chúng trong DAW
Đảm bảo thẻ và giọng điệu nhất quán giữa các đoạn

Nếu sách nói của bạn có nhiều người dẫn truyện hoặc phong cách dẫn chuyện phức tạp, bạn có thể cần thêm các thiết lập TTS khác bên cạnh kỹ năng tập trung vào hai người nói này.

Tôi có thể tự động hóa dialogue-audio trong một workflow lớn hơn không?

Có. Vì dialogue-audio được xây dựng xoay quanh infsh CLI, nó rất phù hợp cho môi trường script hoặc automation:

Tích hợp lệnh infsh app run falai/dia-tts vào shell script
Chạy sinh nội dung từ pipeline CI/CD hoặc job chạy theo lịch
Kết hợp với các skill khác từ inferen-sh/skills để tạo pipeline nội dung lớn hơn

Kỹ năng này đặc biệt hữu ích cho lập trình viên và người dùng kỹ thuật muốn quy trình tạo audio tái lập, điều khiển bằng văn bản.

Khi nào dialogue-audio không phải lựa chọn phù hợp?

Hãy cân nhắc giải pháp khác nếu bạn:

Cần hơn hai giọng riêng biệt trong một lần sinh
Muốn workflow chỉ dùng GUI, không muốn động tới dòng lệnh
Muốn mix tự động, nhạc nền hoặc SFX thay vì chỉ sinh lời thoại

Trong các trường hợp đó, hãy kết hợp công cụ audio chuyên dụng hoặc dịch vụ TTS đa người nói với DAW của bạn, và chỉ dùng dialogue-audio khi bạn cần một track hội thoại hai người gọn, sạch.

Tôi có thể xem cấu hình đầy đủ ở đâu?

Mở phần dialogue-audio trong repository inferen-sh/skills:

Repo: https://github.com/inferen-sh/skills
Skill path: tools/audio/dialogue-audio

Hãy bắt đầu với SKILL.md để hiểu cách dùng được đề xuất và bất kỳ ghi chú cập nhật nào về tích hợp Dia TTS và lệnh CLI.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

sql-optimization-patterns

by wshobson

Nắm vững tối ưu hóa truy vấn SQL, chiến lược lập chỉ mục và phân tích EXPLAIN để cải thiện hiệu suất cơ sở dữ liệu đáng kể và loại bỏ các truy vấn chậm. Sử dụng khi gỡ lỗi truy vấn chậm, thiết kế cấu trúc cơ sở dữ liệu hoặc tối ưu hiệu suất ứng dụng.

Database Engineering

Favorites 0GitHub 0

e2e-testing-patterns

by wshobson

Nắm vững các mẫu kiểm thử end-to-end (E2E) sử dụng Playwright và Cypress để tạo ra bộ kiểm thử vững chắc, dễ bảo trì cho các ứng dụng frontend. Phù hợp để tự động hóa các luồng công việc người dùng quan trọng, gỡ lỗi các bài kiểm thử không ổn định và thiết lập tiêu chuẩn kiểm thử E2E đáng tin cậy.

Frontend Development

Favorites 0GitHub 0

react-native-architecture

by wshobson

Kiến trúc React Native sẵn sàng cho sản xuất, hỗ trợ Expo, điều hướng, module native, đồng bộ offline và ứng dụng đa nền tảng. Lý tưởng cho nhà phát triển frontend xây dựng dự án mobile vững chắc.

Frontend Development

Favorites 0GitHub 32,4 N

paid-ads

by coreyhaines31

Dùng kỹ năng paid-ads để lập kế hoạch, triển khai và tối ưu các chiến dịch sinh lợi trên Google Ads, Meta, LinkedIn, Twitter/X và các nền tảng paid media khác, với hướng dẫn rõ ràng về mục tiêu, tệp khách hàng, ngân sách và chiến lược đặt giá thầu.

Ad Optimization

Favorites 0GitHub 0

fun-brainstorming

by roin-orca

Một kỹ năng brainstorming nhẹ, có cấu trúc giúp làm rõ hướng đi trước khi bắt đầu công việc sáng tạo hoặc kiến trúc. Lý tưởng cho việc ra quyết định nhanh chóng, tập trung mà không gây ra thủ tục rườm rà không cần thiết.

Skill Scaffolding

Favorites 0GitHub 0

frontend-design

by pbakaus

Tạo giao diện frontend đặc trưng, đạt chuẩn sản xuất với chất lượng thiết kế cao. Sinh ra mã nguồn sáng tạo, tinh tế, tránh phong cách AI chung chung. Sử dụng khi người dùng yêu cầu xây dựng các thành phần web, trang, sản phẩm, poster hoặc ứng dụng, hoặc khi bất kỳ kỹ năng thiết kế nào cần bối cảnh dự án.

UI Design

Favorites 0GitHub 14,1 N

solidity-security

by wshobson

Nắm vững các thực hành bảo mật hợp đồng thông minh để ngăn ngừa lỗ hổng và triển khai các mẫu Solidity an toàn. Phù hợp cho nhà phát triển, kiểm toán viên và nhóm xây dựng hoặc đánh giá hợp đồng thông minh Ethereum và giao thức DeFi.

Security Audit

Favorites 0GitHub 0

typeset

by pbakaus

typeset nâng cao kiểu chữ bằng cách tinh chỉnh lựa chọn phông chữ, hệ thống phân cấp, kích thước, độ đậm và khả năng đọc, tạo nên văn bản có chủ đích và tinh tế. Lý tưởng cho nhà thiết kế và nhà phát triển muốn nâng cấp kiểu chữ chung chung hoặc không đồng nhất trong giao diện người dùng.

UI Design

Favorites 0GitHub 0