elevenlabs-stt
bởi inferen-shChuyển giọng nói thành văn bản độ chính xác cao với ElevenLabs thông qua inference.sh CLI, dùng các model Scribe v1/v2. Hỗ trợ nhận dạng lời nói, phân tách người nói, gắn nhãn sự kiện âm thanh, timestamp theo từng từ, forced alignment và tạo phụ đề cho họp, podcast và các quy trình xử lý audio khác.
Tổng quan
elevenlabs-stt là gì?
elevenlabs-stt là một skill chuyển giọng nói thành văn bản (speech-to-text) giúp kết nối agent hoặc các workflow CLI của bạn với các model ElevenLabs Scribe thông qua inference.sh (infsh) CLI.
Skill này tập trung vào nhận dạng lời nói độ chính xác cao, căn thời gian chuẩn thay vì chỉ ghi chú chung chung. Nó được thiết kế cho các workflow media như:
- Làm sạch bản thu giọng nói phục vụ dựng audio và video
- Tạo phụ đề và caption chính xác kèm thời gian
- Sản xuất bản chép podcast và phỏng vấn
- Tạo thời gian lip-sync và karaoke bằng cách căn chỉnh ở mức từ
- Gắn nhãn sự kiện âm thanh và nhận diện các người nói khác nhau trong bản ghi
Các khả năng chính
Dựa trên các model ElevenLabs Scribe v1/v2 (thông qua app elevenlabs/stt trên inference.sh), elevenlabs-stt cung cấp:
- Transcription âm thanh thành văn bản có cấu trúc
- Speaker diarization và nhận diện người nói (ai nói lúc nào)
- Gắn nhãn sự kiện âm thanh (ví dụ: nhạc, im lặng, tiếng nền)
- Timestamp ở mức từ và forced alignment với văn bản có sẵn
- Đầu ra phù hợp cho phụ đề, dễ dùng cho caption và hậu kỳ
- Hỗ trợ đa ngôn ngữ với hơn 90 ngôn ngữ, tự động nhận diện
Các model được mô tả là đạt độ chính xác chuyển giọng nói thành văn bản trên 98% trong điều kiện hỗ trợ, khiến skill này phù hợp cho các dự án audio và video chất lượng sản xuất.
elevenlabs-stt phù hợp với ai?
elevenlabs-stt đặc biệt phù hợp nếu bạn:
- Làm việc trong hậu kỳ audio hoặc video và cần bản chép đáng tin cậy
- Sản xuất podcast, webinar, phỏng vấn hoặc bài giảng và muốn có văn bản tự động
- Cần phụ đề căn theo thời gian hoặc file caption trong quy trình làm việc
- Xây dựng công cụ cho lập trình viên, agent hoặc pipeline phải gọi ElevenLabs STT từ script
- Muốn giữ mọi thứ trong môi trường CLI và JSON là chính
Skill sẽ ít phù hợp nếu bạn:
- Cần giao diện thuần trình duyệt, không kỹ thuật, không dùng CLI
- Chỉ cần ghi chú đơn giản từ audio và không quan tâm đến thời gian, diarization, hay cấu trúc dữ liệu
- Không thể cài đặt hoặc sử dụng
infshCLI trên nơi agent của bạn chạy
Vị trí trong chuỗi công cụ của bạn
elevenlabs-stt nằm ở lớp chỉnh sửa audio và voice tooling trong stack của bạn:
- Upstream: thu âm (recording Zoom, OBS, audio điện thoại, file WAV/MP3 thô)
- Core: elevenlabs-stt +
infshđể transcription, diarization, alignment và tagging - Downstream: timeline NLE (Premiere, Resolve), workflow caption, chỉ mục tìm kiếm, agent tóm tắt bằng AI, hoặc agent QA
Vì skill được định nghĩa trong repo inferen-sh/skills, nó tích hợp mượt với các công cụ dựa trên inference.sh khác, sử dụng Bash (infsh *) ở tầng bên dưới.
Cách sử dụng
1. Điều kiện tiên quyết và môi trường
Trước khi dùng elevenlabs-stt như một skill, bạn cần:
- Cài đặt inference.sh CLI (
infsh) trên máy nơi agent hoặc người dùng chạy - Một tài khoản inference.sh đang hoạt động và đăng nhập hợp lệ
- Kết nối mạng để
infshcó thể gọi appelevenlabs/sttvà (tuỳ chọn) truy cập các URL audio từ xa bạn cung cấp
Để cài CLI, hãy làm theo hướng dẫn chính thức được tham chiếu trong skill:
- Tài liệu cài CLI:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Sau khi cài xong, tiến hành xác thực:
infsh login
Lệnh này thiết lập thông tin đăng nhập cần thiết cho các lần gọi infsh app run từ skill về sau.
2. Cài đặt skill elevenlabs-stt
Nếu bạn dùng môi trường hỗ trợ skill với npx skills, bạn có thể thêm elevenlabs-stt trực tiếp từ repository inferen-sh/skills:
npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt
Lệnh này sẽ:
- Đăng ký
elevenlabs-sttbằng slug của nó - Làm cho cấu hình của skill (bao gồm công cụ được phép dùng và logic workflow) khả dụng trong runtime agent của bạn
Nếu môi trường của bạn quản lý skill theo cách khác, hãy mirror cùng repository và slug skill, đảm bảo metadata của skill (SKILL.md, metadata.json nếu có) được nạp đúng.
3. Quy trình transcription lõi
Khi skill và CLI đã được cài, hoạt động nền tảng là một lần gọi app elevenlabs/stt thông qua infsh.
Ví dụ thủ công cơ bản (phản chiếu những gì skill tự động hoá) như sau:
# Transcribe một file audio từ xa
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
Mẫu này là nền tảng hoạt động của elevenlabs-stt trong agent của bạn. Skill sẽ:
- Nhận input audio của bạn (URL hoặc đường dẫn, tuỳ tích hợp)
- Gọi
infsh app run elevenlabs/sttvới input JSON - Trả về JSON có cấu trúc chứa văn bản transcript và thông tin thời gian
Hãy dùng mô hình tư duy này khi cấu hình prompt, công cụ hoặc pipeline xung quanh skill.
4. Chọn model: Scribe v1 so với Scribe v2
Skill này hỗ trợ các model ElevenLabs Scribe v1 và Scribe v2:
- Scribe v2 (
scribe_v2) – Mới nhất và chính xác nhất (mặc định). Nên dùng cho hầu hết dự án mới. - Scribe v1 (
scribe_v1) – Phiên bản ổn định, đã được kiểm chứng. Hữu ích nếu bạn cần nhất quán với workflow hiện tại hoặc đã xác nhận hành vi.
Nếu môi trường hoặc agent của bạn cho phép truyền tham số model, bạn có thể chọn ID model tương ứng. Khi không chỉ định model, theo tài liệu, Scribe v2 sẽ được dùng mặc định.
5. Các mẫu sử dụng thực tế
Dưới đây là những cách dùng elevenlabs-stt phổ biến sau khi cài đặt.
Transcription cơ bản
Cho các bản ghi họp, podcast, hoặc bài giảng đơn giản:
infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'
Hãy bọc lệnh này trong workflow agent để người dùng có thể yêu cầu:
- “Transcribe bản ghi cuộc họp này với elevenlabs-stt.”
- “Dùng elevenlabs-stt để chuyển file MP3 này thành transcript văn bản.”
Kết quả là một transcript có cấu trúc mà bạn có thể lưu trữ, lập chỉ mục hoặc tóm tắt.
Phân tách và nhận diện người nói
Nếu app elevenlabs/stt upstream được cấu hình cho speaker diarization, output JSON sẽ bao gồm token hoặc đoạn được gắn nhãn theo từng người nói.
Trong prompt của agent, bạn có thể chỉ định:
- “Chạy elevenlabs-stt và trả về các đoạn transcript tách theo người nói.”
- “Nhóm transcript theo người nói, giữ nguyên timestamp từ elevenlabs-stt.”
Điều này đặc biệt hữu ích cho toạ đàm, cuộc gọi với khách hàng, hoặc các chương trình phỏng vấn.
Tạo phụ đề và caption
Vì elevenlabs-stt xuất ra timestamp và alignment ở mức từ (forced alignment), bạn có thể:
- Chuyển các đoạn thành file phụ đề SRT hoặc VTT
- Đồng bộ văn bản với track video trong phần mềm hậu kỳ
- Điều khiển hiệu ứng highlight kiểu karaoke hoặc tham chiếu lip-sync
Trong một workflow, bạn có thể:
- Gọi elevenlabs-stt với track audio của mình.
- Ánh xạ dữ liệu thời gian thành các block phụ đề.
- Xuất hoặc đưa caption vào NLE hoặc nền tảng streaming.
Gắn nhãn sự kiện âm thanh
Khi gắn nhãn sự kiện âm thanh được bật trong các lần gọi tới elevenlabs/stt, output có thể đánh dấu nhạc, khoảng im lặng, tiếng ồn hoặc các sự kiện khác.
Bạn có thể dùng thông tin này để:
- Đánh dấu điểm cắt cho editor
- Bỏ qua đoạn không có lời nói khi tóm tắt
- Tự động nhận diện đoạn có người nói chính
6. Cấu trúc file và repository
Trong repository inferen-sh/skills, skill elevenlabs-stt nằm tại:
tools/audio/elevenlabs-stt/
Các file quan trọng cần xem nếu bạn tuỳ biến hoặc tự host skill:
SKILL.md– Mô tả chuẩn về skill, mục đích và trigger- Thư mục
rules/,resources/hoặcscripts/liên quan (nếu có) cho logic hỗ trợ
Những file này mô tả cách skill kết nối với infsh CLI và các prompt hoặc ràng buộc mà nó mong đợi.
Câu hỏi thường gặp (FAQ)
Khi nào tôi nên dùng elevenlabs-stt thay vì một công cụ speech-to-text đơn giản hơn?
Hãy dùng elevenlabs-stt khi bạn cần độ chính xác cao, kèm timestamp và cấu trúc, không chỉ là văn bản gần đúng.
Skill đặc biệt phù hợp nếu công việc chính của bạn là:
- Dựng, chỉnh sửa audio hoặc video
- Xuất bản podcast hoặc nội dung nói trước camera
- Tạo caption và phụ đề
- Phân tích hội thoại với nhãn người nói và thời gian
Nếu bạn chỉ cần transcript cơ bản, không cần thời gian hoặc thông tin người nói, một công cụ nhẹ hơn có thể đã đủ.
Tôi có thể kỳ vọng độ chính xác và phạm vi ngôn ngữ thế nào?
Theo mô tả skill, các model ElevenLabs Scribe cung cấp:
- Độ chính xác transcription trên 98% trong điều kiện hỗ trợ
- Hỗ trợ hơn 90 ngôn ngữ với khả năng tự động nhận diện ngôn ngữ
Hiệu quả thực tế phụ thuộc vào chất lượng bản ghi, accent, tiếng ồn nền và cách đặt micro, nhưng các model này được định vị là giải pháp độ chính xác cao, phù hợp cho sản xuất chuyên nghiệp.
Tôi có bắt buộc cần inference.sh CLI để dùng elevenlabs-stt không?
Có. elevenlabs-stt được xây dựng xoay quanh inference.sh (infsh) CLI và app elevenlabs/stt. Các công cụ được phép của skill ghi rõ là Bash với các lệnh infsh.
Nếu bạn không thể cài hoặc chạy infsh trong môi trường của mình, bạn sẽ không thể dùng elevenlabs-stt như thiết kế. Khi đó, bạn cần một skill khác hoặc tích hợp API trực tiếp bên ngoài repository này.
elevenlabs-stt xử lý file audio cục bộ được không, hay chỉ hỗ trợ URL?
Ví dụ trong tài liệu dùng URL từ xa:
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'
Thông thường, inference.sh hỗ trợ nhiều kiểu input, nhưng cách xử lý file cục bộ chính xác phụ thuộc vào cấu hình môi trường infsh của bạn (ví dụ: cơ chế upload hoặc đường dẫn mount).
Trong một agent, bạn thường có thể:
- Cung cấp URL trực tiếp tới file audio được host, hoặc
- Dùng cơ chế xử lý file của runtime để cho phép
infshtruy cập file cục bộ.
Hãy kiểm tra quy tắc truyền file trong môi trường của bạn nếu cần workflow chỉ dùng file cục bộ.
elevenlabs-stt có xuất trực tiếp file SRT hoặc VTT không?
Skill này tích hợp với app elevenlabs/stt, vốn trả về JSON có cấu trúc với timestamp và alignment. Dựa trên bằng chứng trong repo, trọng tâm là output JSON, không phải xuất thẳng SRT/VTT.
Tuy nhiên, bạn có thể:
- Lấy JSON output từ elevenlabs-stt.
- Ánh xạ các đoạn và timestamp sang các block SRT hoặc VTT.
- Lưu thành file phụ đề trong pipeline của bạn.
Nhiều người dùng triển khai bước này bằng các script đơn giản hoặc xử lý hậu kỳ trong agent.
Forced alignment hoạt động thế nào trong elevenlabs-stt?
Forced alignment dùng các model Scribe để căn chỉnh audio với văn bản ở mức từ, trả về timestamp chính xác cho từng token hoặc từ.
Điều này hữu ích khi bạn:
- Đã có sẵn kịch bản hoặc show notes và muốn căn chúng với bản thu cuối
- Cần thời gian lip-sync chính xác (cho lồng tiếng, karaoke hoặc highlight caption)
- Muốn nhanh chóng tìm vị trí từng câu được nói trong audio
Chi tiết output alignment do app elevenlabs/stt quyết định; elevenlabs-stt là cầu nối skill đưa tính năng này vào workflow agent và CLI của bạn.
elevenlabs-stt có phù hợp cho transcription streaming thời gian thực không?
Tài liệu và ví dụ trong skill tập trung vào transcription theo file thông qua infsh app run với tham số audio trỏ tới input. Không có đề cập rõ ràng về streaming thời gian thực trong bằng chứng hiện có.
Vì vậy, hãy xem elevenlabs-stt như một công cụ transcription theo lô cho file đã ghi sẵn, không phải giải pháp caption trực tiếp độ trễ thấp.
Tôi có thể xem hoặc chỉnh sửa cấu hình elevenlabs-stt ở đâu?
Bạn có thể xem skill trong repository inferen-sh/skills trên GitHub:
- Base repo:
https://github.com/inferen-sh/skills - Đường dẫn skill:
tools/audio/elevenlabs-stt/
Hãy bắt đầu với SKILL.md để hiểu trigger, mô tả và cách dùng. Nếu nền tảng của bạn hỗ trợ custom skill, bạn có thể fork và tuỳ chỉnh cấu hình, prompt hoặc các công cụ được phép của skill cho phù hợp với môi trường của mình.
