elevenlabs-stt

bởi inferen-sh

Chuyển giọng nói thành văn bản độ chính xác cao với ElevenLabs thông qua inference.sh CLI, dùng các model Scribe v1/v2. Hỗ trợ nhận dạng lời nói, phân tách người nói, gắn nhãn sự kiện âm thanh, timestamp theo từng từ, forced alignment và tạo phụ đề cho họp, podcast và các quy trình xử lý audio khác.

Stars0

Yêu thích0

Bình luận0

Danh mụcAudio Editing

Lệnh cài đặt

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Audio Video Cli API Workflow Developer Audience

Tổng quan

elevenlabs-stt là gì?

elevenlabs-stt là một skill chuyển giọng nói thành văn bản (speech-to-text) giúp kết nối agent hoặc các workflow CLI của bạn với các model ElevenLabs Scribe thông qua inference.sh (infsh) CLI.

Skill này tập trung vào nhận dạng lời nói độ chính xác cao, căn thời gian chuẩn thay vì chỉ ghi chú chung chung. Nó được thiết kế cho các workflow media như:

Làm sạch bản thu giọng nói phục vụ dựng audio và video
Tạo phụ đề và caption chính xác kèm thời gian
Sản xuất bản chép podcast và phỏng vấn
Tạo thời gian lip-sync và karaoke bằng cách căn chỉnh ở mức từ
Gắn nhãn sự kiện âm thanh và nhận diện các người nói khác nhau trong bản ghi

Các khả năng chính

Dựa trên các model ElevenLabs Scribe v1/v2 (thông qua app elevenlabs/stt trên inference.sh), elevenlabs-stt cung cấp:

Transcription âm thanh thành văn bản có cấu trúc
Speaker diarization và nhận diện người nói (ai nói lúc nào)
Gắn nhãn sự kiện âm thanh (ví dụ: nhạc, im lặng, tiếng nền)
Timestamp ở mức từ và forced alignment với văn bản có sẵn
Đầu ra phù hợp cho phụ đề, dễ dùng cho caption và hậu kỳ
Hỗ trợ đa ngôn ngữ với hơn 90 ngôn ngữ, tự động nhận diện

Các model được mô tả là đạt độ chính xác chuyển giọng nói thành văn bản trên 98% trong điều kiện hỗ trợ, khiến skill này phù hợp cho các dự án audio và video chất lượng sản xuất.

elevenlabs-stt phù hợp với ai?

elevenlabs-stt đặc biệt phù hợp nếu bạn:

Làm việc trong hậu kỳ audio hoặc video và cần bản chép đáng tin cậy
Sản xuất podcast, webinar, phỏng vấn hoặc bài giảng và muốn có văn bản tự động
Cần phụ đề căn theo thời gian hoặc file caption trong quy trình làm việc
Xây dựng công cụ cho lập trình viên, agent hoặc pipeline phải gọi ElevenLabs STT từ script
Muốn giữ mọi thứ trong môi trường CLI và JSON là chính

Skill sẽ ít phù hợp nếu bạn:

Cần giao diện thuần trình duyệt, không kỹ thuật, không dùng CLI
Chỉ cần ghi chú đơn giản từ audio và không quan tâm đến thời gian, diarization, hay cấu trúc dữ liệu
Không thể cài đặt hoặc sử dụng infsh CLI trên nơi agent của bạn chạy

Vị trí trong chuỗi công cụ của bạn

elevenlabs-stt nằm ở lớp chỉnh sửa audio và voice tooling trong stack của bạn:

Upstream: thu âm (recording Zoom, OBS, audio điện thoại, file WAV/MP3 thô)
Core: elevenlabs-stt + infsh để transcription, diarization, alignment và tagging
Downstream: timeline NLE (Premiere, Resolve), workflow caption, chỉ mục tìm kiếm, agent tóm tắt bằng AI, hoặc agent QA

Vì skill được định nghĩa trong repo inferen-sh/skills, nó tích hợp mượt với các công cụ dựa trên inference.sh khác, sử dụng Bash (infsh *) ở tầng bên dưới.

Cách sử dụng

1. Điều kiện tiên quyết và môi trường

Trước khi dùng elevenlabs-stt như một skill, bạn cần:

Cài đặt inference.sh CLI (infsh) trên máy nơi agent hoặc người dùng chạy
Một tài khoản inference.sh đang hoạt động và đăng nhập hợp lệ
Kết nối mạng để infsh có thể gọi app elevenlabs/stt và (tuỳ chọn) truy cập các URL audio từ xa bạn cung cấp

Để cài CLI, hãy làm theo hướng dẫn chính thức được tham chiếu trong skill:

Tài liệu cài CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Sau khi cài xong, tiến hành xác thực:

infsh login

Lệnh này thiết lập thông tin đăng nhập cần thiết cho các lần gọi infsh app run từ skill về sau.

2. Cài đặt skill elevenlabs-stt

Nếu bạn dùng môi trường hỗ trợ skill với npx skills, bạn có thể thêm elevenlabs-stt trực tiếp từ repository inferen-sh/skills:

npx skills add https://github.com/inferen-sh/skills --skill elevenlabs-stt

Lệnh này sẽ:

Đăng ký elevenlabs-stt bằng slug của nó
Làm cho cấu hình của skill (bao gồm công cụ được phép dùng và logic workflow) khả dụng trong runtime agent của bạn

Nếu môi trường của bạn quản lý skill theo cách khác, hãy mirror cùng repository và slug skill, đảm bảo metadata của skill (SKILL.md, metadata.json nếu có) được nạp đúng.

3. Quy trình transcription lõi

Khi skill và CLI đã được cài, hoạt động nền tảng là một lần gọi app elevenlabs/stt thông qua infsh.

Ví dụ thủ công cơ bản (phản chiếu những gì skill tự động hoá) như sau:

# Transcribe một file audio từ xa
infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Mẫu này là nền tảng hoạt động của elevenlabs-stt trong agent của bạn. Skill sẽ:

Nhận input audio của bạn (URL hoặc đường dẫn, tuỳ tích hợp)
Gọi infsh app run elevenlabs/stt với input JSON
Trả về JSON có cấu trúc chứa văn bản transcript và thông tin thời gian

Hãy dùng mô hình tư duy này khi cấu hình prompt, công cụ hoặc pipeline xung quanh skill.

4. Chọn model: Scribe v1 so với Scribe v2

Skill này hỗ trợ các model ElevenLabs Scribe v1 và Scribe v2:

Scribe v2 (scribe_v2) – Mới nhất và chính xác nhất (mặc định). Nên dùng cho hầu hết dự án mới.
Scribe v1 (scribe_v1) – Phiên bản ổn định, đã được kiểm chứng. Hữu ích nếu bạn cần nhất quán với workflow hiện tại hoặc đã xác nhận hành vi.

Nếu môi trường hoặc agent của bạn cho phép truyền tham số model, bạn có thể chọn ID model tương ứng. Khi không chỉ định model, theo tài liệu, Scribe v2 sẽ được dùng mặc định.

5. Các mẫu sử dụng thực tế

Dưới đây là những cách dùng elevenlabs-stt phổ biến sau khi cài đặt.

Transcription cơ bản

Cho các bản ghi họp, podcast, hoặc bài giảng đơn giản:

infsh app run elevenlabs/stt --input '{"audio": "https://meeting-recording.mp3"}'

Hãy bọc lệnh này trong workflow agent để người dùng có thể yêu cầu:

“Transcribe bản ghi cuộc họp này với elevenlabs-stt.”
“Dùng elevenlabs-stt để chuyển file MP3 này thành transcript văn bản.”

Kết quả là một transcript có cấu trúc mà bạn có thể lưu trữ, lập chỉ mục hoặc tóm tắt.

Phân tách và nhận diện người nói

Nếu app elevenlabs/stt upstream được cấu hình cho speaker diarization, output JSON sẽ bao gồm token hoặc đoạn được gắn nhãn theo từng người nói.

Trong prompt của agent, bạn có thể chỉ định:

“Chạy elevenlabs-stt và trả về các đoạn transcript tách theo người nói.”
“Nhóm transcript theo người nói, giữ nguyên timestamp từ elevenlabs-stt.”

Điều này đặc biệt hữu ích cho toạ đàm, cuộc gọi với khách hàng, hoặc các chương trình phỏng vấn.

Tạo phụ đề và caption

Vì elevenlabs-stt xuất ra timestamp và alignment ở mức từ (forced alignment), bạn có thể:

Chuyển các đoạn thành file phụ đề SRT hoặc VTT
Đồng bộ văn bản với track video trong phần mềm hậu kỳ
Điều khiển hiệu ứng highlight kiểu karaoke hoặc tham chiếu lip-sync

Trong một workflow, bạn có thể:

Gọi elevenlabs-stt với track audio của mình.
Ánh xạ dữ liệu thời gian thành các block phụ đề.
Xuất hoặc đưa caption vào NLE hoặc nền tảng streaming.

Gắn nhãn sự kiện âm thanh

Khi gắn nhãn sự kiện âm thanh được bật trong các lần gọi tới elevenlabs/stt, output có thể đánh dấu nhạc, khoảng im lặng, tiếng ồn hoặc các sự kiện khác.

Bạn có thể dùng thông tin này để:

Đánh dấu điểm cắt cho editor
Bỏ qua đoạn không có lời nói khi tóm tắt
Tự động nhận diện đoạn có người nói chính

6. Cấu trúc file và repository

Trong repository inferen-sh/skills, skill elevenlabs-stt nằm tại:

tools/audio/elevenlabs-stt/

Các file quan trọng cần xem nếu bạn tuỳ biến hoặc tự host skill:

SKILL.md – Mô tả chuẩn về skill, mục đích và trigger
Thư mục rules/, resources/ hoặc scripts/ liên quan (nếu có) cho logic hỗ trợ

Những file này mô tả cách skill kết nối với infsh CLI và các prompt hoặc ràng buộc mà nó mong đợi.

Câu hỏi thường gặp (FAQ)

Khi nào tôi nên dùng elevenlabs-stt thay vì một công cụ speech-to-text đơn giản hơn?

Hãy dùng elevenlabs-stt khi bạn cần độ chính xác cao, kèm timestamp và cấu trúc, không chỉ là văn bản gần đúng.

Skill đặc biệt phù hợp nếu công việc chính của bạn là:

Dựng, chỉnh sửa audio hoặc video
Xuất bản podcast hoặc nội dung nói trước camera
Tạo caption và phụ đề
Phân tích hội thoại với nhãn người nói và thời gian

Nếu bạn chỉ cần transcript cơ bản, không cần thời gian hoặc thông tin người nói, một công cụ nhẹ hơn có thể đã đủ.

Tôi có thể kỳ vọng độ chính xác và phạm vi ngôn ngữ thế nào?

Theo mô tả skill, các model ElevenLabs Scribe cung cấp:

Độ chính xác transcription trên 98% trong điều kiện hỗ trợ
Hỗ trợ hơn 90 ngôn ngữ với khả năng tự động nhận diện ngôn ngữ

Hiệu quả thực tế phụ thuộc vào chất lượng bản ghi, accent, tiếng ồn nền và cách đặt micro, nhưng các model này được định vị là giải pháp độ chính xác cao, phù hợp cho sản xuất chuyên nghiệp.

Tôi có bắt buộc cần inference.sh CLI để dùng elevenlabs-stt không?

Có. elevenlabs-stt được xây dựng xoay quanh inference.sh (infsh) CLI và app elevenlabs/stt. Các công cụ được phép của skill ghi rõ là Bash với các lệnh infsh.

Nếu bạn không thể cài hoặc chạy infsh trong môi trường của mình, bạn sẽ không thể dùng elevenlabs-stt như thiết kế. Khi đó, bạn cần một skill khác hoặc tích hợp API trực tiếp bên ngoài repository này.

elevenlabs-stt xử lý file audio cục bộ được không, hay chỉ hỗ trợ URL?

Ví dụ trong tài liệu dùng URL từ xa:

infsh app run elevenlabs/stt --input '{"audio": "https://audio.mp3"}'

Thông thường, inference.sh hỗ trợ nhiều kiểu input, nhưng cách xử lý file cục bộ chính xác phụ thuộc vào cấu hình môi trường infsh của bạn (ví dụ: cơ chế upload hoặc đường dẫn mount).

Trong một agent, bạn thường có thể:

Cung cấp URL trực tiếp tới file audio được host, hoặc
Dùng cơ chế xử lý file của runtime để cho phép infsh truy cập file cục bộ.

Hãy kiểm tra quy tắc truyền file trong môi trường của bạn nếu cần workflow chỉ dùng file cục bộ.

elevenlabs-stt có xuất trực tiếp file SRT hoặc VTT không?

Skill này tích hợp với app elevenlabs/stt, vốn trả về JSON có cấu trúc với timestamp và alignment. Dựa trên bằng chứng trong repo, trọng tâm là output JSON, không phải xuất thẳng SRT/VTT.

Tuy nhiên, bạn có thể:

Lấy JSON output từ elevenlabs-stt.
Ánh xạ các đoạn và timestamp sang các block SRT hoặc VTT.
Lưu thành file phụ đề trong pipeline của bạn.

Nhiều người dùng triển khai bước này bằng các script đơn giản hoặc xử lý hậu kỳ trong agent.

Forced alignment hoạt động thế nào trong elevenlabs-stt?

Forced alignment dùng các model Scribe để căn chỉnh audio với văn bản ở mức từ, trả về timestamp chính xác cho từng token hoặc từ.

Điều này hữu ích khi bạn:

Đã có sẵn kịch bản hoặc show notes và muốn căn chúng với bản thu cuối
Cần thời gian lip-sync chính xác (cho lồng tiếng, karaoke hoặc highlight caption)
Muốn nhanh chóng tìm vị trí từng câu được nói trong audio

Chi tiết output alignment do app elevenlabs/stt quyết định; elevenlabs-stt là cầu nối skill đưa tính năng này vào workflow agent và CLI của bạn.

elevenlabs-stt có phù hợp cho transcription streaming thời gian thực không?

Tài liệu và ví dụ trong skill tập trung vào transcription theo file thông qua infsh app run với tham số audio trỏ tới input. Không có đề cập rõ ràng về streaming thời gian thực trong bằng chứng hiện có.

Vì vậy, hãy xem elevenlabs-stt như một công cụ transcription theo lô cho file đã ghi sẵn, không phải giải pháp caption trực tiếp độ trễ thấp.

Tôi có thể xem hoặc chỉnh sửa cấu hình elevenlabs-stt ở đâu?

Bạn có thể xem skill trong repository inferen-sh/skills trên GitHub:

Base repo: https://github.com/inferen-sh/skills
Đường dẫn skill: tools/audio/elevenlabs-stt/

Hãy bắt đầu với SKILL.md để hiểu trigger, mô tả và cách dùng. Nếu nền tảng của bạn hỗ trợ custom skill, bạn có thể fork và tuỳ chỉnh cấu hình, prompt hoặc các công cụ được phép của skill cho phù hợp với môi trường của mình.

Đánh giá & nhận xét

Chưa có đánh giá nào

Chia sẻ nhận xét của bạn

Đăng nhập để chấm điểm và để lại nhận xét cho skill này.

0/10000

Nhận xét mới nhất

Đang lưu...

Thêm skill trong danh mục này

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing cho phép bạn tự động lồng tiếng và dịch âm thanh hoặc video sang 29 ngôn ngữ bằng CLI inference.sh, đồng thời giữ nguyên giọng nói của người nói ban đầu. Rất phù hợp cho biên tập viên video, podcaster và các đội ngũ bản địa hóa cần tạo nhanh phiên bản đa ngôn ngữ chất lượng cao cho nội dung sẵn có.

Video Editing

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

Tạo hiệu ứng âm thanh AI từ prompt văn bản bằng ElevenLabs thông qua công cụ dòng lệnh inference.sh. Lý tưởng cho biên tập video, nhà phát triển game, podcaster, nhà làm phim và creator nội dung cần thiết kế âm thanh nhanh, không lo bản quyền. Hỗ trợ chuyển văn bản thành hiệu ứng âm thanh, tùy chỉnh độ dài và kiểm soát prompt cho SFX cinematic, ambient và sẵn sàng dùng trong game.

Audio Editing

Favorites 0GitHub 0

dialogue-audio

by inferen-sh

Tạo audio hội thoại nhiều người nói chân thực với Dia TTS và ElevenLabs thông qua CLI inference.sh. Kỹ năng dialogue-audio giúp bạn kiểm soát người nói, cảm xúc, nhịp độ và dòng chảy cuộc trò chuyện cho podcast, sách nói, video giải thích, cảnh nhân vật và các nội dung mang tính đối thoại khác.

Voice Generation

Favorites 0GitHub 0

ai-podcast-creation

by inferen-sh

Tạo podcast và nội dung giọng nói dùng AI từ văn bản với Kokoro TTS, DIA TTS và CLI inference.sh. Trộn nhiều giọng, thêm nhạc và lắp ráp trọn vẹn các tập cho podcast, sách nói và bản tin âm thanh.

Voice Generation

Favorites 0GitHub 0

elevenlabs-tts

by inferen-sh

ElevenLabs text-to-speech thông qua inference.sh CLI, với hơn 22 giọng đọc cao cấp, hỗ trợ đa ngôn ngữ và các tùy chọn model nhanh cho quy trình tạo giọng nói phục vụ sản xuất.

Voice Generation

Favorites 0GitHub 0

elevenlabs-music

by inferen-sh

Tạo nhạc AI gốc từ prompt văn bản bằng inference.sh CLI và ElevenLabs. Kiểm soát độ dài, phong cách và mood để tạo nhạc nền, soundtrack, jingle, nhạc lót podcast và âm thanh game không bản quyền trực tiếp từ terminal của bạn.

Audio Editing

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

Thiết kế và vận hành các pipeline nội dung AI nhiều bước, xâu chuỗi công cụ hình ảnh, video, âm thanh và văn bản lại với nhau thông qua inference.sh CLI. Dùng ai-content-pipeline để tự động hóa các quy trình như: tạo ảnh, dựng thành video, thêm âm thanh hoặc lời thuyết minh, và chuẩn bị nội dung cho YouTube, mạng xã hội và các chiến dịch marketing.

Workflow Automation

Favorites 0GitHub 0

ai-voice-cloning

by inferen-sh

ai-voice-cloning là một kỹ năng dựa trên inference.sh để tạo giọng nói AI, text-to-speech và nhân bản giọng nói từ CLI. Nó bao bọc các mô hình ElevenLabs, Kokoro TTS, DIA, Chatterbox, Higgs và VibeVoice để tạo giọng nói tự nhiên, đọc nhiều giọng, và biến đổi giọng nói cho các dự án audio và video.

Voice Generation

Favorites 0GitHub 0