Audio

Kham pha Agent Skill gan the Audio va so sanh workflow lien quan trong danh muc.

25 skills
A
videodb

bởi affaan-m

videodb giúp bạn nhập video và audio từ file cục bộ, URL, luồng trực tiếp RTSP/RTMP hoặc quay màn hình máy tính; tìm các khoảnh khắc theo dấu thời gian với bằng chứng có thể phát lại; và thao tác bằng clip, lớp phủ, phiên âm, cảnh báo, cùng chỉnh sửa theo dòng thời gian. Đây là hướng dẫn thực hành videodb cho VideoDB for Video Editing và phân tích livestream.

Video Editing
Yêu thích 0GitHub 156.3k
A
video-editing

bởi affaan-m

Kỹ năng video-editing giúp bạn biến footage có sẵn thành video chỉn chu, sẵn sàng đăng nền tảng nhanh hơn. Nó tập trung vào cắt ghép, sắp xếp cấu trúc, chèn phụ đề, thay đổi khung hình và tăng cường nhẹ cho vlog, hướng dẫn, demo, clip ngắn và chỉnh sửa phỏng vấn. Phù hợp nhất khi bạn đã có footage thô và cần một hướng dẫn video-editing thực tế.

Video Editing
Yêu thích 0GitHub 156.3k
A
fal-ai-media

bởi affaan-m

fal-ai-media là một GitHub skill cho tạo media thống nhất qua fal.ai MCP. Skill này giúp người dùng cài đặt và sử dụng fal-ai-media cho các quy trình tạo ảnh, chỉnh sửa ảnh, video, giọng nói và âm thanh, với tìm kiếm model, kiểm tra chi phí và prompt hướng dẫn.

Image Generation
Yêu thích 0GitHub 156.1k
O
transcribe

bởi openai

transcribe biến âm thanh hoặc video thành văn bản, có thể kèm phân tách người nói và gợi ý người nói đã biết. Phù hợp cho viết kỹ thuật, ghi chú cuộc họp, phỏng vấn, bài giảng và vận hành nội dung khi bạn cần một kỹ năng transcribe lặp lại được với định dạng đầu ra rõ ràng và ít phải đoán hơn so với một prompt chung chung.

Technical Writing
Yêu thích 0GitHub 18.8k
J
baoyu-youtube-transcript

bởi JimLiu

baoyu-youtube-transcript giúp trích xuất transcript, phụ đề và ảnh bìa YouTube từ URL hoặc video ID. Công cụ hỗ trợ chọn ngôn ngữ, dịch, xuất ra markdown hoặc SRT, định dạng lại từ bộ nhớ đệm và tự động chuyển từ InnerTube API sang yt-dlp để lấy transcript ổn định hơn khi cần.

Format Conversion
Yêu thích 0GitHub 13.2k
H
hyperframes

bởi heygen-com

hyperframes là một skill quy trình để xây dựng các bố cục video dựa trên HTML trong HyperFrames. Hãy dùng nó cho thẻ tiêu đề, lớp phủ, phụ đề, lồng tiếng, chuyển động phản ứng theo âm thanh và chuyển cảnh khi bạn cần hyperframes có cấu trúc, ưu tiên mã nguồn cho Video Editing. Skill này đề cao quyết định về bố cục, thời gian và hoạt ảnh hơn là các yêu cầu video chung chung chỉ dựa trên prompt.

Video Editing
Yêu thích 0GitHub 2.7k
M
azure-ai-voicelive-ts

bởi microsoft

azure-ai-voicelive-ts giúp bạn xây dựng ứng dụng voice AI thời gian thực với Azure AI Voice Live TypeScript SDK. Hãy dùng nó cho các dự án Node.js hoặc trình duyệt cần âm thanh hai chiều, phản hồi streaming, thiết lập phiên và function calling. Hướng dẫn azure-ai-voicelive-ts này hữu ích khi bạn cần hỗ trợ thực tế về cài đặt, cách dùng và tạo code.

Code Generation
Yêu thích 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

bởi microsoft

azure-ai-contentunderstanding-py là skill Python cho Azure AI Content Understanding. Nó trích xuất nội dung có cấu trúc từ tài liệu, hình ảnh, âm thanh và video để phục vụ RAG và tự động hóa. Hãy dùng khi bạn cần trích xuất đa phương thức đáng tin cậy, xác thực Azure và đầu ra lặp lại, sẵn sàng cho pipeline.

RAG Workflows
Yêu thích 0GitHub 2.2k
M
azure-ai-voicelive-java

bởi microsoft

azure-ai-voicelive-java là skill SDK Azure AI VoiceLive cho phát triển backend Java. Skill này bao gồm cài đặt, xác thực, truyền phát giọng nói qua WebSocket, xử lý sự kiện và cách dùng theo ví dụ cho các bản dựng trợ lý thời gian thực.

Backend Development
Yêu thích 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

bởi microsoft

azure-ai-voicelive-dotnet là skill .NET để xây dựng ứng dụng AI giọng nói thời gian thực với Azure AI Voice Live. Skill này bao gồm hướng dẫn cài đặt, thiết lập, xác thực và cách dùng cho phát triển backend, gồm âm thanh hai chiều, phiên độ trễ thấp và quy trình speech-to-speech.

Backend Development
Yêu thích 0GitHub 2.2k
M
podcast-generation

bởi microsoft

podcast-generation giúp tạo audio kiểu podcast bằng AI từ văn bản, sử dụng Azure OpenAI GPT Realtime Mini qua WebSocket. Kỹ năng này phù hợp cho podcast-generation trong Phát triển Full-Stack, với hướng dẫn cho React, Python FastAPI, truyền PCM, thu transcript và chuyển đổi WAV. Hãy dùng khi bạn cần một hướng dẫn podcast-generation thực tế để tích hợp vào ứng dụng thật, không phải một prompt chung chung.

Full-Stack Development
Yêu thích 0GitHub 2.2k
M
github-issue-creator

bởi microsoft

github-issue-creator chuyển ghi chú thô, log lỗi, lời mô tả bằng giọng nói và ảnh chụp màn hình thành các bản nháp issue theo kiểu GitHub thật gọn gàng. Kỹ năng github-issue-creator này hỗ trợ theo dõi issue bằng cách sắp xếp phần tóm tắt, môi trường, các bước tái hiện, hành vi mong đợi so với thực tế, mức độ ảnh hưởng và bằng chứng vào một issue markdown có thể xem xét.

Issue Tracking
Yêu thích 0GitHub 2.2k
N
speech-to-text

bởi NoizAI

Kỹ năng speech-to-text chuyển các tệp âm thanh được hỗ trợ thành văn bản thuần, với tùy chọn thêm dấu thời gian, nhãn người nói và đầu ra JSON. Kỹ năng này được thiết kế cho nhu cầu speech-to-text thực tế trong các quy trình lặp lại, bao gồm phỏng vấn, họp, podcast, bài giảng và các tác vụ tự động hóa nơi độ nhất quán của bản chép là quan trọng.

Workflow Automation
Yêu thích 0GitHub 498
N
tts

bởi NoizAI

Kỹ năng tts biến văn bản thành âm thanh giọng nói cho thuyết minh, lồng tiếng, voiceover và phát theo mốc thời gian. Bạn có thể dùng nó để tạo file giọng nói từ văn bản thuần, chuyển bài viết hoặc file text thành speech, hoặc render âm thanh từ SRT với khả năng kiểm soát timing. Kỹ năng hỗ trợ chế độ đơn giản và chế độ theo timeline, cùng các quy trình làm việc nhận biết backend để dùng tts lặp lại một cách ổn định.

Voice Generation
Yêu thích 0GitHub 498
N
sound-fx

bởi NoizAI

Dùng kỹ năng sound-fx để biến prompt văn bản thành hiệu ứng âm thanh, foley, nền âm thanh môi trường, tiếng sinh vật và tiếng UI. Kỹ năng này phù hợp cho sound-fx trong Chỉnh sửa âm thanh, tạo mẫu nhanh và tạo tài sản âm thanh có thể tải xuống. Cài đặt qua NoizAI/skills, sau đó dùng quy trình làm việc dựa trên script với một Noiz API key hợp lệ. Không dành cho giọng nói, lời bài hát, giai điệu hoặc sao chép giọng.

Audio Editing
Yêu thích 0GitHub 498
N
characteristic-voice

bởi NoizAI

characteristic-voice là một kỹ năng tạo giọng nói cho kiểu lời thoại ấm áp, như người đồng hành, giàu cảm xúc. Dùng cho các câu trả lời an ủi, tin nhắn buổi sáng hoặc ban đêm, đối đáp đời thường, và cách thể hiện theo phong cách nhân vật với nhịp ngắt, tiếng cười nhẹ hoặc sự dịu dàng. Kỹ năng này có quy trình làm việc dựa trên preset và hỗ trợ backend để sử dụng characteristic-voice một cách thực tế.

Voice Generation
Yêu thích 0GitHub 498
N
chat-with-anyone

bởi NoizAI

chat-with-anyone giúp bạn sao chép giọng nói của một người thật từ audio công khai hoặc thiết kế một giọng nói tương thích từ một hình ảnh, rồi tạo câu trả lời tổng hợp bằng TTS. Skill này hỗ trợ các quy trình thực tế cho roleplay, tường thuật và tạo giọng nói, kèm hướng dẫn về cài đặt, chọn nguồn và sử dụng an toàn.

Voice Generation
Yêu thích 0GitHub 498
P
seedance-2.0-prompter

bởi pexoai

seedance-2.0-prompter giúp chuyển các tư liệu đa phương thức của Seedance 2.0 thành prompt có cấu trúc, với vai trò rõ ràng, cú pháp `@asset` và mẫu có thể tái sử dụng cho cài đặt, thiết lập và sử dụng thực tế.

Prompt Writing
Yêu thích 0GitHub 452
R
transcribe-video

bởi rameerez

Skill transcribe-video chuyển tệp video hoặc âm thanh thành các đầu ra .srt, .vtt và .txt bằng AWS Transcribe. Hãy dùng nó khi bạn cần transcribe-video để tạo phụ đề, bản chép có thể tìm kiếm, hoặc bản văn sạch của nội dung lời nói. Skill này cũng phù hợp cho các quy trình chuyển đổi định dạng với transcribe-video.

Format Conversion
Yêu thích 0GitHub 23
K
transformers

bởi K-Dense-AI

Skill transformers giúp bạn dùng Hugging Face Transformers để tải mô hình, suy luận, tokenization và fine-tuning. Đây là hướng dẫn transformers thực tế cho các tác vụ Machine Learning trên text, vision, audio và quy trình đa phương thức, với lộ trình rõ ràng cho baseline nhanh cũng như huấn luyện tùy chỉnh.

Machine Learning
Yêu thích 0GitHub 0
K
markitdown

bởi K-Dense-AI

markitdown chuyển đổi file và tài liệu văn phòng sang Markdown để dễ đọc hơn, dễ chia nhỏ nội dung, tìm kiếm và đưa vào quy trình làm việc với LLM. Skill markitdown này hỗ trợ PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, ảnh có OCR và chuyển giọng nói từ audio, nên là một hướng dẫn markitdown thực tế cho chuyển đổi định dạng.

Format Conversion
Yêu thích 0GitHub 0
M
detecting-deepfake-audio-in-vishing-attacks

bởi mukul975

detecting-deepfake-audio-in-vishing-attacks giúp các đội an ninh phân tích âm thanh để phát hiện giọng nói do AI tạo ra trong các vụ vishing, gian lận và mạo danh. Skill này trích xuất các đặc trưng dựa trên phổ và MFCC, chấm điểm các mẫu đáng ngờ, và tạo báo cáo theo phong cách điều tra số để xem xét. Phù hợp nhất cho quy trình Security Audit và ứng phó sự cố.

Security Audit
Yêu thích 0GitHub 0
O
speech

bởi openai

Dùng skill speech để chuyển văn bản thành âm thanh nói cho phần tường thuật, voiceover, lời nhắc IVR, nội dung đọc hỗ trợ khả năng tiếp cận và tạo giọng nói hàng loạt. Skill này dùng OpenAI Audio API với các giọng có sẵn, CLI đi kèm và `OPENAI_API_KEY` cho các lần chạy trực tiếp. Tạo giọng tùy chỉnh không thuộc phạm vi.

Design Implementation
Yêu thích 0GitHub 0
M
azure-ai-voicelive-py

bởi microsoft

azure-ai-voicelive-py giúp bạn xây dựng ứng dụng voice AI thời gian thực bằng Python với Azure AI Voice Live. Dùng cho âm thanh WebSocket hai chiều, trợ lý giọng nói, chat speech-to-speech, phiên âm, avatar và voice agent có dùng công cụ. Phù hợp nhất cho phát triển backend khi bạn cần kết nối async, xác thực Azure, kiểm soát session và streaming độ trễ thấp.

Backend Development
Yêu thích 0GitHub 0
Audio tagged agent skills