Audio

Kham pha Agent Skill gan the Audio va so sanh workflow lien quan trong danh muc.

18 skills
A
videodb

bởi affaan-m

videodb giúp bạn nhập video và audio từ file cục bộ, URL, luồng trực tiếp RTSP/RTMP hoặc quay màn hình máy tính; tìm các khoảnh khắc theo dấu thời gian với bằng chứng có thể phát lại; và thao tác bằng clip, lớp phủ, phiên âm, cảnh báo, cùng chỉnh sửa theo dòng thời gian. Đây là hướng dẫn thực hành videodb cho VideoDB for Video Editing và phân tích livestream.

Video Editing
Yêu thích 0GitHub 156.3k
A
video-editing

bởi affaan-m

Kỹ năng video-editing giúp bạn biến footage có sẵn thành video chỉn chu, sẵn sàng đăng nền tảng nhanh hơn. Nó tập trung vào cắt ghép, sắp xếp cấu trúc, chèn phụ đề, thay đổi khung hình và tăng cường nhẹ cho vlog, hướng dẫn, demo, clip ngắn và chỉnh sửa phỏng vấn. Phù hợp nhất khi bạn đã có footage thô và cần một hướng dẫn video-editing thực tế.

Video Editing
Yêu thích 0GitHub 156.3k
A
fal-ai-media

bởi affaan-m

fal-ai-media là một GitHub skill cho tạo media thống nhất qua fal.ai MCP. Skill này giúp người dùng cài đặt và sử dụng fal-ai-media cho các quy trình tạo ảnh, chỉnh sửa ảnh, video, giọng nói và âm thanh, với tìm kiếm model, kiểm tra chi phí và prompt hướng dẫn.

Image Generation
Yêu thích 0GitHub 156.1k
O
transcribe

bởi openai

transcribe biến âm thanh hoặc video thành văn bản, có thể kèm phân tách người nói và gợi ý người nói đã biết. Phù hợp cho viết kỹ thuật, ghi chú cuộc họp, phỏng vấn, bài giảng và vận hành nội dung khi bạn cần một kỹ năng transcribe lặp lại được với định dạng đầu ra rõ ràng và ít phải đoán hơn so với một prompt chung chung.

Technical Writing
Yêu thích 0GitHub 18.8k
J
baoyu-youtube-transcript

bởi JimLiu

baoyu-youtube-transcript giúp trích xuất transcript, phụ đề và ảnh bìa YouTube từ URL hoặc video ID. Công cụ hỗ trợ chọn ngôn ngữ, dịch, xuất ra markdown hoặc SRT, định dạng lại từ bộ nhớ đệm và tự động chuyển từ InnerTube API sang yt-dlp để lấy transcript ổn định hơn khi cần.

Format Conversion
Yêu thích 0GitHub 13.2k
H
hyperframes

bởi heygen-com

hyperframes là một skill quy trình để xây dựng các bố cục video dựa trên HTML trong HyperFrames. Hãy dùng nó cho thẻ tiêu đề, lớp phủ, phụ đề, lồng tiếng, chuyển động phản ứng theo âm thanh và chuyển cảnh khi bạn cần hyperframes có cấu trúc, ưu tiên mã nguồn cho Video Editing. Skill này đề cao quyết định về bố cục, thời gian và hoạt ảnh hơn là các yêu cầu video chung chung chỉ dựa trên prompt.

Video Editing
Yêu thích 0GitHub 2.7k
M
azure-ai-voicelive-ts

bởi microsoft

azure-ai-voicelive-ts giúp bạn xây dựng ứng dụng voice AI thời gian thực với Azure AI Voice Live TypeScript SDK. Hãy dùng nó cho các dự án Node.js hoặc trình duyệt cần âm thanh hai chiều, phản hồi streaming, thiết lập phiên và function calling. Hướng dẫn azure-ai-voicelive-ts này hữu ích khi bạn cần hỗ trợ thực tế về cài đặt, cách dùng và tạo code.

Code Generation
Yêu thích 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

bởi microsoft

azure-ai-contentunderstanding-py là skill Python cho Azure AI Content Understanding. Nó trích xuất nội dung có cấu trúc từ tài liệu, hình ảnh, âm thanh và video để phục vụ RAG và tự động hóa. Hãy dùng khi bạn cần trích xuất đa phương thức đáng tin cậy, xác thực Azure và đầu ra lặp lại, sẵn sàng cho pipeline.

RAG Workflows
Yêu thích 0GitHub 2.2k
M
azure-ai-voicelive-java

bởi microsoft

azure-ai-voicelive-java là skill SDK Azure AI VoiceLive cho phát triển backend Java. Skill này bao gồm cài đặt, xác thực, truyền phát giọng nói qua WebSocket, xử lý sự kiện và cách dùng theo ví dụ cho các bản dựng trợ lý thời gian thực.

Backend Development
Yêu thích 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

bởi microsoft

azure-ai-voicelive-dotnet là skill .NET để xây dựng ứng dụng AI giọng nói thời gian thực với Azure AI Voice Live. Skill này bao gồm hướng dẫn cài đặt, thiết lập, xác thực và cách dùng cho phát triển backend, gồm âm thanh hai chiều, phiên độ trễ thấp và quy trình speech-to-speech.

Backend Development
Yêu thích 0GitHub 2.2k
M
podcast-generation

bởi microsoft

podcast-generation giúp tạo audio kiểu podcast bằng AI từ văn bản, sử dụng Azure OpenAI GPT Realtime Mini qua WebSocket. Kỹ năng này phù hợp cho podcast-generation trong Phát triển Full-Stack, với hướng dẫn cho React, Python FastAPI, truyền PCM, thu transcript và chuyển đổi WAV. Hãy dùng khi bạn cần một hướng dẫn podcast-generation thực tế để tích hợp vào ứng dụng thật, không phải một prompt chung chung.

Full-Stack Development
Yêu thích 0GitHub 2.2k
M
github-issue-creator

bởi microsoft

github-issue-creator chuyển ghi chú thô, log lỗi, lời mô tả bằng giọng nói và ảnh chụp màn hình thành các bản nháp issue theo kiểu GitHub thật gọn gàng. Kỹ năng github-issue-creator này hỗ trợ theo dõi issue bằng cách sắp xếp phần tóm tắt, môi trường, các bước tái hiện, hành vi mong đợi so với thực tế, mức độ ảnh hưởng và bằng chứng vào một issue markdown có thể xem xét.

Issue Tracking
Yêu thích 0GitHub 2.2k
P
seedance-2.0-prompter

bởi pexoai

seedance-2.0-prompter giúp chuyển các tư liệu đa phương thức của Seedance 2.0 thành prompt có cấu trúc, với vai trò rõ ràng, cú pháp `@asset` và mẫu có thể tái sử dụng cho cài đặt, thiết lập và sử dụng thực tế.

Prompt Writing
Yêu thích 0GitHub 452
R
transcribe-video

bởi rameerez

Skill transcribe-video chuyển tệp video hoặc âm thanh thành các đầu ra .srt, .vtt và .txt bằng AWS Transcribe. Hãy dùng nó khi bạn cần transcribe-video để tạo phụ đề, bản chép có thể tìm kiếm, hoặc bản văn sạch của nội dung lời nói. Skill này cũng phù hợp cho các quy trình chuyển đổi định dạng với transcribe-video.

Format Conversion
Yêu thích 0GitHub 23
M
detecting-deepfake-audio-in-vishing-attacks

bởi mukul975

detecting-deepfake-audio-in-vishing-attacks giúp các đội an ninh phân tích âm thanh để phát hiện giọng nói do AI tạo ra trong các vụ vishing, gian lận và mạo danh. Skill này trích xuất các đặc trưng dựa trên phổ và MFCC, chấm điểm các mẫu đáng ngờ, và tạo báo cáo theo phong cách điều tra số để xem xét. Phù hợp nhất cho quy trình Security Audit và ứng phó sự cố.

Security Audit
Yêu thích 0GitHub 0
O
speech

bởi openai

Dùng skill speech để chuyển văn bản thành âm thanh nói cho phần tường thuật, voiceover, lời nhắc IVR, nội dung đọc hỗ trợ khả năng tiếp cận và tạo giọng nói hàng loạt. Skill này dùng OpenAI Audio API với các giọng có sẵn, CLI đi kèm và `OPENAI_API_KEY` cho các lần chạy trực tiếp. Tạo giọng tùy chỉnh không thuộc phạm vi.

Design Implementation
Yêu thích 0GitHub 0
M
azure-ai-voicelive-py

bởi microsoft

azure-ai-voicelive-py giúp bạn xây dựng ứng dụng voice AI thời gian thực bằng Python với Azure AI Voice Live. Dùng cho âm thanh WebSocket hai chiều, trợ lý giọng nói, chat speech-to-speech, phiên âm, avatar và voice agent có dùng công cụ. Phù hợp nhất cho phát triển backend khi bạn cần kết nối async, xác thực Azure, kiểm soát session và streaming độ trễ thấp.

Backend Development
Yêu thích 0GitHub 0
M
azure-ai-transcription-py

bởi microsoft

azure-ai-transcription-py là một skill Python cho Azure AI Transcription. Dùng cho chuyển giọng nói thành văn bản theo lô hoặc thời gian thực, có dấu thời gian và phân tách người nói. Skill này phù hợp với phát triển backend, dùng xác thực bằng subscription key, và dẫn bạn đến đúng luồng cài đặt cùng cách sử dụng cho Azure client library.

Backend Development
Yêu thích 0GitHub 0