音频

瀏覽帶有 音频 標籤的 Agent Skill,並比較目錄中的相關工作流與詳情頁。

18 個技能
A
videodb

作者 affaan-m

videodb 可協助你從本機檔案、URL、RTSP/RTMP 串流,或桌面擷取匯入影片與音訊;以時間戳搜尋片段並取得可播放的證據;還能透過剪輯、疊加、轉錄、警示與時間軸編輯來執行動作。這是一份給 VideoDB for Video Editing 與直播分析使用的實用 videodb 指南。

视频编辑
收藏 0GitHub 156.3k
A
video-editing

作者 affaan-m

video-editing 技能可幫你更快把既有素材整理成精緻、可直接上架的平台影片。它著重於剪輯、結構編排、字幕、重新構圖,以及少量增強處理,適用於 vlog、教學、示範、短片與訪談剪輯。如果你已經有原始素材,正在找一份實用的 video-editing 指南,這個技能最合適。

视频编辑
收藏 0GitHub 156.3k
A
fal-ai-media

作者 affaan-m

fal-ai-media 是一個透過 fal.ai MCP 提供整合式媒體生成的 GitHub 技能。它協助使用者安裝並使用 fal-ai-media 技能,支援圖片生成、圖片編輯、影片、語音與音訊工作流程,並提供模型搜尋、成本檢查與引導式提示。

影像生成
收藏 0GitHub 156.1k
O
transcribe

作者 openai

transcribe 可將音訊或影片轉成文字,並支援選用的聲紋分群與已知說話者提示。它特別適合技術寫作、會議紀錄、訪談、講座與內容營運;當你需要可重複使用、輸出格式清楚、且比通用提示詞更少猜測的 transcribe 技能時,這是一個相當合適的選擇。

技术写作
收藏 0GitHub 18.8k
J
baoyu-youtube-transcript

作者 JimLiu

baoyu-youtube-transcript 可從 YouTube URL 或影片 ID 擷取逐字稿、字幕與封面圖片。支援語言選擇、翻譯、輸出為 Markdown 或 SRT、利用快取重新格式化,並在 InnerTube API 無法取得內容時回退到 yt-dlp,提高逐字稿擷取的可靠性。

格式转换
收藏 0GitHub 13.2k
H
hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能,用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時,可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態,以及場景轉場。它更重視版面配置、時間安排與動畫決策,而不是泛用的、只靠提示詞的影片需求。

视频编辑
收藏 0GitHub 2.7k
M
azure-ai-voicelive-ts

作者 microsoft

azure-ai-voicelive-ts 可協助你使用 Azure AI Voice Live TypeScript SDK 建立即時語音 AI 應用。適合需要雙向音訊、串流回應、session 設定與 function calling 的 Node.js 或瀏覽器專案。這份 azure-ai-voicelive-ts 指南很適合在你需要實際的安裝、使用與程式碼產生協助時參考。

程式碼生成
收藏 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可從文件、圖片、音訊與影片中擷取結構化內容,適合 RAG 工作流程與自動化。當你需要可靠的多模態擷取、Azure 驗證,以及可重複、可直接接入管線的輸出時,這個技能很合適。

RAG 工作流
收藏 0GitHub 2.2k
M
azure-ai-voicelive-java

作者 microsoft

azure-ai-voicelive-java 是一個供 Java 後端開發使用的 Azure AI VoiceLive SDK 技能,涵蓋安裝、驗證、WebSocket 語音串流、事件處理,以及以範例為主的即時助理建置用法。

後端开发
收藏 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

作者 microsoft

azure-ai-voicelive-dotnet 是用來透過 Azure AI Voice Live 建立即時語音 AI 應用程式的 .NET 技能。內容涵蓋安裝、設定、驗證與使用指引,適合後端開發,包含雙向音訊、低延遲工作階段,以及 speech-to-speech 工作流程。

後端开发
收藏 0GitHub 2.2k
M
podcast-generation

作者 microsoft

podcast-generation 可透過 Azure OpenAI GPT Realtime Mini 搭配 WebSocket,將文字轉成 AI 生成的 podcast 風格音訊。它特別適合 Full-Stack Development 情境,提供 React、Python FastAPI、PCM 串流、逐字稿擷取與 WAV 轉換的實作指引。當你需要的是能直接用在真實應用整合的 podcast-generation 實務指南,而不是泛用提示詞時,這個技能就很合適。

全栈开发
收藏 0GitHub 2.2k
M
github-issue-creator

作者 microsoft

github-issue-creator 可將原始筆記、錯誤日誌、語音口述與截圖整理成精簡、符合 GitHub 風格的 issue 草稿。這個 github-issue-creator skill 能協助進行問題追蹤,將摘要、環境、重現步驟、預期與實際結果、影響與證據整理成可供審閱的 markdown issue。

問題追踪
收藏 0GitHub 2.2k
P
seedance-2.0-prompter

作者 pexoai

seedance-2.0-prompter 可將多模態 Seedance 2.0 素材整理為結構化提示,提供清楚的角色設計、`@asset` 語法與可重用範本,方便安裝評估、設定與實際使用。

提示词写作
收藏 0GitHub 452
R
transcribe-video

作者 rameerez

transcribe-video skill 會使用 AWS Transcribe 將影片或音訊檔轉成 .srt、.vtt 和 .txt 輸出。當你需要字幕、可搜尋的逐字稿,或乾淨的口語內容文字版時,很適合用來處理 transcribe-video;也適用於 Format Conversion 工作流程中的 transcribe-video 需求。

格式转换
收藏 0GitHub 23
M
detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可協助資安團隊分析 vishing、詐騙與冒充案件中的音訊,判斷是否含有 AI 生成語音。它會擷取頻譜與 MFCC 特徵、對可疑樣本進行評分,並產出適合檢視的鑑識式報告。很適合安全稽核與事件應變流程使用。

安全稽核
收藏 0GitHub 0
O
speech

作者 openai

使用 speech 技能將文字轉成可播放的語音音訊,適用於旁白、配音、IVR 提示、無障礙朗讀與批次語音生成。它使用 OpenAI Audio API,內建 voices、隨附 CLI,並以 `OPENAI_API_KEY` 進行即時執行。自訂 voice 建立不在支援範圍內。

設計实现
收藏 0GitHub 0
M
azure-ai-voicelive-py

作者 microsoft

azure-ai-voicelive-py 可協助你用 Python 和 Azure AI Voice Live 建立即時語音 AI 應用。適合雙向 WebSocket 音訊、語音助理、語音對語音聊天、轉錄、avatar,以及可使用工具的語音代理。當你需要非同步連線、Azure 驗證、工作階段控制與低延遲串流時,這個技能特別適合後端開發。

後端开发
收藏 0GitHub 0
M
azure-ai-transcription-py

作者 microsoft

azure-ai-transcription-py 是一個用於 Azure AI Transcription 的 Python 技能。可用於具時間戳記與說話者分離的批次或即時語音轉文字。它適合後端開發,使用訂用帳戶金鑰驗證,並會引導你走向 Azure 用戶端程式庫正確的安裝與使用流程。

後端开发
收藏 0GitHub 0