音频

瀏覽帶有音频標籤的 Agent Skill，並比較目錄中的相關工作流與詳情頁。

25 個技能

videodb

作者 affaan-m

videodb 可協助你從本機檔案、URL、RTSP/RTMP 串流，或桌面擷取匯入影片與音訊；以時間戳搜尋片段並取得可播放的證據；還能透過剪輯、疊加、轉錄、警示與時間軸編輯來執行動作。這是一份給 VideoDB for Video Editing 與直播分析使用的實用 videodb 指南。

视频编辑

收藏 0GitHub 156.3k

video-editing

作者 affaan-m

video-editing 技能可幫你更快把既有素材整理成精緻、可直接上架的平台影片。它著重於剪輯、結構編排、字幕、重新構圖，以及少量增強處理，適用於 vlog、教學、示範、短片與訪談剪輯。如果你已經有原始素材，正在找一份實用的 video-editing 指南，這個技能最合適。

视频编辑

收藏 0GitHub 156.3k

fal-ai-media

作者 affaan-m

fal-ai-media 是一個透過 fal.ai MCP 提供整合式媒體生成的 GitHub 技能。它協助使用者安裝並使用 fal-ai-media 技能，支援圖片生成、圖片編輯、影片、語音與音訊工作流程，並提供模型搜尋、成本檢查與引導式提示。

影像生成

收藏 0GitHub 156.1k

transcribe

作者 openai

transcribe 可將音訊或影片轉成文字，並支援選用的聲紋分群與已知說話者提示。它特別適合技術寫作、會議紀錄、訪談、講座與內容營運；當你需要可重複使用、輸出格式清楚、且比通用提示詞更少猜測的 transcribe 技能時，這是一個相當合適的選擇。

技术写作

收藏 0GitHub 18.8k

baoyu-youtube-transcript

作者 JimLiu

baoyu-youtube-transcript 可從 YouTube URL 或影片 ID 擷取逐字稿、字幕與封面圖片。支援語言選擇、翻譯、輸出為 Markdown 或 SRT、利用快取重新格式化，並在 InnerTube API 無法取得內容時回退到 yt-dlp，提高逐字稿擷取的可靠性。

格式转换

收藏 0GitHub 13.2k

hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能，用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時，可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態，以及場景轉場。它更重視版面配置、時間安排與動畫決策，而不是泛用的、只靠提示詞的影片需求。

视频编辑

收藏 0GitHub 2.7k

azure-ai-voicelive-ts

作者 microsoft

azure-ai-voicelive-ts 可協助你使用 Azure AI Voice Live TypeScript SDK 建立即時語音 AI 應用。適合需要雙向音訊、串流回應、session 設定與 function calling 的 Node.js 或瀏覽器專案。這份 azure-ai-voicelive-ts 指南很適合在你需要實際的安裝、使用與程式碼產生協助時參考。

程式碼生成

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可從文件、圖片、音訊與影片中擷取結構化內容，適合 RAG 工作流程與自動化。當你需要可靠的多模態擷取、Azure 驗證，以及可重複、可直接接入管線的輸出時，這個技能很合適。

RAG 工作流

收藏 0GitHub 2.2k

azure-ai-voicelive-java

作者 microsoft

azure-ai-voicelive-java 是一個供 Java 後端開發使用的 Azure AI VoiceLive SDK 技能，涵蓋安裝、驗證、WebSocket 語音串流、事件處理，以及以範例為主的即時助理建置用法。

後端开发

收藏 0GitHub 2.2k

azure-ai-voicelive-dotnet

作者 microsoft

azure-ai-voicelive-dotnet 是用來透過 Azure AI Voice Live 建立即時語音 AI 應用程式的 .NET 技能。內容涵蓋安裝、設定、驗證與使用指引，適合後端開發，包含雙向音訊、低延遲工作階段，以及 speech-to-speech 工作流程。

後端开发

收藏 0GitHub 2.2k

podcast-generation

作者 microsoft

podcast-generation 可透過 Azure OpenAI GPT Realtime Mini 搭配 WebSocket，將文字轉成 AI 生成的 podcast 風格音訊。它特別適合 Full-Stack Development 情境，提供 React、Python FastAPI、PCM 串流、逐字稿擷取與 WAV 轉換的實作指引。當你需要的是能直接用在真實應用整合的 podcast-generation 實務指南，而不是泛用提示詞時，這個技能就很合適。

全栈开发

收藏 0GitHub 2.2k

github-issue-creator

作者 microsoft

github-issue-creator 可將原始筆記、錯誤日誌、語音口述與截圖整理成精簡、符合 GitHub 風格的 issue 草稿。這個 github-issue-creator skill 能協助進行問題追蹤，將摘要、環境、重現步驟、預期與實際結果、影響與證據整理成可供審閱的 markdown issue。

問題追踪

收藏 0GitHub 2.2k

speech-to-text

作者 NoizAI

speech-to-text 技能可將支援的音訊檔轉寫為純文字，並提供時間戳記、說話者標籤與 JSON 輸出等選項。它專為需要可重複執行的實務 speech-to-text 工作流程而設計，包括訪談、會議、Podcast、講座，以及重視轉寫一致性的自動化任務。

工作流自動化

收藏 0GitHub 498

tts

作者 NoizAI

tts skill 可將文字轉成語音音訊，適用於旁白、配音、口白，以及與時間軸對齊的播放。你可以用它把純文字產生為語音檔、將文章或文字檔轉成語音，或依 SRT 產生具時間控制的音訊。它支援簡單模式與時間軸模式，並提供可感知後端的工作流程，方便重複且穩定地使用 tts。

語音生成

收藏 0GitHub 498

sound-fx

作者 NoizAI

使用 sound-fx 技能把文字提示轉成音效、擬音、環境底音、怪物聲，以及 UI 音效。它很適合 Audio Editing 的 sound-fx、快速原型製作與可下載的音訊素材。先用 NoizAI/skills 安裝，再透過腳本式工作流程搭配有效的 Noiz API key 使用。**不適用於**語音、歌詞、旋律或聲音複製。

音频编辑

收藏 0GitHub 498

characteristic-voice

作者 NoizAI

characteristic-voice 是一個語音生成技能，適合溫暖、像陪伴者一樣、帶有情感存在感的語音輸出。可用於安慰式回覆、早安或晚安訊息、輕鬆閒聊，以及帶有停頓、笑聲或溫柔語氣的角色式表達。它包含以預設值驅動的工作流程與後端支援，方便實際運用 characteristic-voice。

語音生成

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可讓你從公開音訊複製真實人物的聲音，或根據圖片設計相符的聲音，接著用 TTS 生成合成回覆。它支援角色扮演、敘事與語音生成等實用工作流程，並提供安裝、來源選擇與安全使用的指引。

語音生成

收藏 0GitHub 498

seedance-2.0-prompter

作者 pexoai

seedance-2.0-prompter 可將多模態 Seedance 2.0 素材整理為結構化提示，提供清楚的角色設計、`@asset` 語法與可重用範本，方便安裝評估、設定與實際使用。

提示词写作

收藏 0GitHub 452

transcribe-video

作者 rameerez

transcribe-video skill 會使用 AWS Transcribe 將影片或音訊檔轉成 .srt、.vtt 和 .txt 輸出。當你需要字幕、可搜尋的逐字稿，或乾淨的口語內容文字版時，很適合用來處理 transcribe-video；也適用於 Format Conversion 工作流程中的 transcribe-video 需求。

格式转换

收藏 0GitHub 23

transformers

作者 K-Dense-AI

這個 transformers 技能可協助你使用 Hugging Face Transformers 進行模型載入、推論、tokenization 與 fine-tuning。它是一份實用的 transformers 指南，適用於 Machine Learning 工作，涵蓋文字、視覺、音訊與多模態流程，並提供從快速 baseline 到自訂訓練的清楚路徑。

Machine Learning

收藏 0GitHub 0

markitdown

作者 K-Dense-AI

markitdown 可將檔案與 Office 文件轉換為 Markdown，讓內容更容易閱讀、切分、搜尋，也更適合 LLM 工作流程。這個 markitdown 技能支援 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、含 OCR 的圖片，以及音訊轉錄，是一份實用的 markitdown 格式轉換指南。

格式转换

收藏 0GitHub 0

detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可協助資安團隊分析 vishing、詐騙與冒充案件中的音訊，判斷是否含有 AI 生成語音。它會擷取頻譜與 MFCC 特徵、對可疑樣本進行評分，並產出適合檢視的鑑識式報告。很適合安全稽核與事件應變流程使用。

安全稽核

收藏 0GitHub 0

speech

作者 openai

使用 speech 技能將文字轉成可播放的語音音訊，適用於旁白、配音、IVR 提示、無障礙朗讀與批次語音生成。它使用 OpenAI Audio API，內建 voices、隨附 CLI，並以 `OPENAI_API_KEY` 進行即時執行。自訂 voice 建立不在支援範圍內。

設計实现

收藏 0GitHub 0

azure-ai-voicelive-py

作者 microsoft

azure-ai-voicelive-py 可協助你用 Python 和 Azure AI Voice Live 建立即時語音 AI 應用。適合雙向 WebSocket 音訊、語音助理、語音對語音聊天、轉錄、avatar，以及可使用工具的語音代理。當你需要非同步連線、Azure 驗證、工作階段控制與低延遲串流時，這個技能特別適合後端開發。

後端开发

收藏 0GitHub 0

音频

瀏覽帶有 音频 標籤的 Agent Skill，並比較目錄中的相關工作流與詳情頁。

瀏覽帶有音频標籤的 Agent Skill，並比較目錄中的相關工作流與詳情頁。