音频

瀏覽帶有 音频 標籤的 Agent Skill,並比較目錄中的相關工作流與詳情頁。

25 個技能
A
videodb

作者 affaan-m

videodb 可協助你從本機檔案、URL、RTSP/RTMP 串流,或桌面擷取匯入影片與音訊;以時間戳搜尋片段並取得可播放的證據;還能透過剪輯、疊加、轉錄、警示與時間軸編輯來執行動作。這是一份給 VideoDB for Video Editing 與直播分析使用的實用 videodb 指南。

视频编辑
收藏 0GitHub 156.3k
A
video-editing

作者 affaan-m

video-editing 技能可幫你更快把既有素材整理成精緻、可直接上架的平台影片。它著重於剪輯、結構編排、字幕、重新構圖,以及少量增強處理,適用於 vlog、教學、示範、短片與訪談剪輯。如果你已經有原始素材,正在找一份實用的 video-editing 指南,這個技能最合適。

视频编辑
收藏 0GitHub 156.3k
A
fal-ai-media

作者 affaan-m

fal-ai-media 是一個透過 fal.ai MCP 提供整合式媒體生成的 GitHub 技能。它協助使用者安裝並使用 fal-ai-media 技能,支援圖片生成、圖片編輯、影片、語音與音訊工作流程,並提供模型搜尋、成本檢查與引導式提示。

影像生成
收藏 0GitHub 156.1k
O
transcribe

作者 openai

transcribe 可將音訊或影片轉成文字,並支援選用的聲紋分群與已知說話者提示。它特別適合技術寫作、會議紀錄、訪談、講座與內容營運;當你需要可重複使用、輸出格式清楚、且比通用提示詞更少猜測的 transcribe 技能時,這是一個相當合適的選擇。

技术写作
收藏 0GitHub 18.8k
J
baoyu-youtube-transcript

作者 JimLiu

baoyu-youtube-transcript 可從 YouTube URL 或影片 ID 擷取逐字稿、字幕與封面圖片。支援語言選擇、翻譯、輸出為 Markdown 或 SRT、利用快取重新格式化,並在 InnerTube API 無法取得內容時回退到 yt-dlp,提高逐字稿擷取的可靠性。

格式转换
收藏 0GitHub 13.2k
H
hyperframes

作者 heygen-com

hyperframes 是一個工作流程技能,用於在 HyperFrames 中建立以 HTML 為基礎的影片組成內容。當你需要結構化、以程式碼為核心的 hyperframes 來處理影片剪輯時,可用於標題卡、疊加圖層、字幕、旁白、音訊反應動態,以及場景轉場。它更重視版面配置、時間安排與動畫決策,而不是泛用的、只靠提示詞的影片需求。

视频编辑
收藏 0GitHub 2.7k
M
azure-ai-voicelive-ts

作者 microsoft

azure-ai-voicelive-ts 可協助你使用 Azure AI Voice Live TypeScript SDK 建立即時語音 AI 應用。適合需要雙向音訊、串流回應、session 設定與 function calling 的 Node.js 或瀏覽器專案。這份 azure-ai-voicelive-ts 指南很適合在你需要實際的安裝、使用與程式碼產生協助時參考。

程式碼生成
收藏 0GitHub 2.3k
M
azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可從文件、圖片、音訊與影片中擷取結構化內容,適合 RAG 工作流程與自動化。當你需要可靠的多模態擷取、Azure 驗證,以及可重複、可直接接入管線的輸出時,這個技能很合適。

RAG 工作流
收藏 0GitHub 2.2k
M
azure-ai-voicelive-java

作者 microsoft

azure-ai-voicelive-java 是一個供 Java 後端開發使用的 Azure AI VoiceLive SDK 技能,涵蓋安裝、驗證、WebSocket 語音串流、事件處理,以及以範例為主的即時助理建置用法。

後端开发
收藏 0GitHub 2.2k
M
azure-ai-voicelive-dotnet

作者 microsoft

azure-ai-voicelive-dotnet 是用來透過 Azure AI Voice Live 建立即時語音 AI 應用程式的 .NET 技能。內容涵蓋安裝、設定、驗證與使用指引,適合後端開發,包含雙向音訊、低延遲工作階段,以及 speech-to-speech 工作流程。

後端开发
收藏 0GitHub 2.2k
M
podcast-generation

作者 microsoft

podcast-generation 可透過 Azure OpenAI GPT Realtime Mini 搭配 WebSocket,將文字轉成 AI 生成的 podcast 風格音訊。它特別適合 Full-Stack Development 情境,提供 React、Python FastAPI、PCM 串流、逐字稿擷取與 WAV 轉換的實作指引。當你需要的是能直接用在真實應用整合的 podcast-generation 實務指南,而不是泛用提示詞時,這個技能就很合適。

全栈开发
收藏 0GitHub 2.2k
M
github-issue-creator

作者 microsoft

github-issue-creator 可將原始筆記、錯誤日誌、語音口述與截圖整理成精簡、符合 GitHub 風格的 issue 草稿。這個 github-issue-creator skill 能協助進行問題追蹤,將摘要、環境、重現步驟、預期與實際結果、影響與證據整理成可供審閱的 markdown issue。

問題追踪
收藏 0GitHub 2.2k
N
speech-to-text

作者 NoizAI

speech-to-text 技能可將支援的音訊檔轉寫為純文字,並提供時間戳記、說話者標籤與 JSON 輸出等選項。它專為需要可重複執行的實務 speech-to-text 工作流程而設計,包括訪談、會議、Podcast、講座,以及重視轉寫一致性的自動化任務。

工作流自動化
收藏 0GitHub 498
N
tts

作者 NoizAI

tts skill 可將文字轉成語音音訊,適用於旁白、配音、口白,以及與時間軸對齊的播放。你可以用它把純文字產生為語音檔、將文章或文字檔轉成語音,或依 SRT 產生具時間控制的音訊。它支援簡單模式與時間軸模式,並提供可感知後端的工作流程,方便重複且穩定地使用 tts。

語音生成
收藏 0GitHub 498
N
sound-fx

作者 NoizAI

使用 sound-fx 技能把文字提示轉成音效、擬音、環境底音、怪物聲,以及 UI 音效。它很適合 Audio Editing 的 sound-fx、快速原型製作與可下載的音訊素材。先用 NoizAI/skills 安裝,再透過腳本式工作流程搭配有效的 Noiz API key 使用。**不適用於**語音、歌詞、旋律或聲音複製。

音频编辑
收藏 0GitHub 498
N
characteristic-voice

作者 NoizAI

characteristic-voice 是一個語音生成技能,適合溫暖、像陪伴者一樣、帶有情感存在感的語音輸出。可用於安慰式回覆、早安或晚安訊息、輕鬆閒聊,以及帶有停頓、笑聲或溫柔語氣的角色式表達。它包含以預設值驅動的工作流程與後端支援,方便實際運用 characteristic-voice。

語音生成
收藏 0GitHub 498
N
chat-with-anyone

作者 NoizAI

chat-with-anyone 可讓你從公開音訊複製真實人物的聲音,或根據圖片設計相符的聲音,接著用 TTS 生成合成回覆。它支援角色扮演、敘事與語音生成等實用工作流程,並提供安裝、來源選擇與安全使用的指引。

語音生成
收藏 0GitHub 498
P
seedance-2.0-prompter

作者 pexoai

seedance-2.0-prompter 可將多模態 Seedance 2.0 素材整理為結構化提示,提供清楚的角色設計、`@asset` 語法與可重用範本,方便安裝評估、設定與實際使用。

提示词写作
收藏 0GitHub 452
R
transcribe-video

作者 rameerez

transcribe-video skill 會使用 AWS Transcribe 將影片或音訊檔轉成 .srt、.vtt 和 .txt 輸出。當你需要字幕、可搜尋的逐字稿,或乾淨的口語內容文字版時,很適合用來處理 transcribe-video;也適用於 Format Conversion 工作流程中的 transcribe-video 需求。

格式转换
收藏 0GitHub 23
K
transformers

作者 K-Dense-AI

這個 transformers 技能可協助你使用 Hugging Face Transformers 進行模型載入、推論、tokenization 與 fine-tuning。它是一份實用的 transformers 指南,適用於 Machine Learning 工作,涵蓋文字、視覺、音訊與多模態流程,並提供從快速 baseline 到自訂訓練的清楚路徑。

Machine Learning
收藏 0GitHub 0
K
markitdown

作者 K-Dense-AI

markitdown 可將檔案與 Office 文件轉換為 Markdown,讓內容更容易閱讀、切分、搜尋,也更適合 LLM 工作流程。這個 markitdown 技能支援 PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、含 OCR 的圖片,以及音訊轉錄,是一份實用的 markitdown 格式轉換指南。

格式转换
收藏 0GitHub 0
M
detecting-deepfake-audio-in-vishing-attacks

作者 mukul975

detecting-deepfake-audio-in-vishing-attacks 可協助資安團隊分析 vishing、詐騙與冒充案件中的音訊,判斷是否含有 AI 生成語音。它會擷取頻譜與 MFCC 特徵、對可疑樣本進行評分,並產出適合檢視的鑑識式報告。很適合安全稽核與事件應變流程使用。

安全稽核
收藏 0GitHub 0
O
speech

作者 openai

使用 speech 技能將文字轉成可播放的語音音訊,適用於旁白、配音、IVR 提示、無障礙朗讀與批次語音生成。它使用 OpenAI Audio API,內建 voices、隨附 CLI,並以 `OPENAI_API_KEY` 進行即時執行。自訂 voice 建立不在支援範圍內。

設計实现
收藏 0GitHub 0
M
azure-ai-voicelive-py

作者 microsoft

azure-ai-voicelive-py 可協助你用 Python 和 Azure AI Voice Live 建立即時語音 AI 應用。適合雙向 WebSocket 音訊、語音助理、語音對語音聊天、轉錄、avatar,以及可使用工具的語音代理。當你需要非同步連線、Azure 驗證、工作階段控制與低延遲串流時,這個技能特別適合後端開發。

後端开发
收藏 0GitHub 0
音频 標籤 Agent Skill