音频

浏览带有 音频 标签的 Agent Skill,并比较目录中的相关工作流与详情页。

16 个技能
R
remotion-best-practices

作者 remotion-dev

面向 Remotion 的实用最佳实践,用 React 构建程序化视频、动画,以及音频驱动的合成场景。

视频编辑
收藏 0GitHub 2411
I
elevenlabs-voice-isolator

作者 inferen-sh

基于 CLI 的 ElevenLabs 语音隔离技能,通过 inference.sh 去除背景噪音并从音频中分离人声。非常适合播客修音、访谈录音、音乐人声、嘈杂环境录音以及各类音频修复流程。

音频编辑
收藏 0GitHub 232
I
ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI,根据图片和音频生成 AI 虚拟人和说话头像视频。ai-avatar-video 封装了 OmniHuman、Fabric 和 PixVerse Lipsync 等应用,用于打造音频驱动的虚拟人、唇形同步视频和虚拟主持人,非常适合营销、讲解视频和社交内容工作流。

视频编辑
收藏 0GitHub 0
I
ai-content-pipeline

作者 inferen-sh

使用 inference.sh CLI 设计并运行多步骤 AI 内容生产流水线,把图片、视频、音频和文本工具串联起来。通过 ai-content-pipeline,你可以自动化内容工作流,例如:生成图片、将图片动画化成视频、添加音效或配音,并为 YouTube、社交媒体和营销活动批量准备素材。

工作流自动化
收藏 0GitHub 0
I
ai-music-generation

作者 inferen-sh

使用 ElevenLabs Music、Diffrythm 和 Tencent Song Generation,通过 inference.sh CLI 从文本提示生成 AI 音乐和完整歌曲。非常适合背景音乐、配乐、社交媒体短视频、播客以及免版税音乐。支持快速歌曲生成、纯伴奏和完整人声歌曲。

语音生成
收藏 0GitHub 0
I
ai-podcast-creation

作者 inferen-sh

使用 Kokoro TTS、DIA TTS 和 inference.sh CLI,将文本一键生成 AI 播客和语音内容。你可以混合多种声音、添加音乐,并拼接完整的播客节目、有声书和音频简报。

语音生成
收藏 0GitHub 0
I
ai-social-media-content

作者 inferen-sh

适用于 TikTok、Instagram、YouTube 和 X 的 AI 社交媒体内容生成器。结合 inference.sh CLI,可以用 FLUX、Veo、Seedance、Wan、Kokoro TTS 和 Claude 等模型,一键生成适配各平台的视频、reels、shorts、缩略图、图片、文案和标签。

社交媒体
收藏 0GitHub 0
I
ai-voice-cloning

作者 inferen-sh

ai-voice-cloning 是基于 inference.sh 的技能,用于在 CLI 中进行 AI 语音生成、文本转语音(TTS)和语音克隆。它封装了 ElevenLabs、Kokoro TTS、DIA、Chatterbox、Higgs 和 VibeVoice 等模型,适合用于自然语音、多角色旁白以及为音视频项目做语音变换。

语音生成
收藏 0GitHub 0
I
dialogue-audio

作者 inferen-sh

通过 inference.sh CLI,结合 Dia TTS 和 ElevenLabs,生成逼真的多说话人对话音频。dialogue-audio 技能可精细控制说话人、情绪、节奏和对话流,用于播客、有声书、讲解类内容、角色场景以及其他对话型音频内容。

语音生成
收藏 0GitHub 0
I
elevenlabs-dialogue

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs,生成精致的多说话人对话音频。将结构化脚本转换为自然流畅的多角色对话,并输出到同一个音频文件,适用于播客、有声书、讲解视频、教程、角色对白和视频脚本等场景。

语音生成
收藏 0GitHub 0
I
elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言,同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

视频编辑
收藏 0GitHub 0
I
elevenlabs-music

作者 inferen-sh

通过 inference.sh CLI 和 ElevenLabs,根据文本提示生成原创 AI 音乐。你可以在终端中直接控制时长、风格和情绪,创作免版税的背景音乐、配乐、jingle、播客底音乐和游戏音频。

音频编辑
收藏 0GitHub 0
I
elevenlabs-sound-effects

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs,根据文本提示生成 AI 音效。非常适合需要快速、免版税声音设计的视频剪辑师、游戏开发者、播客作者、电影创作者和内容创作者。支持文本转音效、可调节时长,以及可控的提示词影响力,可用于电影级、氛围化和游戏就绪的 SFX。

音频编辑
收藏 0GitHub 0
I
elevenlabs-stt

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs Scribe v1/v2 模型,实现高精度语音转文本。支持转写、说话人分离、音频事件标注、逐词时间戳、强制对齐,以及适用于会议、播客和其他音频流程的字幕生成。

音频编辑
收藏 0GitHub 0
I
elevenlabs-tts

作者 inferen-sh

通过 inference.sh CLI 使用 ElevenLabs 文本转语音(text-to-speech),提供 22+ 高品质声音、多语言支持以及适合生产环境的高性能语音生成模型。

语音生成
收藏 0GitHub 0
I
elevenlabs-voice-changer

作者 inferen-sh

ElevenLabs voice changer 技能通过 inference.sh CLI(infsh)将录制好的语音转换为另一种合成声音,同时尽可能保留原始内容与情绪表达。支持 eleven_multilingual_sts_v2(70+ 种语言)和 eleven_english_sts_v2,可用于语音转语音、多语言配音、口音变换、声音伪装等内容创作、配音与角色配音场景。

语音生成
收藏 0GitHub 0