Audio

Audio 태그가 붙은 Agent Skill을 찾아보고 관련 워크플로를 비교하세요.

25 개 스킬

videodb

작성자 affaan-m

videodb는 로컬 파일, URL, RTSP/RTMP 라이브 피드, 데스크톱 캡처에서 비디오와 오디오를 수집하고, 타임스탬프가 있는 순간을 검색해 재생 가능한 증거로 확인하며, 클립, 오버레이, 전사, 알림, 타임라인 편집으로 바로 활용할 수 있도록 돕습니다. VideoDB for Video Editing과 라이브 스트림 분석을 위한 실용적인 videodb 가이드입니다.

Video Editing

즐겨찾기 0GitHub 156.3k

video-editing

작성자 affaan-m

video-editing 스킬은 기존 영상을 더 빠르게 세련되고 플랫폼 배포에 바로 쓸 수 있는 영상으로 다듬는 데 도움을 줍니다. 브이로그, 튜토리얼, 데모, 숏폼 클립, 인터뷰 편집을 위해 컷 편집, 구조화, 자막, 화면 재구성, 가벼운 보강 작업에 초점을 맞춥니다. 이미 원본 영상이 있고 실용적인 video-editing 가이드가 필요할 때 가장 잘 맞습니다.

Video Editing

즐겨찾기 0GitHub 156.3k

fal-ai-media

작성자 affaan-m

fal-ai-media는 fal.ai MCP를 통해 이미지, 비디오, 음성, 오디오를 한 번에 다루는 미디어 생성용 GitHub 스킬입니다. 이미지 생성, 이미지 편집, 비디오, 음성, 오디오 워크플로에 맞춰 fal-ai-media 스킬을 설치하고 활용하는 데 도움이 되며, 모델 검색, 비용 확인, 안내 프롬프트까지 함께 제공합니다.

Image Generation

즐겨찾기 0GitHub 156.1k

transcribe

작성자 openai

transcribe는 오디오나 비디오를 텍스트로 바꾸며, 선택적으로 화자 분리와 알려진 화자 힌트도 지원합니다. Technical Writing, 회의록, 인터뷰, 강의, 콘텐츠 운영처럼 재현 가능한 transcribe 스킬과 명확한 출력 형식이 필요할 때 잘 맞으며, 범용 프롬프트보다 덜 추측에 의존하게 해줍니다.

Technical Writing

즐겨찾기 0GitHub 18.8k

baoyu-youtube-transcript

작성자 JimLiu

baoyu-youtube-transcript는 URL 또는 비디오 ID에서 YouTube 자막, 스크립트, 커버 이미지를 추출할 수 있게 도와주는 스킬입니다. 언어 선택과 번역을 지원하며, markdown 또는 SRT 출력, 캐시 기반 재포맷, 그리고 더 안정적인 스크립트 수집을 위해 InnerTube API에서 yt-dlp로 폴백하는 방식까지 제공합니다.

Format Conversion

즐겨찾기 0GitHub 13.2k

hyperframes

작성자 heygen-com

hyperframes는 HyperFrames에서 HTML 기반 비디오 컴포지션을 만드는 워크플로 스킬입니다. 제목 카드, 오버레이, 자막, 보이스오버, 오디오 반응형 모션, 장면 전환처럼 구조화된 코드 우선 hyperframes가 필요할 때 사용하세요. 일반적인 프롬프트만으로 만드는 비디오 요청보다 레이아웃, 타이밍, 애니메이션 결정을 더 중시합니다.

Video Editing

즐겨찾기 0GitHub 2.7k

azure-ai-voicelive-ts

작성자 microsoft

azure-ai-voicelive-ts는 Azure AI Voice Live TypeScript SDK로 실시간 음성 AI 앱을 만드는 데 도움이 됩니다. 양방향 오디오, 스트리밍 응답, 세션 설정, 함수 호출이 필요한 Node.js 또는 브라우저 프로젝트에 적합합니다. 이 azure-ai-voicelive-ts 가이드는 실용적인 설치, 사용법, 코드 생성 도움을 원할 때 유용합니다.

Code Generation

즐겨찾기 0GitHub 2.3k

azure-ai-contentunderstanding-py

작성자 microsoft

azure-ai-contentunderstanding-py는 Azure AI Content Understanding용 Python 스킬입니다. 문서, 이미지, 오디오, 비디오에서 구조화된 콘텐츠를 추출해 RAG 워크플로와 자동화에 활용할 수 있습니다. 신뢰할 수 있는 멀티모달 추출, Azure 인증, 그리고 반복 가능한 파이프라인용 출력을 필요로 할 때 적합합니다.

RAG Workflows

즐겨찾기 0GitHub 2.2k

azure-ai-voicelive-java

작성자 microsoft

azure-ai-voicelive-java는 Java 백엔드 개발용 Azure AI VoiceLive SDK 스킬입니다. 설치, 인증, WebSocket 음성 스트리밍, 이벤트 처리, 예제 기반 사용법을 다루며, 실시간 어시스턴트 구축에 필요한 핵심 흐름을 제공합니다.

Backend Development

즐겨찾기 0GitHub 2.2k

azure-ai-voicelive-dotnet

작성자 microsoft

azure-ai-voicelive-dotnet은 Azure AI Voice Live로 실시간 음성 AI 앱을 만드는 .NET 스킬입니다. 설치, 설정, 인증, 사용 방법을 다루며, 양방향 오디오, 저지연 세션, 음성-음성 워크플로 같은 백엔드 개발 가이드를 제공합니다.

Backend Development

즐겨찾기 0GitHub 2.2k

podcast-generation

작성자 microsoft

podcast-generation은 Azure OpenAI GPT Realtime Mini를 WebSocket으로 연결해 텍스트에서 AI 생성 팟캐스트 스타일 오디오를 만드는 데 도움이 됩니다. React, Python FastAPI, PCM 스트리밍, 전사 캡처, WAV 변환까지 안내해 Full-Stack Development용 podcast-generation에 적합합니다. 일반적인 프롬프트가 아니라, 실제 앱 통합에 바로 쓰는 실용적인 podcast-generation 가이드가 필요할 때 사용하세요.

Full-Stack Development

즐겨찾기 0GitHub 2.2k

github-issue-creator

작성자 microsoft

github-issue-creator는 원본 메모, 오류 로그, 음성 받아쓰기, 스크린샷을 GitHub 스타일의 깔끔한 이슈 초안으로 바꿉니다. 이 github-issue-creator 스킬은 요약, 환경, 재현 단계, 예상 결과와 실제 결과, 영향도, 증거를 보기 좋은 markdown 이슈로 정리해 이슈 추적을 돕습니다.

Issue Tracking

즐겨찾기 0GitHub 2.2k

speech-to-text

작성자 NoizAI

speech-to-text 스킬은 지원되는 오디오 파일을 일반 텍스트로 전사하며, 타임스탬프, 화자 레이블, JSON 출력 옵션을 제공합니다. 반복 가능한 워크플로에서 실용적으로 음성을 텍스트로 옮기는 용도에 맞게 설계되었으며, 인터뷰, 회의, 팟캐스트, 강의, 그리고 일관된 전사가 중요한 자동화 작업에 적합합니다.

Workflow Automation

즐겨찾기 0GitHub 498

tts

작성자 NoizAI

tts 스킬은 텍스트를 음성 오디오로 바꿔 내레이션, 더빙, 보이스오버, 타임라인 맞춤 재생에 활용할 수 있습니다. 일반 텍스트로 음성 파일을 만들고, 기사나 텍스트 파일을 음성으로 변환하고, 시간 제어가 필요한 SRT 기반 오디오를 렌더링하는 데 유용합니다. 단순 모드와 타임라인 모드를 모두 지원하며, 반복 가능한 tts 사용을 위한 백엔드 인식 워크플로도 제공합니다.

Voice Generation

즐겨찾기 0GitHub 498

sound-fx

작성자 NoizAI

sound-fx 스킬로 텍스트 프롬프트를 효과음, 폴리, 앰비언트 베드, 크리처 사운드, UI 노이즈로 바꿔보세요. 오디오 편집, 빠른 프로토타이핑, 다운로드 가능한 오디오 자산 제작에 잘 맞습니다. NoizAI/skills로 설치한 뒤, 유효한 Noiz API 키를 사용해 스크립트 기반 워크플로로 실행합니다. 음성, 가사, 멜로디, 보이스 클로닝 용도에는 적합하지 않습니다.

Audio Editing

즐겨찾기 0GitHub 498

characteristic-voice

작성자 NoizAI

characteristic-voice는 따뜻하고, 동행하는 느낌이 나며, 감정이 살아 있는 음성을 생성하는 스킬입니다. 위로하는 답변, 아침·밤 인사, 가벼운 농담, 멈춤·웃음·다정함이 들어간 캐릭터풍 전달에 적합합니다. 프리셋 기반 워크플로와 실사용을 위한 백엔드 지원도 포함합니다.

Voice Generation

즐겨찾기 0GitHub 498

chat-with-anyone

작성자 NoizAI

chat-with-anyone은 공개 음성에서 실제 인물의 목소리를 복제하거나, 이미지를 바탕으로 어울리는 목소리를 설계한 뒤 TTS로 합성 응답을 생성하는 기능입니다. 역할극, 내레이션, 음성 생성 같은 실무 흐름을 지원하며, 설치 방법, 소스 선택, 안전한 사용까지 함께 안내합니다.

Voice Generation

즐겨찾기 0GitHub 498

seedance-2.0-prompter

작성자 pexoai

seedance-2.0-prompter는 멀티모달 Seedance 2.0 자산을 명확한 역할 구분, `@asset` 문법, 재사용 가능한 템플릿을 갖춘 구조화된 프롬프트로 정리해 주며, 설치, 설정, 실사용 판단에 도움을 줍니다.

Prompt Writing

즐겨찾기 0GitHub 452

transcribe-video

작성자 rameerez

transcribe-video skill은 AWS Transcribe를 사용해 비디오나 오디오 파일을 .srt, .vtt, .txt 출력으로 변환합니다. 자막, 검색 가능한 전사본, 또는 음성 콘텐츠의 깔끔한 텍스트 버전이 필요할 때 transcribe-video 용도로 사용하기 좋습니다. Format Conversion 워크플로에도 잘 맞습니다.

Format Conversion

즐겨찾기 0GitHub 23

transformers

작성자 K-Dense-AI

transformers 스킬은 Hugging Face Transformers를 사용해 모델 로딩, 추론, 토큰화, 파인튜닝을 수행하는 데 도움이 됩니다. 텍스트, 비전, 오디오, 멀티모달 워크플로 전반에서 머신러닝 작업을 위한 실용적인 transformers 가이드로, 빠른 베이스라인부터 커스텀 학습까지 자연스럽게 이어집니다.

Machine Learning

즐겨찾기 0GitHub 0

markitdown

작성자 K-Dense-AI

markitdown은 파일과 오피스 문서를 Markdown으로 변환해 더 쉽게 읽고, 청킹하고, 검색하고, LLM 워크플로에 활용할 수 있게 해줍니다. 이 markitdown 스킬은 PDF, DOCX, PPTX, XLSX, HTML, CSV, JSON, XML, ZIP, EPUB, OCR이 포함된 이미지, 음성 전사까지 지원해 형식 변환용 markitdown 가이드로 실용적입니다.

Format Conversion

즐겨찾기 0GitHub 0

detecting-deepfake-audio-in-vishing-attacks

작성자 mukul975

detecting-deepfake-audio-in-vishing-attacks는 보안 팀이 vishing, 사기, 사칭 사례에서 AI 생성 음성을 분석하는 데 도움을 줍니다. 스펙트럼 및 MFCC 기반 특징을 추출하고, 의심스러운 샘플에 점수를 매기며, 검토용 포렌식 스타일 보고서를 생성합니다. Security Audit와 사고 대응 워크플로에 적합합니다.

Security Audit

즐겨찾기 0GitHub 0

speech

작성자 openai

speech 스킬로 텍스트를 내레이션, 보이스오버, IVR 안내 멘트, 접근성용 읽기, 배치 음성 생성용 음성 오디오로 바꿀 수 있습니다. 내장 음성, 번들 CLI, 실시간 실행용 `OPENAI_API_KEY`를 사용하는 OpenAI Audio API 기반이며, 사용자 지정 음성 생성은 범위에 포함되지 않습니다.

Design Implementation

즐겨찾기 0GitHub 0

azure-ai-voicelive-py

작성자 microsoft

azure-ai-voicelive-py는 Azure AI Voice Live로 Python 실시간 음성 AI 앱을 만드는 데 도움을 줍니다. 양방향 WebSocket 오디오, 음성 비서, 음성-음성 대화, 전사, 아바타, 도구를 사용하는 음성 에이전트에 적합합니다. 비동기 연결, Azure 인증, 세션 제어, 저지연 스트리밍이 필요한 백엔드 개발에 가장 잘 맞습니다.

Backend Development

즐겨찾기 0GitHub 0