Audio

Audio タグ付きの Agent Skill を閲覧し、関連ワークフローを比較できます。

25 件のスキル

videodb

作成者 affaan-m

videodb は、ローカルファイル、URL、RTSP/RTMP のライブ配信、またはデスクトップキャプチャから動画と音声を取り込み、タイムスタンプ付きの検索で該当シーンを見つけ、再生可能な証拠として確認し、クリップ、オーバーレイ、文字起こし、アラート、タイムライン編集で実際に操作するのに役立ちます。VideoDB for Video Editing とライブ配信分析に向けた、実用的な videodb ガイドです。

Video Editing

お気に入り 0GitHub 156.3k

video-editing

作成者 affaan-m

video-editingスキルは、既存の映像素材をより洗練された、各プラットフォーム向けの動画へ素早く仕上げるためのものです。Vlog、チュートリアル、デモ、短尺クリップ、インタビュー編集を対象に、カット、構成、字幕付け、リフレーミング、軽い補強を中心に扱います。すでにラフ素材があり、実用的なvideo-editingガイドが必要なときに最適です。

Video Editing

お気に入り 0GitHub 156.3k

fal-ai-media

作成者 affaan-m

fal-ai-media は、fal.ai MCP を使ってメディア生成を一元化する GitHub スキルです。画像生成、画像編集、動画、音声、オーディオの各ワークフローで、モデル検索、コスト確認、ガイド付きプロンプトを使いながら fal-ai-media スキルをインストールして活用できます。

Image Generation

お気に入り 0GitHub 156.1k

transcribe

作成者 openai

transcribe は、音声や動画をテキスト化するスキルで、話者分離の指定や既知話者のヒントも使えます。技術文書作成、会議メモ、インタビュー、講義、コンテンツ運用など、出力形式を安定させたい場面に向いています。汎用プロンプトよりも手順が明確で、再現性のある音声文字起こしスキルを求めるときに適しています。

Technical Writing

お気に入り 0GitHub 18.8k

baoyu-youtube-transcript

作成者 JimLiu

baoyu-youtube-transcriptは、YouTubeのURLまたは動画IDから文字起こし、字幕、カバー画像を抽出できるスキルです。言語指定、翻訳、Markdown / SRT出力、キャッシュを使った再整形に対応し、より確実に文字起こしを取得するためにInnerTube APIからyt-dlpへのフォールバックも備えています。

Format Conversion

お気に入り 0GitHub 13.2k

hyperframes

作成者 heygen-com

hyperframes は、HyperFrames で HTML ベースの動画コンポジションを構築するためのワークフロースキルです。タイトルカード、オーバーレイ、字幕、ナレーション、音に反応するモーション、シーン遷移など、Video Editing 向けに構造化されたコードファーストの hyperframes が必要なときに使えます。汎用的なプロンプトだけの動画依頼よりも、レイアウト、タイミング、アニメーションの設計を重視します。

Video Editing

お気に入り 0GitHub 2.7k

azure-ai-voicelive-ts

作成者 microsoft

azure-ai-voicelive-ts は、Azure AI Voice Live TypeScript SDK を使ってリアルタイム音声 AI アプリを構築するのに役立ちます。双方向音声、ストリーミング応答、セッション設定、関数呼び出しが必要な Node.js やブラウザ向けプロジェクトに最適です。この azure-ai-voicelive-ts ガイドは、実践的な導入、使い方、コード生成のヒントを探しているときに役立ちます。

Code Generation

お気に入り 0GitHub 2.3k

azure-ai-contentunderstanding-py

作成者 microsoft

azure-ai-contentunderstanding-py は、Azure AI Content Understanding 向けの Python スキルです。ドキュメント、画像、音声、動画から構造化コンテンツを抽出し、RAG ワークフローや自動化に活用できます。信頼性の高いマルチモーダル抽出、Azure 認証、再現性のあるパイプライン向け出力が必要な場合に適しています。

RAG Workflows

お気に入り 0GitHub 2.2k

azure-ai-voicelive-java

作成者 microsoft

azure-ai-voicelive-java は、Java のバックエンド開発向けの Azure AI VoiceLive SDK スキルです。インストール、認証、WebSocket による音声ストリーミング、イベント処理、リアルタイムのアシスタント構築に役立つ実例ベースの使い方をカバーします。

Backend Development

お気に入り 0GitHub 2.2k

azure-ai-voicelive-dotnet

作成者 microsoft

azure-ai-voicelive-dotnet は、Azure AI Voice Live を使ってリアルタイム音声AIアプリを構築するための .NET 向けスキルです。インストール、セットアップ、認証、利用方法をカバーしており、双方向音声、低遅延セッション、音声対話から音声対話へのワークフローなど、バックエンド開発に必要なガイダンスを提供します。

Backend Development

お気に入り 0GitHub 2.2k

podcast-generation

作成者 microsoft

podcast-generation は、Azure OpenAI GPT Realtime Mini を WebSocket で使い、テキストから AI 生成のポッドキャスト風音声を作るためのスキルです。React、Python FastAPI、PCM ストリーミング、文字起こしの取得、WAV 変換まで含めた、Full-Stack Development 向けの podcast-generation に適しています。汎用的なプロンプトではなく、実際のアプリ統合に使える実践的な podcast-generation ガイドが必要なときに向いています。

Full-Stack Development

お気に入り 0GitHub 2.2k

github-issue-creator

作成者 microsoft

github-issue-creator は、メモ、エラーログ、音声入力、スクリーンショットを、GitHub らしい簡潔な issue 下書きに整えます。Issue Tracking 用のこの github-issue-creator skill は、要約、環境、再現手順、期待される挙動と実際の挙動、影響範囲、証拠を整理し、レビューしやすい markdown issue にまとめるのに役立ちます。

Issue Tracking

お気に入り 0GitHub 2.2k

speech-to-text

作成者 NoizAI

speech-to-text スキルは、対応音声ファイルをプレーンテキストに文字起こしします。タイムスタンプ、話者ラベル、JSON 出力にも対応しており、実務的な音声文字起こしに向けて設計されています。インタビュー、会議、ポッドキャスト、講義、そして一貫した文字起こしが重要な自動化タスクなど、繰り返し使うワークフローでの利用に適しています。

Workflow Automation

お気に入り 0GitHub 498

tts

作成者 NoizAI

ttsスキルは、テキストを音声に変換し、ナレーション、吹き替え、ボイスオーバー、タイムライン同期再生に使える音声を生成します。プレーンテキストから音声ファイルを作成したり、記事やテキストファイルを音声化したり、SRTベースの音声をタイミング制御付きで出力したりできます。シンプルモードとタイムラインモードに対応し、バックエンドを意識した再現性のあるtts運用にも向いています。

Voice Generation

お気に入り 0GitHub 498

sound-fx

作成者 NoizAI

sound-fx スキルを使って、テキストプロンプトから効果音、フォーリー、アンビエント音、クリーチャー音、UI ノイズを生成できます。Audio Editing 向けの sound-fx として、素早い試作やダウンロード可能な音声アセット作成に適しています。NoizAI/skills にインストールし、有効な Noiz API key を使ってスクリプトベースのワークフローを実行します。音声、歌詞、メロディ、ボイスクローンには向きません。

Audio Editing

お気に入り 0GitHub 498

characteristic-voice

作成者 NoizAI

characteristic-voice は、温かく、寄り添うようで、感情のこもった話し方を生成する音声生成 skill です。慰める返答、朝や夜のメッセージ、気軽な雑談、間や笑い、やわらかさのあるキャラクター調の受け答えに向いています。プリセット駆動のワークフローと、実用的な characteristic-voice 運用を支えるバックエンド対応を備えています。

Voice Generation

お気に入り 0GitHub 498

chat-with-anyone

作成者 NoizAI

chat-with-anyone は、公開音声から実在人物の声をクローンしたり、画像からそれらしい声を設計したりして、TTS で合成返信を生成できるスキルです。ロールプレイ、ナレーション、音声生成といった実用的なワークフローに対応しており、インストール、参照元の選び方、安全な使い方まで案内します。

Voice Generation

お気に入り 0GitHub 498

seedance-2.0-prompter

作成者 pexoai

seedance-2.0-prompterは、マルチモーダルなSeedance 2.0アセットを、役割が明確で `@asset` 構文に対応した構造化プロンプトへ整理し、導入・設定・実運用に使いやすい再利用可能なテンプレートとして活用できるようにします。

Prompt Writing

お気に入り 0GitHub 452

transcribe-video

作成者 rameerez

transcribe-video skill は、AWS Transcribe を使って動画や音声ファイルを .srt、.vtt、.txt に変換します。字幕、検索可能な文字起こし、または話し言葉をすっきりしたテキストにしたいときの transcribe-video の用途に向いています。Format Conversion ワークフローで transcribe-video を使う場合にも適しています。

Format Conversion

お気に入り 0GitHub 23

transformers

作成者 K-Dense-AI

transformersスキルは、Hugging Face Transformersを使ったモデルの読み込み、推論、トークナイゼーション、ファインチューニングを支援します。テキスト、画像、音声、マルチモーダルの各ワークフローで使える実践的なtransformersガイドとして、素早いベースライン構築からカスタム学習までをわかりやすく整理しています。

Machine Learning

お気に入り 0GitHub 0

markitdown

作成者 K-Dense-AI

markitdownは、ファイルやOffice文書をMarkdownに変換し、読みやすさ、分割、検索、LLMワークフローを改善します。このmarkitdownスキルは、PDF、DOCX、PPTX、XLSX、HTML、CSV、JSON、XML、ZIP、EPUB、OCR付き画像、音声文字起こしに対応しており、形式変換のための実用的なmarkitdownガイドとして使えます。

Format Conversion

お気に入り 0GitHub 0

detecting-deepfake-audio-in-vishing-attacks

作成者 mukul975

detecting-deepfake-audio-in-vishing-attacks は、セキュリティチームが vishing、詐欺、なりすまし事案における AI 生成音声を分析するのに役立ちます。スペクトル特徴と MFCC ベースの特徴を抽出し、疑わしいサンプルにスコアを付け、レビュー用のフォレンジック形式レポートを出力します。Security Audit やインシデント対応のワークフローに適しています。

Security Audit

お気に入り 0GitHub 0

speech

作成者 openai

speech skillを使うと、テキストを音声に変換して、ナレーション、ボイスオーバー、IVRプロンプト、アクセシビリティ向け読み上げ、バッチ音声生成に活用できます。OpenAI Audio API、組み込み音声、同梱のCLI、そしてライブ実行用の`OPENAI_API_KEY`を使用します。カスタム音声の作成は対象外です。

Design Implementation

お気に入り 0GitHub 0

azure-ai-voicelive-py

作成者 microsoft

azure-ai-voicelive-py は、Azure AI Voice Live を使って Python でリアルタイム音声AIアプリを構築するためのスキルです。双方向の WebSocket 音声、音声アシスタント、音声対話、文字起こし、アバター、ツール利用型の音声エージェントに適しています。非同期接続、Azure 認証、セッション制御、低遅延ストリーミングが必要なバックエンド開発に特に向いています。

Backend Development

お気に入り 0GitHub 0