作成者 openai
transcribe は、音声や動画をテキスト化するスキルで、話者分離の指定や既知話者のヒントも使えます。技術文書作成、会議メモ、インタビュー、講義、コンテンツ運用など、出力形式を安定させたい場面に向いています。汎用プロンプトよりも手順が明確で、再現性のある音声文字起こしスキルを求めるときに適しています。
作成者 openai
transcribe は、音声や動画をテキスト化するスキルで、話者分離の指定や既知話者のヒントも使えます。技術文書作成、会議メモ、インタビュー、講義、コンテンツ運用など、出力形式を安定させたい場面に向いています。汎用プロンプトよりも手順が明確で、再現性のある音声文字起こしスキルを求めるときに適しています。
作成者 microsoft
azure-speech-to-text-rest-py は、Speech SDK を使わずに短い音声を文字起こしするための Python 向け Azure Speech REST skill です。HTTP を直接制御したいバックエンド開発、素早く立ち上げたいケース、60 秒までの音声ファイル対応が必要な場合に向いています。このガイドでは、インストール、認証、音声フォーマット、そして長尺音声・ストリーミング・バッチ文字起こしを避けるべき場面までをカバーします。
作成者 NoizAI
speech-to-text スキルは、対応音声ファイルをプレーンテキストに文字起こしします。タイムスタンプ、話者ラベル、JSON 出力にも対応しており、実務的な音声文字起こしに向けて設計されています。インタビュー、会議、ポッドキャスト、講義、そして一貫した文字起こしが重要な自動化タスクなど、繰り返し使うワークフローでの利用に適しています。
作成者 NoizAI
ttsスキルは、テキストを音声に変換し、ナレーション、吹き替え、ボイスオーバー、タイムライン同期再生に使える音声を生成します。プレーンテキストから音声ファイルを作成したり、記事やテキストファイルを音声化したり、SRTベースの音声をタイミング制御付きで出力したりできます。シンプルモードとタイムラインモードに対応し、バックエンドを意識した再現性のあるtts運用にも向いています。
作成者 mukul975
detecting-deepfake-audio-in-vishing-attacks は、セキュリティチームが vishing、詐欺、なりすまし事案における AI 生成音声を分析するのに役立ちます。スペクトル特徴と MFCC ベースの特徴を抽出し、疑わしいサンプルにスコアを付け、レビュー用のフォレンジック形式レポートを出力します。Security Audit やインシデント対応のワークフローに適しています。