transcribe

作成者 openai

transcribe は、音声や動画をテキスト化するスキルで、話者分離の指定や既知話者のヒントも使えます。技術文書作成、会議メモ、インタビュー、講義、コンテンツ運用など、出力形式を安定させたい場面に向いています。汎用プロンプトよりも手順が明確で、再現性のある音声文字起こしスキルを求めるときに適しています。

スター18.8k

お気に入り0

追加日2026年5月11日

カテゴリーTechnical Writing

インストールコマンド

npx skills add openai/skills --skill transcribe

編集スコア

このスキルの評価は74/100で、ディレクトリ利用者にとって十分に有望な導入候補です。文字起こし用途が明確で、CLI が同梱されており、汎用プロンプトよりも迷いを減らせる運用情報も備わっています。一方で、リポジトリの証拠を見る限り、用途は音声文字起こしに絞られており、広く使える包括的なエンドツーエンド実装としての記述は限定的です。

74/100

強み

SKILL.md で、音声/動画の文字起こし、話者ラベル付け、インタビューや会議での利用を明示的に扱っている。
同梱スクリプトとクイックリファレンスにより、応答形式、チャンク分割戦略、最大ファイルサイズ、既知話者の制約といった重要な運用条件が分かる。
運用フローが具体的で、API キー確認、CLI 実行、出力検証、標準の出力パスへの保存まで流れが見える。

注意点

スキルの範囲は狭く、1つの文字起こしワークフローに集中しているため、より広いメディア処理を求める場合は別の選択肢が必要です。
提示された証拠では導入手順が完全にセルフサービス化されていません。SKILL.md には依存関係の記載がありますが、完全なインストールコマンドやクイックスタート例までは示されていません。

Speech To Text Transcription Audio Video OpenAI Cli Python

概要

transcribe skill の概要

transcribe skill でできること

transcribe skill は、OpenAI を使って音声や動画をテキスト化する skill です。必要に応じて話者分離や既知話者のヒントも使えます。録音、インタビュー、会議、講義、短い動画クリップを、信頼できる transcribe 結果として残したいときに向いています。特に、話者ラベルが重要なケースで力を発揮します。

どんな人に向いているか

transcribe skill は、その場しのぎのプロンプトではなく、再現性のあるワークフローを求める人に向いています。Technical Writing、会議メモ、コンテンツ運用、リサーチインタビューなど、読みやすいテキストと追跡しやすい話者構造の両方が必要な場面で特に有用です。

この skill が違う理由

最大の強みは、運用上のわかりやすさです。bundled CLI を前提にしており、モデル選択と出力形式の判断ルールが明示され、必要に応じて話者分離済みの出力も扱えます。そのため、単に「これを文字起こしして」と頼む一般的な prompt より、transcribe skill のほうが安定して回しやすいです。特に、再現性と出力の形を重視する場合に違いが出ます。

transcribe skill の使い方

transcribe skill をインストールする

npx skills add openai/skills --skill transcribe でインストールします。リポジトリを直接使う場合は skills/.curated/transcribe から始めて、環境上の理由で変更が必要な場合を除き、bundled のワークフローはそのまま維持してください。

transcribe の使い方に合った入力を準備する

transcribe をうまく使うには、次を用意してください。

音声または動画のファイルパス
希望する応答形式: text, json, diarized_json
任意の言語ヒント
話者分離が必要な場合は既知の話者情報

たとえば、強い prompt は「この18分のインタビューを文字起こしして、diarized_json で返してください。可能ならホストと2人のゲストをラベル付けしてください」のようになります。単に「transcript がほしい」と頼むより、出力の構造と話者コンテキストをどう最適化すべきかが伝わるため、こちらのほうが適切です。

先に読むべきファイル

まず SKILL.md を読み、そのあと references/api.md で形式上の制約と話者分離のルールを確認してください。フローを拡張したり自動化したりするなら、scripts/transcribe_diarize.py と agents/openai.yaml を見て、既定モデル、CLI の挙動、prompt の入口を把握してください。

実務で役立つワークフローのコツ

高速な通常文字起こしには gpt-4o-mini-transcribe を使い、話者ラベルが重要なときは gpt-4o-transcribe-diarize に切り替えてください。30秒を超える音声では chunking_strategy を auto のままにしておくと扱いやすいです。実行前に OPENAI_API_KEY がローカル環境で設定されていることも確認してください。この skill は、secret を貼り付けるのではなく、設定済みの環境を前提にしています。

transcribe skill の FAQ

transcribe は Technical Writing に向いていますか？

はい。transcribe skill は、ソース音声を docs、インタビュー、コンテンツ整理用の編集しやすいテキストに変える必要がある Technical Writing にかなり向いています。創作的な書き換えよりも、話し言葉を信頼できる構造化テキストにすることが主目的です。

どんな場合に transcribe を使わないほうがいいですか？

トランスクリプトは不要で、ざっくりした要約だけ欲しい場合は transcribe を使わないでください。また、分割せずに対応できる supported request limits を超えるほどファイルが大きい場合も不向きです。話し言葉の正確な変換より、大きな意訳や再表現を求める用途にも合いません。

通常の prompt と何が違うのですか？

通常の prompt でも文字起こしは頼めますが、transcribe skill には再現可能なワークフロー、推奨 CLI、明示的な応答形式の選択肢、そして話者分離のガイダンスがあります。複数ファイルで一貫した出力が必要なとき、この違いが迷いを減らします。

transcribe は初心者にも使いやすいですか？

はい、ファイルと希望する出力を指定できるなら使いやすいです。初心者が迷うのはたいてい、プレーンテキストにするか話者分離付きにするかの選択くらいです。最初のハードルは環境設定なので、まず OPENAI_API_KEY を確認してください。

transcribe skill を改善するには

transcribe により良いソース情報を渡す

品質を最も大きく左右するのは、たいてい prompt を増やすことではなく、入力を良くすることです。たとえば、音声がポッドキャストなのか、通話録音なのか、講義なのかを伝え、話者の重なりがあるか、逐語的なテキストが欲しいのか、整形済みの transcript 出力が欲しいのかを明示してください。そうすることで、transcribe はより適した経路を選びやすくなります。

話者分離が重要なら speaker hints を使う

話者名がわかっているなら、音声だけでモデルに推測させるのではなく、参照情報として渡してください。特に、transcribe では話し方が似ている人がいる場合や、複数のゲストがいる録音で重要です。既知の話者情報はラベルの一貫性を高めますが、参照が正確であることが前提です。

変更は一度に1つずつ試す

最初の transcribe 出力が弱い場合は、モデル、chunking、response format、speaker hints のどれか1つだけを変えてください。リクエスト全体を一気に書き換えないほうが、原因を追いやすくなります。たとえば、ラベルがずれているなら、transcript の目的はそのままにして、話者参照を追加するか diarized_json に切り替えるだけで十分です。

よくある失敗パターンに注意する

よくある問題は、API key の未設定、未対応のファイル処理、あいまいな出力指定、そして使える話者コンテキストがないのに話者分離を求めることです。ワークフロー向けに transcribe のガイドを作るなら、想定するファイル形式、推奨出力形式、録音がノイジーだったり長すぎたりした場合のフォールバックも明記してください。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

seo-hreflang

作成者 AgriciDaniel

seo-hreflang は、多言語・多地域サイト向けの hreflang マークアップを検証・生成するための skill です。HTML、HTTPヘッダー、XMLサイトマップ全体で、自己参照、return tag、x-default、有効な言語・地域コードを確認するのに使えます。信頼できる seo-hreflang ガイドの支援が必要な SEO コンテンツチームに最適です。

SEO Content

お気に入り 0GitHub 0

openai-docs

作成者 openai

openai-docs は、テクニカルライティング、OpenAI API と製品に関する質問、モデル選定、移行時の確認、プロンプト改善の指針に使います。Developer Docs MCP サーバー経由で公式 OpenAI ドキュメントを優先して参照し、必要な場合のみ同梱リファレンスを補助的なコンテキストとして使います。

Technical Writing

お気に入り 0GitHub 0

seo

作成者 affaan-m

このSEOスキルは、テクニカルSEO、オンページ最適化、構造化データ、Core Web Vitals、キーワードマッピングの監査・計画・実装を支援します。クロール可能性、インデックス可能性、メタデータ、schema、内部リンク、sitemapやrobotsの変更、またはKeyword Research向けのSEOに使えます。ページ単位でそのまま実装できる具体的な指針を提供します。

Keyword Research

お気に入り 0GitHub 156.3k

adr-skill

作成者 vercel

adr-skill は、エージェントが実行可能な Architecture Decision Records をチームで作成・運用するためのスキルです。ADR のドラフト作成、ADR フォルダの初期セットアップ、テンプレート選定、ステータス更新、チェックリスト・スクリプト・実例を使った意思決定の検証を支援します。

Technical Writing

お気に入り 0GitHub 23.1k

building-incident-response-playbook

作成者 mukul975

building-incident-response-playbook は、セキュリティチームが再利用可能なインシデント対応プレイブックを作成できるようにする skill です。段階的なフェーズ、判断フロー、エスカレーション基準、RACI による責任分担、SOAR 対応の構成まで備えており、インシデント対応手順のドキュメント化、インシデントトリアージのワークフロー、監査に強い運用対応計画の整理に向いています。

Incident Triage

お気に入り 0GitHub 6.1k

prd-development

作成者 deanpeters

prd-developmentスキルは、調査メモを問題の整理、ユーザー、解決策、スコープ、成功基準を含む構造化PRDに落とし込むのに役立ちます。エンジニアリングへの引き継ぎ、新機能の企画、Technical Writing向けのprd-developmentに活用できます。

Technical Writing

お気に入り 0GitHub 4.1k

user-story

作成者 deanpeters

user-story スキルは、製品要件を、Mike Cohn 形式の記述と Gherkin の受け入れ基準を備えた、開発にそのまま使える 1 つのストーリーにまとめるのを支援します。より明確な引き継ぎ、精度の高い見積もり、Technical Writing やプロダクトチーム向けの、より実用的な user-story ガイド作成に役立ちます。

Technical Writing

お気に入り 0GitHub 4.1k

provider-docs

作成者 hashicorp

provider-docs スキルは、Terraform Provider 向けの Terraform Registry ドキュメントを作成・更新・検証するのに役立ちます。provider-docs のガイド作業、Technical Writing 向けの provider-docs、ドキュメント変更時に schema descriptions、tfplugindocs テンプレート、Registry 出力を同期させる用途に使えます。

Technical Writing

お気に入り 0GitHub 0

api-design

作成者 affaan-m

api-design は、エンドポイント設計やリソース命名、ステータスコード、ページネーション、フィルタリング、バージョニング、エラーレスポンスの計画・レビューに役立つ REST API 設計スキルです。

API Development

お気に入り 0GitHub 156.1k

press-release

作成者 deanpeters

press-release スキルは、実装前に Amazon 形式の Working Backwards プレスリリースを下書きするのに役立ちます。顧客価値を整理し、製品や機能のアイデアを検証し、簡潔で顧客中心のストーリーで関係者の認識をそろえるために使えます。Technical Writing の press-release や初期段階のプロダクト企画に特に有用です。

Technical Writing

お気に入り 0GitHub 4.1k

asc-whats-new-writer

作成者 rudrankriyam

asc-whats-new-writerは、git log、箇条書き、自由入力のテキストをもとに、`./metadata` の正規メタデータと任意のプロモーションテキスト更新を使って、ローカライズ済みのApp Store Connect「最新情報」原稿を作成します。リリース管理者、アプリマーケター、SEOコンテンツチーム向けに、asc-whats-new-writerの使い方を再現性高くまとめたガイドとして設計されており、手探りを減らせます。

SEO Content

お気に入り 0GitHub 790

source-driven-development

作成者 addyosmani

source-driven-development スキルは、フレームワーク固有のコーディングを公式ドキュメントに基づいて進めるためのもので、実装前にパターンを確認できます。React、Vue、Next.js、Svelte、Angular などのスタックで、正確性、出典の明確さ、バージョン差に左右される判断が重要な場合に最適です。

Code Generation

お気に入り 0GitHub 18.8k

readme-i18n

作成者 xixu-me

readme-i18n は、GitHubスタイルの README を保守しやすい多言語版へ展開するためのスキルです。Markdown、リンク、コードブロック、ファイル命名規則を保ちながら、README 間で共通の言語セレクターも整えられます。

Translation

お気に入り 0GitHub 6

prd-generator

作成者 ognjengt

prd-generator は、ざっくりしたプロダクトアイデアを AI で使える Product Requirements Document（PRD）に変換します。確認質問を投げ、決まったテンプレートに沿って整理し、創業者、プロダクト責任者、Skill Authoring のワークフローで、下流の AI コーディングツール向けにより明確な仕様を作るのを支援します。構造化された要件、指標、制約、実装にそのまま使える文脈が必要なときに使う skill です。

Skill Authoring

お気に入り 0GitHub 0

brainstorming

作成者 obra

brainstorming は、実装前に文脈整理と設計検討を進めるための skill です。確認質問を一度に一つずつ行い、コードに入る前に設計承認を必須とします。任意で使える visual companion を備え、Requirements Planning の支援も充実しています。

Requirements Planning

お気に入り 1GitHub 121.7k

crafting-effective-readmes

作成者 softaworks

crafting-effective-readmes は、プロジェクト種別ごとの template、section checklist、style guidance、repo-aware prompts を使って README の作成・更新・レビューを支援し、インストール手順や使い方をより分かりやすく整理できる skill です。

Technical Writing

お気に入り 0GitHub 1.3k