speech

作成者 openai

speech skillを使うと、テキストを音声に変換して、ナレーション、ボイスオーバー、IVRプロンプト、アクセシビリティ向け読み上げ、バッチ音声生成に活用できます。OpenAI Audio API、組み込み音声、同梱のCLI、そしてライブ実行用の`OPENAI_API_KEY`を使用します。カスタム音声の作成は対象外です。

スター0

お気に入り0

追加日2026年5月8日

カテゴリーDesign Implementation

インストールコマンド

npx skills add openai/skills --skill speech

編集スコア

この skill は88/100で、実務で使いやすい価値の高いディレクトリ掲載といえます。一般的なプロンプトよりも明確に実行へつなげやすく、CLI と参照情報も十分にあるため、実際の導入や運用を進めやすい構成です。ただし、ライブ出力にはネットワーク接続と OpenAI API が必要です。

88/100

強み

トリガーの明確さが強みです。フロントマターで、テキスト読み上げのナレーション、ボイスオーバー、アクセシビリティ向け読み上げ、バッチ音声生成といった用途がはっきり示されています。
運用面がわかりやすく、`SKILL.md` に単発処理とバッチ処理の判断フローや手順が整理され、同梱CLIの参照情報も付いています。
エージェントにとって扱いやすく、音声、Audio API のパラメータ、アクセシビリティ向けの既定値、バッチ利用の参照がそろっているため、実行時の迷いを減らせます。

注意点

ライブ生成には`OPENAI_API_KEY`とネットワーク接続が必要なため、オフライン前提では完全には自己完結しません。
カスタム音声の作成は対象外なので、独自音声や高度な音声ワークフローが必要な場合は別の手段が必要です。

Audio Accessibility Anthropic OpenAI Cli

概要

speech スキルの概要

speech スキルでできること

speech スキルは、テキストを音声に変換して、ナレーション、ボイスオーバー、IVR の案内音声、アクセシビリティ向け読み上げ、バッチでの音声生成に使えます。自由に「いい感じにしてほしい」と頼むのではなく、プロンプトどおりに再現性のある音声出力が必要なときに最適です。

どんな人に向いているか

speech は、実際のワークフローに組み込みたい場合に使うスキルです。たとえば、製品デモ、アプリのオンボーディング、アクセシビリティ用素材、構造化されたテキストから多数の短いクリップを作る用途に向いています。音声の選択、話速、出力形式、そして実行ごとの生成の一貫性を重視するなら、相性はかなり良好です。

何が違うのか

speech ガイドは OpenAI Audio API と付属の CLI を前提に作られているため、その場しのぎのプロンプト調整よりも、決められた手順での利用を重視します。組み込み音声を使い、単発ジョブにもバッチジョブにも対応し、ライブ生成には OPENAI_API_KEY を必要とします。カスタム音声の作成は対象外です。

speech スキルの使い方

インストールしてワークフローを確認する

npx skills add openai/skills --skill speech でインストールします。インストール後は、まず SKILL.md を読み、その次にコマンドの詳細は references/cli.md、モデルやパラメータの制限は references/audio-api.md、より良い指示文の書き方は references/prompting.md または references/voice-directions.md を確認してください。すばやく全体像をつかむなら、agents/openai.yaml と references/sample-prompts.md も見ておくと便利です。

ざっくりした目的を使えるプロンプトに落とし込む

speech の使い方は、読み上げる正確な本文、対象の音声、話し方のスタイル、出力形式、発音の制約まで明示すると最もよく機能します。たとえば、次のような依頼が有効です。「この原稿から 45 秒の製品デモ用ボイスオーバーを生成してください。cedar を使い、温かく安定した読み方にし、mp3 で出力し、製品名は初出時に強調してください。」これは「プロっぽくして」と頼むよりずっと有効です。後者では、スキルが使える合成条件が不足してしまうからです。

単発かバッチかを先に決める

このスキルは、1 本のクリップを作る場合と、多数のクリップをまとめて作る場合の 2 つの流れを想定しています。複数の行、プロンプト、ファイルがあるならバッチとして扱い、tmp/ 配下に一時的な JSONL ファイルを用意してから CLI を 1 回だけ実行し、使用後は JSONL を削除します。1 本の原稿だけなら、単一ファイルの流れを使ってください。出力量によって、スキルの構成や検証手順が変わるため、この切り分けは重要です。

実行前に確認しておくこと

最良の結果を得るには、テーマだけでなく本文を一字一句確認してください。音声、ファイル形式、話速、そして出力がニュートラル寄りか、表現豊かか、アクセシビリティ重視かも明確にします。実行時に主に確認すべきリポジトリ内ファイルは scripts/text_to_speech.py です。リポジトリの保守担当から指示がない限り、これを変更しないでください。

speech スキル FAQ

speech スキルはナレーション専用ですか？

いいえ。speech スキルは、ボイスオーバー、アクセシビリティ向けの読み上げ、IVR の案内音声、短い音声プロンプトにも向いています。一方で、カスタム音声クローンや創作的な音声デザインにはあまり向きません。このリポジトリはそうした用途をカバーしていません。

speech を使うのに CLI は必要ですか？

安定して speech を使うなら、はい。付属の CLI がライブ生成の想定ルートであり、--dry-run は API 呼び出しをせずに実行形を確認するのに便利です。単に一般的なプロンプトを書く方法では、このスキルの再現性を支える構造が失われます。

初心者でも使いやすいですか？

はい。正確な本文と基本的な音声指示を出せるなら使いやすいです。speech のインストール自体は簡単ですが、出力品質は、話速、トーン、形式、発音をどれだけ明確に指定できるかに左右されます。初心者は、短いクリップと 1 つの音声から始めると、成功しやすくなります。

どんなときにこのスキルを使うべきではありませんか？

カスタム音声の作成、重い後編集、または付属スクリプトの改変に依存するワークフローが必要なら、speech は使わないでください。ネットワーク経由の OpenAI API 呼び出しが使えない場合や、OPENAI_API_KEY がない場合にも不向きです。

speech スキルを改善する方法

曖昧さをできるだけ減らす

speech スキルの出力品質を最も大きく左右するのは、推測の余地を減らすことです。要約ではなく正確な本文を渡し、想定リスナーを明示し、読み上げがナレーション、サポート案内、アクセシビリティ、IVR のどれに近いかを指定してください。読みづらい語がある場合は、綴りを示すか発音メモを添えます。

変数は一度に 1 つだけ調整する

初回の結果が惜しいところまで来ているなら、変えるのは 1 点だけにします。音声、話速、指示の書き方のどれか 1 つです。そうすると、プロンプト全体を書き直すより、反復がずっと整理されます。たとえば、テンポが速すぎるなら、本文と音声は固定したまま、話速だけを 1.0 から 0.95 に調整します。

効く制約を具体的に入れる

speech ガイドは、曖昧な制約よりも、実務的な制約があるほうがうまく動きます。「すぐ再生するなら mp3」「レビュー用なら wav」「アクセシビリティ用途なら落ち着いたニュートラルな読み方」のように指定してください。バッチジョブでは、各行の範囲を狭く保つと、出力間で一貫した読み上げを保ちやすくなります。

先に適切な参照資料を読む

Design Implementation のために speech の結果を良くしたいなら、ニュートラルな読み上げには references/accessibility.md、発表向けの話し方には references/voiceover.md、プロンプトの形を知るには references/sample-prompts.md を優先してください。これらのファイルは、CLI や API が余計な解釈なしに実行できる指示文を書く助けになります。

評価とレビュー

まだ評価がありません

レビューを投稿

このスキルの評価やコメントを投稿するにはサインインしてください。

0/10000

新着レビュー

保存中...

このカテゴリーの他のスキル

frontend-design

作成者 anthropics

frontend-designは、曖昧なUIアイデアから、汎用的でないスタイリングと明確な美的指針を備えた、個性的なプロダクション品質のフロントエンド実装を生成するのに役立つスキルです。

UI Design

お気に入り 1GitHub 105.2k

hyperframes

作成者 heygen-com

hyperframes は、HyperFrames で HTML ベースの動画コンポジションを構築するためのワークフロースキルです。タイトルカード、オーバーレイ、字幕、ナレーション、音に反応するモーション、シーン遷移など、Video Editing 向けに構造化されたコードファーストの hyperframes が必要なときに使えます。汎用的なプロンプトだけの動画依頼よりも、レイアウト、タイミング、アニメーションの設計を重視します。

Video Editing

お気に入り 0GitHub 2.7k

figma-generate-library

作成者 figma

figma-generate-library は、コードベースから Figma のデザインシステムを構築・更新するためのスキルです。トークン、コンポーネントライブラリ、ドキュメント、ライト/ダークテーマ対応まで、順序立てたワークフローで進められます。単発のモックアップではなく、Design Systems 向けの実践的なガイドが必要なときに使ってください。Plugin API の呼び出しには figma-use を補完的に併用できます。

Design Systems

お気に入り 0GitHub 0

winui-app

作成者 openai

winui-appスキルは、C# と Windows App SDK を使った WinUI 3 デスクトップアプリの立ち上げ、開発、トラブルシューティングを支援します。環境の準備、新規アプリのセットアップ、シェルとナビゲーションの選定、XAML コントロール、テーマ、アクセシビリティ、デプロイ、起動不具合の修正フローなど、Frontend Development に役立てられます。

Frontend Development

お気に入り 0GitHub 0

gsap-plugins

作成者 greensock

gsap-plugins は、フロントエンド開発者が GSAP プラグインを正しく選び、導入し、使いこなすためのスキルです。プラグインの登録方法、import の書き方、そして ScrollToPlugin、ScrollSmoother、Flip、Draggable、Inertia、Observer、SplitText、ScrambleText、SVG 系プラグイン、イージングツール、GSDevTools まで、実践的にカバーします。汎用的なアニメーション解説ではなく、gsap-plugins に絞った明確なガイドが必要なときに役立ちます。

Frontend Development

お気に入り 0GitHub 3.2k

ckm:design-system

作成者 nextlevelbuilder

ckm:design-system は、明確なトークンアーキテクチャから、三層トークン、コンポーネント仕様、CSS variables、Tailwind mappings、ブランドに一貫したスライド素材をまとめて生成・管理できます。

Design Systems

お気に入り 0GitHub 53.6k

impeccable

作成者 pbakaus

impeccable は、ありがちなAI風の画一的なUIではなく、個性があり本番品質に耐えるフロントエンドUIづくりを支援するスキルです。craft・teach・extract の各ワークフローに対応し、ページ、Webコンポーネント、アプリ画面、ポスターなど、デザイン比重の高いフロントエンド制作で活用できます。UI Design、デザイン文脈の整理、再利用可能なパターン抽出を進めたい場合に特に有用です。

UI Design

お気に入り 0GitHub 20.4k

figma

作成者 openai

figma を使って Figma MCP server からデザインの文脈、スクリーンショット、変数、アセットを取得し、Figma node を実装可能な UI 判断へ落とし込みます。Figma URL または node ID があり、デザインからコードへの作業、セットアップ、トラブルシューティングに適した正確な figma の使い方を知りたい場合に最適です。

Design Implementation

お気に入り 0GitHub 18.6k

archimate

作成者 markdown-viewer

archimate は、PlantUML で `!include <archimate/Archimate>` を使って ArchiMate 図を作成できるようにする skill です。型付きの要素マクロとリレーションシップマクロを備え、ビジネス、アプリケーション、テクノロジー、モチベーション、移行計画といった階層的なエンタープライズアーキテクチャのビューに適しています。構造化された EA 記法が必要な Diagramming で使うもので、一般的なクラウド図やネットワーク図の代わりではありません。

Diagramming

お気に入り 0GitHub 1.1k

tvos-design-guidelines

作成者 ehmo

tvos-design-guidelines は、tvOS の UI をレビューするための実践的な Apple TV デザイン指針です。フォーカスベースのナビゲーション、Siri Remote の挙動、10フィートUIでの可読性、メディア再生を確認できます。リビングルーム向け UI デザインで、明確な制約、画面ごとのレビュー、実装チェックが必要なときに使うガイドです。

UI Design

お気に入り 0GitHub 357

android-design-guidelines

作成者 ehmo

android-design-guidelinesは、Material Design 3、Jetpack Compose、XMLレイアウトを実務目線で確認できるガイドです。テーマ設定、ナビゲーション、アクセシビリティ、アダプティブレイアウト、ダイナミックカラー、Material You準拠の判断に役立ちます。Android UI設計の見直しや、android-design-guidelinesを使ったUIデザイン作業に最適です。

UI Design

お気に入り 0GitHub 357

figma-use

作成者 openai

figma-use は、Figma Plugin API のワークフローで安全に `use_figma` を呼び出すために必須のスキルです。Figmaファイルを JavaScript で作成・更新・確認・構成する前に、この figma-use スキルをインストールして読み込んでください。特に、Design Implementation、コンポーネント作業、変数、オートレイアウト、プログラムによるファイル読み取りで役立ちます。

Design Implementation

お気に入り 0GitHub 0

shadcn

作成者 shadcn-ui

shadcnスキルを使うと、プロジェクトの状況を確認し、適切なCLIコマンドを実行し、コンポーネントを導入しながら、base と radix の使い分け、フォーム、テーマ設定、registry まで、ドキュメントに沿ってUIを組み立てられます。

UI Design

お気に入り 0GitHub 111k

visionos-design-guidelines

作成者 ehmo

visionOSデザインガイドラインのスキルは、Apple Vision Pro向けの空間UI、視線・手入力、没入型スペース、ウィンドウ、ボリューム、アクセシビリティに関するルールを適用するのに役立ちます。快適さ、適切な配置、プラットフォームに即した指針が必要なvisionOSインターフェースをレビューまたは設計するときに使ってください。

UI Design

お気に入り 0GitHub 357

swiftui-patterns

作成者 affaan-m

swiftui-patterns は、Apple プラットフォーム向けの Frontend Development に役立つ実践的なガイドです。SwiftUI の状態管理、NavigationStack のフロー、ビュー構成、パフォーマンス指針を扱い、実際のアプリコードに合うパターンを選べるようにします。明確な責務分離と再描画の削減を意識して画面をリファクタリングする場合や、新規に実装する場合にこの swiftui-patterns skill を使ってください。

Frontend Development

お気に入り 0GitHub 156.3k

design-review

作成者 garrytan

design-reviewは、稼働中のインターフェースを監査し、余白、階層、ビジュアルの一貫性、インタラクション上の問題を見つけ、検証しながら段階的に修正していく、UX志向のデザインQAスキルです。実装前のplan-modeレビューにも対応しており、曖昧な助言ではなく、具体的なソース変更に踏み込んだdesign-reviewガイドが必要なときに役立ちます。

UX Audit

お気に入り 0GitHub 91.8k