speech

von openai

Nutze die speech-Skill, um Text in gesprochene Audiodateien für Erzählungen, Voiceovers, IVR-Ansagen, barrierefreie Vorlesefunktionen und die Stapelgenerierung von Sprache umzuwandeln. Sie verwendet die OpenAI Audio API mit integrierten Stimmen, eine mitgelieferte CLI und `OPENAI_API_KEY` für Live-Ausführungen. Die Erstellung eigener Stimmen ist nicht abgedeckt.

Stars0

Favoriten0

Kommentare0

Hinzugefügt8. Mai 2026

KategorieDesign Implementation

Installationsbefehl

npx skills add openai/skills --skill speech

Kurationswert

Diese Skill erreicht 88/100 und ist damit ein solides Verzeichnislisting mit gutem praktischem Nutzen für Agenten. Nutzer können einen klar auslösbaren Workflow zur Sprachgenerierung erwarten, der konkreter ist als ein generischer Prompt und genug CLI- und Referenzdetails für echte Installationen bietet. Für Live-Ausgaben sind jedoch weiterhin Netzwerkzugriff und die OpenAI API erforderlich.

88/100

Stärken

Hohe Auslösbarkeit: Das Frontmatter grenzt die Einsatzszenarien ausdrücklich ein, etwa Text-to-Speech-Erzählungen, Voiceover, barrierefreie Vorlesetexte und Stapelgenerierung von Sprache.
Operativ klar: SKILL.md enthält einen Entscheidungsbaum für Einzel- versus Stapelverarbeitung und einen Schritt-für-Schritt-Workflow, ergänzt durch eine mitgelieferte CLI-Referenz.
Guter Nutzen für Agenten: Die Referenzen decken Stimmen, Parameter der Audio API, Barrierefreiheits-Defaults und die Batch-Nutzung ab und reduzieren so den Bedarf an Rätselraten bei der Ausführung.

Hinweise

Die Live-Generierung erfordert `OPENAI_API_KEY` und Netzwerkzugriff und ist daher für die Offline-Nutzung nicht vollständig autark.
Die Erstellung eigener Stimmen ist nicht abgedeckt; wer maßgeschneiderte Stimmen oder fortgeschrittene Audio-Workflows braucht, sollte eine andere Lösung wählen.

Audio Accessibility Anthropic OpenAI Cli

Überblick

Überblick über die speech skill

Was die speech skill macht

Die speech skill wandelt Text in gesprochene Audiodateien um – für Erzählerstimmen, Voiceover, IVR-Ansagen, barrierefreie Vorlesetexte und die Stapelgenerierung von Sprache. Sie ist dann am stärksten, wenn Sie reproduzierbare Audioausgaben aus einem Prompt brauchen, nicht einfach eine freie Aufforderung wie „lass das gut klingen“.

Für wen sie gedacht ist

Nutzen Sie speech, wenn die speech skill in einen echten Workflow passen soll: Produktdemos, App-Onboarding, Barrierefreiheits-Assets oder viele kurze Clips aus strukturiertem Text. Sie passt besonders gut, wenn Ihnen Stimmenauswahl, Sprechtempo, Ausgabeformat und konsistente Ergebnisse über mehrere Durchläufe wichtig sind.

Was sie unterscheidet

Der speech-Leitfaden ist auf die OpenAI Audio API und die mitgelieferte CLI ausgerichtet und setzt daher eher auf deterministische Nutzung als auf ad hoc formulierte Prompts. Er arbeitet mit integrierten Stimmen, unterstützt Einzel- und Batch-Jobs und erwartet OPENAI_API_KEY für die Live-Generierung. Eigene Stimmen zu erstellen, ist nicht Teil des Funktionsumfangs.

So verwenden Sie die speech skill

Installieren und den Workflow finden

Installieren Sie mit npx skills add openai/skills --skill speech. Lesen Sie danach zuerst SKILL.md, dann references/cli.md für die Befehlsdetails, references/audio-api.md für Modell- und Parametergrenzen sowie references/prompting.md oder references/voice-directions.md für bessere Anweisungen. Für einen schnellen Überblick helfen außerdem agents/openai.yaml und references/sample-prompts.md.

Eine grobe Zielsetzung in einen nutzbaren Prompt übersetzen

Das Nutzungsmuster der speech skill funktioniert am besten, wenn Sie dem Skill genau den Text geben, der vorgelesen werden soll, die gewünschte Stimme, den Vortragsstil, das Ausgabeformat und eventuelle Aussprachevorgaben. Ein guter Auftrag sieht etwa so aus: „Erstelle aus diesem Skript ein 45-sekündiges Voiceover für eine Produktdemo, verwende cedar, halte den Ton warm und ruhig, gib mp3 aus und betone den Produktnamen beim ersten Vorkommen.“ Das ist besser als „mach das professionell“, weil es dem Skill konkrete Steuerungsparameter für die Generierung gibt.

Einzel- vs. Batch-Workflow

Der Skill ist für zwei Pfade ausgelegt: einen Clip oder viele Clips. Wenn Sie mehrere Zeilen, Prompts oder Dateien haben, behandeln Sie das als Batch, legen Sie eine temporäre JSONL-Datei unter tmp/ an, führen Sie die CLI einmal aus und löschen Sie die JSONL danach wieder. Wenn Sie nur ein Skript haben, nutzen Sie den Einzeldateipfad. Diese Entscheidung ist wichtig, weil sich Struktur und Validierungsschritte des Skills je nach Ausgabemenge ändern.

Was Sie vor dem Start prüfen sollten

Für beste Ergebnisse prüfen Sie den Text wortgetreu, nicht nur das Thema. Bestätigen Sie Stimme, Dateiformat, Sprechgeschwindigkeit und ob die Ausgabe neutral, expressiv oder auf Barrierefreiheit ausgerichtet sein soll. Die zentrale Repository-Datei für die Ausführung ist scripts/text_to_speech.py; ändern Sie sie nicht, es sei denn, der Repository-Maintainer weist Sie dazu an.

speech skill FAQ

Ist die speech skill nur für Erzählerstimmen gedacht?

Nein. Die speech skill eignet sich auch für Voiceover, barrierefreie Vorlesetexte, IVR-Ansagen und kurze Audiohinweise. Weniger geeignet ist sie für individuelles Voice Cloning oder kreative Stimmgestaltung, denn das deckt dieses Repo nicht ab.

Brauche ich die CLI, um speech zu nutzen?

Für eine verlässliche Nutzung von speech: ja. Die mitgelieferte CLI ist der vorgesehene Weg für die Live-Generierung, während --dry-run nützlich ist, um die Form des Aufrufs zu prüfen, ohne einen API-Call auszulösen. Wenn Sie nur einen allgemeinen Prompt schreiben, verlieren Sie die Struktur, die den Skill reproduzierbar macht.

Ist das einsteigerfreundlich?

Ja, wenn Sie den exakten Text und eine grundlegende Stimmrichtung angeben können. Die Installation von speech ist einfach, aber die Ausgabequalität hängt davon ab, wie klar Sie Tempo, Ton, Format und Aussprache definieren. Einsteiger erzielen meist schneller gute Ergebnisse, wenn sie mit einem kurzen Clip und einer Stimme beginnen.

Wann sollte ich diesen Skill nicht verwenden?

Verwenden Sie speech nicht, wenn Sie eigene Stimmen erstellen, umfangreiche Nachbearbeitung brauchen oder einen Workflow haben, der davon abhängt, das mitgelieferte Skript zu verändern. Ebenfalls ungeeignet ist der Skill, wenn Sie keine Netzwerkaufrufe an die OpenAI API verwenden können oder kein OPENAI_API_KEY haben.

So verbessern Sie die speech skill

Geben Sie dem Skill weniger Interpretationsspielraum

Der größte Qualitätsgewinn bei der speech skill entsteht, wenn Sie Rätselraten vermeiden. Geben Sie den genauen Text an, nicht nur eine Zusammenfassung; nennen Sie die Zielgruppe; und sagen Sie ausdrücklich, ob die Lesung wie Narration, Support-Messaging, Barrierefreiheit oder eine IVR-Ansage klingen soll. Wenn ein Begriff schwer auszusprechen ist, schreiben Sie ihn aus oder fügen Sie einen Aussprachehinweis hinzu.

Optimieren Sie immer nur eine Variable auf einmal

Wenn der erste Durchlauf fast passt, aber noch nicht ganz, ändern Sie nur eine Sache: Stimme, Geschwindigkeit oder Art der Anweisung. Das macht Iterationen sauberer, als den gesamten Prompt neu zu schreiben. Wenn sich das Timing etwa zu hastig anfühlt, lassen Sie Text und Stimme unverändert und passen Sie nur die Geschwindigkeit von 1.0 auf 0.95 an.

Verwenden Sie sinnvolle Ausgabebeschränkungen

Der speech-Leitfaden funktioniert besser, wenn Beschränkungen operativ statt vage formuliert sind. Sagen Sie „mp3 für die schnelle Wiedergabe“, „wav für die Prüfung“ oder „ruhig und neutral für Barrierefreiheit“. Halten Sie bei Batch-Jobs jede Zeile eng umrissen, damit der Skill über alle Ausgaben hinweg eine konsistente Sprechweise beibehält.

Lesen Sie zuerst die richtigen Referenzen

Wenn Sie mit speech bessere Ergebnisse für Design Implementation erzielen wollen, priorisieren Sie references/accessibility.md für neutrale Lesungen, references/voiceover.md für präsentationsartiges Sprechen und references/sample-prompts.md für die Form von Prompts. Diese Dateien helfen Ihnen dabei, Anweisungen zu schreiben, die die CLI und die API ohne zusätzliche Interpretation ausführen können.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

frontend-design

von anthropics

frontend-design verwandelt vage UI-Ideen in markante, produktionsreife Interfaces mit echtem Frontend-Code, klarer Designrichtung und weniger generischem AI-Look.

UI Design

Favoriten 1GitHub 105.2k

hyperframes

von heygen-com

hyperframes ist eine Workflow-Skill zum Erstellen von HTML-basierten Videokompositionen in HyperFrames. Nutze sie für Title Cards, Overlays, Untertitel, Voiceovers, audio-reactive Motion und Szenenübergänge, wenn du strukturierte, code-first hyperframes für Videoediting brauchst. Der Fokus liegt stärker auf Layout, Timing und Animation als auf allgemeinen Prompt-only-Videoanfragen.

Video Editing

Favoriten 0GitHub 2.7k

figma-generate-library

von figma

figma-generate-library hilft dir, ein Figma-Designsystem aus einer Codebasis aufzubauen oder zu aktualisieren – mit einem klaren, abgestuften Workflow für Tokens, Component Libraries, Dokumentation sowie Light/Dark-Theming. Nutze den figma-generate-library Skill, wenn du einen praxisnahen Leitfaden für Design Systems brauchst und nicht nur ein einmaliges Mockup. Er ergänzt figma-use für Plugin-API-Aufrufe.

Design Systems

Favoriten 0GitHub 0

winui-app

von openai

Das winui-app Skill hilft dir beim Starten, Erstellen und Beheben von WinUI-3-Desktop-Apps mit C# und dem Windows App SDK. Nutze es für die Prüfung der Umgebung, das Anlegen neuer Apps, Entscheidungen zu Shell und Navigation, XAML-Steuerelemente, Theming, Barrierefreiheit, Deployment und Workflows zur Behebung von Startproblemen im Bereich Frontend-Entwicklung.

Frontend Development

Favoriten 0GitHub 0

gsap-plugins

von greensock

gsap-plugins hilft Frontend-Entwicklern dabei, GSAP-Plugins korrekt auszuwählen, zu installieren und einzusetzen. Abgedeckt werden Plugin-Registrierung, Imports sowie praxisnahe Hinweise zu ScrollToPlugin, ScrollSmoother, Flip, Draggable, Inertia, Observer, SplitText, ScrambleText, SVG-Plugins, Easing-Tools und GSDevTools. Nutze es, wenn du statt allgemeiner Animationstipps einen klaren gsap-plugins-Leitfaden brauchst.

Frontend Development

Favoriten 0GitHub 3.2k

ckm:design-system

von nextlevelbuilder

ckm:design-system unterstützt dich beim Aufbau dreistufiger Tokens, Component Specs, CSS-Variablen, Tailwind-Mappings und markenkonsistenter Slides auf Basis einer klaren Token-Architektur.

Design Systems

Favoriten 0GitHub 53.6k

impeccable

von pbakaus

impeccable hilft dir, markante, produktionsreife Frontend-UIs zu bauen statt generischer, nach KI aussehender Interfaces. Es unterstützt die Workflows craft, teach und extract für Seiten, Web Components, App-Oberflächen, Poster und andere designintensive Frontends. Damit ist das Skill nützlich für UI-Design, das Einrichten von Design-Kontext und die Extraktion wiederverwendbarer Muster.

UI Design

Favoriten 0GitHub 20.4k

figma

von openai

Nutze figma, um Design-Kontext, Screenshots, Variablen und Assets vom Figma-MCP-Server abzurufen und Figma-Nodes in umsetzbare UI-Entscheidungen zu übersetzen. Diese figma skill ist ideal, wenn du eine Figma-URL oder eine Node-ID hast und präzise figma-Nutzung für Design-to-Code-Arbeiten, Setup oder Troubleshooting brauchst.

Design Implementation

Favoriten 0GitHub 18.6k

archimate

von markdown-viewer

archimate hilft dir, ArchiMate-Diagramme in PlantUML mit `!include <archimate/Archimate>`, getypten Element-Makros und Beziehungs-Makros zu erstellen. Es passt zu geschichteten Views der Enterprise-Architektur für Business, Anwendung, Technologie, Motivation und Migrationsplanung. Nutze archimate fürs Diagramming, wenn du eine strukturierte EA-Notation brauchst und keine generischen Cloud- oder Netzwerkdiagramme.

Diagramming

Favoriten 0GitHub 1.1k

tvos-design-guidelines

von ehmo

tvos-design-guidelines ist ein praxisnahes Apple TV-Regelwerk für die Prüfung von tvOS-Oberflächen, Fokus-Navigation, dem Verhalten der Siri Remote, 10-Foot-Lesbarkeit und Medienwiedergabe. Nutzen Sie diesen tvos-design-guidelines-Leitfaden, wenn Sie klare Vorgaben, eine Bildschirm-für-Bildschirm-Kritik und Prüfpunkte für das Living-Room-UI-Design benötigen.

UI Design

Favoriten 0GitHub 357

android-design-guidelines

von ehmo

android-design-guidelines ist ein praxisnaher Leitfaden für Material Design 3, Jetpack Compose und XML-Layouts. Nutzen Sie ihn, um Android-UI-Entscheidungen zu Theme, Navigation, Barrierefreiheit, adaptiven Layouts, dynamischen Farben und Material-You-Konformität zu überprüfen. Ideal für android-design-guidelines als Guide und für android-design-guidelines bei UI-Design-Aufgaben.

UI Design

Favoriten 0GitHub 357

figma-use

von openai

figma-use ist die erforderliche Skill für sichere `use_figma`-Aufrufe in Figma-Plugin-API-Workflows. Verwende die figma-use Skill, um sie vor dem Schreiben, Aktualisieren, Prüfen oder Strukturieren von Figma-Dateien mit JavaScript zu installieren und zu laden. Besonders nützlich ist sie für Design-Implementierung, Komponentenarbeit, Variablen, Auto-Layout und programmgesteuertes Auslesen von Dateien.

Design Implementation

Favoriten 0GitHub 0

shadcn

von shadcn-ui

Nutze den shadcn-Skill, um den Projektkontext zu prüfen, die passenden CLI-Befehle auszuführen, Komponenten zu installieren und UI anhand dokumentierter Muster für base vs radix, Formulare, Theming und Registries zusammenzustellen.

UI Design

Favoriten 0GitHub 111k

visionos-design-guidelines

von ehmo

Die skill visionos-design-guidelines hilft dir, die Apple-Vision-Pro-Regeln für räumliche UI, Augen- und Hand-Input, immersive Räume, Fenster, Volumes und Barrierefreiheit anzuwenden. Nutze sie, wenn du visionOS-Oberflächen prüfst oder gestaltest, bei denen Komfort, korrekte Platzierung und plattformgerechte Hinweise wichtig sind.

UI Design

Favoriten 0GitHub 357

swiftui-patterns

von affaan-m

swiftui-patterns ist ein praxisnaher Leitfaden für Frontend-Entwicklung auf Apple-Plattformen. Er behandelt SwiftUI-State-Management, NavigationStack-Flows, View-Komposition und Performance-Empfehlungen, damit du das passende Pattern für echten App-Code auswählst. Nutze die swiftui-patterns-Skill beim Refactoring oder beim Aufbau von Screens mit klarer Ownership und weniger Re-Renders.

Frontend Development

Favoriten 0GitHub 156.3k

design-review

von garrytan

design-review ist eine UX-orientierte Design-QA-Skill für die Prüfung live geschalteter Oberflächen. Sie erkennt Probleme bei Abständen, Hierarchie, visueller Konsistenz und Interaktionen und behebt sie iterativ mit anschließender Verifikation. Unterstützt die Prüfung im Plan-Modus vor der Umsetzung und ist ideal, wenn Sie einen design-review-Leitfaden für konkrete Quellcode-Änderungen statt vager Ratschläge suchen.

UX Audit

Favoriten 0GitHub 91.8k