speech

por openai

Usa la skill de speech para convertir texto en audio hablado para narración, locuciones, prompts de IVR, lecturas de accesibilidad y generación de voz por lotes. Funciona con la OpenAI Audio API, voces integradas, una CLI incluida y `OPENAI_API_KEY` para ejecuciones en vivo. La creación de voces personalizadas no entra en el alcance.

Estrellas0

Favoritos0

Comentarios0

Agregado8 may 2026

CategoríaDesign Implementation

Comando de instalación

npx skills add openai/skills --skill speech

Puntuación editorial

Esta skill obtiene 88/100, lo que indica que es una ficha sólida del directorio con buen valor práctico para agentes. Los usuarios pueden esperar un flujo de generación de voz claramente activable, más accionable que un prompt genérico, con suficiente detalle de CLI y referencias para soportar instalaciones reales, aunque sigue dependiendo del acceso a la red y de la OpenAI API para generar salida en vivo.

88/100

Puntos fuertes

Alta capacidad de activación: el frontmatter delimita explícitamente casos de uso como narración text-to-speech, locución, lecturas de accesibilidad y generación de voz por lotes.
Claridad operativa: `SKILL.md` ofrece un árbol de decisión para uso individual vs. por lotes y un flujo de trabajo paso a paso, respaldado por una referencia de CLI incluida.
Buen apoyo para agentes: las referencias complementarias cubren voces, parámetros de la Audio API, valores predeterminados de accesibilidad y uso por lotes, lo que reduce la incertidumbre durante la ejecución.

Puntos a tener en cuenta

La generación en vivo requiere `OPENAI_API_KEY` y acceso a la red, por lo que no es totalmente autónoma para uso sin conexión.
La creación de voces personalizadas queda fuera del alcance, así que quienes necesiten voces a medida o flujos de audio avanzados deberán buscar otra opción.

Audio Accessibility Anthropic OpenAI Cli

Resumen

Panorama general de la skill de speech

Qué hace la skill de speech

La skill de speech convierte texto en audio hablado para narraciones, locuciones, mensajes de IVR, lecturas de accesibilidad y generación por lotes de speech. Es la mejor opción cuando necesitas una salida de audio reproducible a partir de un prompt, no una petición abierta de “haz que suene bien”.

Quién debería usarla

Usa speech si necesitas que la instalación de speech encaje en un flujo de trabajo real: demos de producto, onboarding de una app, recursos de accesibilidad o muchos clips breves a partir de texto estructurado. Es una muy buena opción cuando te importan la elección de la voz, el ritmo, el formato de salida y la consistencia de la generación entre ejecuciones.

Qué la hace diferente

La guía de speech está pensada alrededor de la OpenAI Audio API y la CLI incluida, así que prioriza el uso determinista frente al prompting improvisado. Usa voces integradas, admite trabajos individuales o por lotes y espera OPENAI_API_KEY para la generación en vivo. La creación de voces personalizadas queda fuera de alcance.

Cómo usar la skill de speech

Instala y ubica el flujo de trabajo

Instala con npx skills add openai/skills --skill speech. Después, lee primero SKILL.md, luego references/cli.md para ver los detalles de los comandos, references/audio-api.md para los límites del modelo y de parámetros, y references/prompting.md o references/voice-directions.md para escribir mejores instrucciones. Para un contexto rápido, revisa agents/openai.yaml y references/sample-prompts.md.

Convierte un objetivo general en un prompt útil

El patrón de uso de speech funciona mejor cuando le das a la skill el texto exacto que debe leer, la voz objetivo, el estilo de entrega, el formato de salida y cualquier restricción de pronunciación. Una solicitud sólida se vería así: “Generate a 45-second product demo voiceover from this script, use cedar, keep it warm and steady, output mp3, and emphasize the product name on first mention.” Eso es mejor que “haz que suene profesional”, porque le da a la skill controles concretos de síntesis.

Flujo de trabajo de un clip frente a varios

La skill está diseñada para dos rutas: un clip o muchos clips. Si tienes varias líneas, prompts o archivos, trátalo como un proceso por lotes y prepara un archivo JSONL temporal en tmp/, luego ejecuta la CLI una sola vez y borra el JSONL después de usarlo. Si tienes un solo guion, usa la ruta de archivo único. Esta decisión importa porque la estructura de la skill y los pasos de validación cambian según el volumen de salida.

Qué revisar antes de ejecutar

Para obtener mejores resultados, verifica el texto palabra por palabra, no solo el tema. Confirma la voz, el formato de archivo, la velocidad y si la salida debe ser neutral, expresiva o prioritaria para accesibilidad. El archivo principal del repositorio que debes inspeccionar para la ejecución es scripts/text_to_speech.py; no lo modifiques salvo que el mantenedor del repositorio te lo indique.

Preguntas frecuentes sobre la skill de speech

¿La skill de speech sirve solo para narración?

No. La skill de speech también encaja en locución, lecturas de accesibilidad, mensajes de IVR y prompts de audio breves. Es menos útil para clonación de voz personalizada o diseño creativo de voces, algo que este repositorio no cubre.

¿Necesito la CLI para usar speech?

Para un uso fiable de speech, sí. La CLI incluida es la ruta prevista para la generación en vivo, mientras que --dry-run resulta útil para comprobar la forma de la invocación sin hacer una llamada a la API. Si solo escribes un prompt genérico, pierdes la estructura que hace que la skill sea reproducible.

¿Es apta para principiantes?

Sí, si puedes aportar el texto exacto y una dirección básica de voz. La instalación de speech es sencilla, pero la calidad de salida depende de con qué claridad definas el ritmo, el tono, el formato y la pronunciación. Los principiantes suelen avanzar más rápido si empiezan con un clip corto y una sola voz.

¿Cuándo no debería usar esta skill?

No uses speech si necesitas creación de voz personalizada, posproducción pesada o un flujo de trabajo que dependa de modificar el script incluido. Tampoco encaja bien si no puedes usar llamadas en red a la OpenAI API o no tienes OPENAI_API_KEY.

Cómo mejorar la skill de speech

Reduce las ambigüedades al mínimo

La mayor mejora de calidad en los resultados de speech llega al eliminar la interpretación. Proporciona el texto exacto, no un resumen; indica a quién va dirigido; y especifica si la lectura debe sonar como narración, mensajería de soporte, accesibilidad o un mensaje de IVR. Si un término es difícil de pronunciar, escríbelo de forma fonética o añade una nota de pronunciación.

Ajusta una sola variable cada vez

Cuando la primera versión se acerque pero no sea la correcta, cambia solo una cosa: la voz, la velocidad o el estilo de la instrucción. Eso hace que la iteración sea más limpia que reescribir todo el prompt. Por ejemplo, si el tiempo se siente apresurado, mantén fijos el texto y la voz y ajusta solo la velocidad de 1.0 a 0.95.

Usa restricciones de salida que importen

La guía de speech funciona mejor cuando las restricciones son operativas, no vagas. Di “mp3 for quick playback”, “wav for review” o “steady and neutral for accessibility”. Para trabajos por lotes, mantén cada línea acotada con precisión para que la skill preserve una entrega coherente en todas las salidas.

Lee primero las referencias adecuadas

Si quieres mejores resultados con speech para Design Implementation, prioriza references/accessibility.md para lecturas neutras, references/voiceover.md para una entrega con estilo de presentación y references/sample-prompts.md para la estructura de los prompts. Estos archivos te ayudan a escribir instrucciones que la CLI y la API pueden ejecutar sin interpretación adicional.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

frontend-design

por anthropics

frontend-design convierte ideas vagas de UI en interfaces distintivas y listas para producción, con código frontend real, una dirección estética clara y menos estilo genérico de IA.

UI Design

Favoritos 1GitHub 105.2k

hyperframes

por heygen-com

hyperframes es una skill de flujo de trabajo para crear composiciones de video basadas en HTML en HyperFrames. Úsala para tarjetas de título, superposiciones, subtítulos, locuciones, movimiento reactivo al audio y transiciones de escena cuando necesites hyperframes estructurados y orientados al código para edición de video. Prioriza decisiones de diseño, tiempo y animación por encima de solicitudes genéricas de video basadas solo en prompts.

Video Editing

Favoritos 0GitHub 2.7k

figma-generate-library

por figma

figma-generate-library te ayuda a crear o actualizar un sistema de diseño en Figma a partir de una base de código, con un flujo de trabajo ordenado para tokens, bibliotecas de componentes, documentación y temas claro/oscuro. Usa la skill figma-generate-library cuando necesites una guía práctica para Design Systems, no un mockup puntual. Complementa a figma-use para llamadas a la Plugin API.

Design Systems

Favoritos 0GitHub 0

winui-app

por openai

La skill winui-app te ayuda a arrancar, crear y solucionar problemas de aplicaciones de escritorio WinUI 3 con C# y Windows App SDK. Úsala para comprobar si el entorno está listo, configurar una nueva app, elegir shell y navegación, trabajar con controles XAML, temas, accesibilidad, despliegue y flujos de corrección de arranque para desarrollo frontend.

Frontend Development

Favoritos 0GitHub 0

gsap-plugins

por greensock

gsap-plugins ayuda a desarrolladores frontend a elegir, instalar y usar correctamente los plugins de GSAP. Cubre el registro de plugins, imports y orientación práctica para ScrollToPlugin, ScrollSmoother, Flip, Draggable, Inertia, Observer, SplitText, ScrambleText, plugins SVG, herramientas de easing y GSDevTools. Úsalo cuando necesites una guía clara de gsap-plugins en lugar de consejos genéricos sobre animación.

Frontend Development

Favoritos 0GitHub 3.2k

ckm:design-system

por nextlevelbuilder

ckm:design-system te ayuda a crear tokens en tres capas, especificaciones de componentes, variables CSS, mapeos a Tailwind y slides de marca coherente a partir de una arquitectura clara de tokens.

Design Systems

Favoritos 0GitHub 53.6k

impeccable

por pbakaus

impeccable te ayuda a crear interfaces frontend distintivas y listas para producción, en lugar de diseños genéricos con aspecto de IA. Admite flujos de trabajo de craft, teach y extract para páginas, componentes web, superficies de apps, pósteres y otros frontends con una fuerte carga de diseño, por lo que resulta útil para diseño UI, preparación del contexto de diseño y extracción de patrones reutilizables.

UI Design

Favoritos 0GitHub 20.4k

figma

por openai

Usa figma para extraer contexto de diseño, capturas, variables y recursos desde el servidor MCP de Figma, y luego traducir los nodos de Figma en decisiones de UI listas para implementar. Este skill de figma es ideal cuando tienes una URL de Figma o un ID de nodo y necesitas un uso preciso de figma para trabajo de diseño a código, configuración o diagnóstico.

Design Implementation

Favoritos 0GitHub 18.6k

archimate

por markdown-viewer

archimate te ayuda a crear diagramas ArchiMate en PlantUML con `!include <archimate/Archimate>`, macros de elementos tipados y macros de relaciones. Encaja con vistas en capas de arquitectura empresarial para negocio, aplicaciones, tecnología, motivación y planificación de migraciones. Usa archimate para Diagramming cuando necesites una notación EA estructurada, no diagramas genéricos de nube o de red.

Diagramming

Favoritos 0GitHub 1.1k

tvos-design-guidelines

por ehmo

tvos-design-guidelines es un conjunto práctico de directrices de diseño para Apple TV, pensado para revisar interfaces de tvOS, navegación basada en foco, comportamiento del Siri Remote, legibilidad a 10 pies y reproducción multimedia. Usa esta guía de tvos-design-guidelines cuando necesites restricciones claras, críticas pantalla por pantalla y comprobaciones de implementación para diseñar interfaces de salón.

UI Design

Favoritos 0GitHub 357

android-design-guidelines

por ehmo

android-design-guidelines es una guía práctica de Material Design 3, Jetpack Compose y layouts XML. Úsalo para revisar decisiones de UI en Android relacionadas con theming, navegación, accesibilidad, layouts adaptativos, color dinámico y cumplimiento de Material You. Es ideal para tareas de guía android-design-guidelines y de android-design-guidelines para diseño de UI.

UI Design

Favoritos 0GitHub 357

figma-use

por openai

figma-use es la skill requerida para hacer llamadas seguras a `use_figma` en flujos de trabajo de Figma Plugin API. Usa la skill figma-use para instalarla y cargarla antes de escribir, actualizar, inspeccionar o estructurar archivos de Figma con JavaScript. Resulta especialmente útil para implementación de diseño, trabajo con componentes, variables, auto layout y lectura programática de archivos.

Design Implementation

Favoritos 0GitHub 0

shadcn

por shadcn-ui

Usa la skill shadcn para revisar el contexto del proyecto, ejecutar los comandos CLI adecuados, instalar componentes y componer interfaces con patrones documentados para base vs radix, formularios, temas y registries.

UI Design

Favoritos 0GitHub 111k

visionos-design-guidelines

por ehmo

El skill visionos-design-guidelines te ayuda a aplicar las reglas de Apple Vision Pro para UI espacial, entrada con ojos y manos, espacios inmersivos, ventanas, volúmenes y accesibilidad. Úsalo al revisar o diseñar interfaces de visionOS que requieran comodidad, ubicación correcta y una guía fiel a la plataforma.

UI Design

Favoritos 0GitHub 357

swiftui-patterns

por affaan-m

swiftui-patterns es una guía práctica para Frontend Development en plataformas Apple. Cubre gestión de estado en SwiftUI, flujos con NavigationStack, composición de vistas y recomendaciones de rendimiento para que puedas elegir el patrón adecuado en código real de aplicaciones. Usa la skill swiftui-patterns al refactorizar o construir pantallas con propiedad clara y menos re-renders.

Frontend Development

Favoritos 0GitHub 156.3k

design-review

por garrytan

design-review es una skill de QA de diseño con enfoque UX para auditar interfaces en vivo, detectar problemas de espaciado, jerarquía, consistencia visual e interacción, y corregirlos de forma iterativa con verificación. Admite revisión en modo plan antes de implementar y resulta útil cuando necesitas una guía de design-review para cambios concretos en el código fuente, no consejos vagos.

UX Audit

Favoritos 0GitHub 91.8k