ai-video-generation
por inferen-shGenera videos con IA usando Google Veo, Seedance, Wan, Grok y más de 40 modelos a través de la CLI de inference.sh. Compatible con text-to-video, image-to-video, lipsync, animación de avatares, escalado de video y sonido foley para clips de redes sociales, contenidos de marketing, videos explicativos y demostraciones de producto.
Descripción general
¿Qué es ai-video-generation?
La skill ai-video-generation conecta tu agente con la CLI de inference.sh para que pueda generar y editar videos con Google Veo, Seedance, Wan, Grok y más de 40 modelos de video con IA. Está pensada para flujos de trabajo en los que un asistente de IA necesita llamar a una herramienta de CLI (vía Bash) para crear y refinar recursos de video de formato corto y largo.
Actualmente, la skill declara *Bash(infsh ) como su herramienta permitida, lo que significa que los agentes pueden ejecutar con seguridad comandos infsh para activar la generación de video con IA y los pasos de procesamiento relacionados.
Capacidades principales
Usando los modelos subyacentes y la CLI infsh, ai-video-generation puede dar soporte a flujos de trabajo como:
- Text-to-video (T2V): Convierte indicaciones en lenguaje natural en clips de video completamente renderizados.
- Image-to-video (I2V): Anima una imagen fija en una secuencia en movimiento.
- Lipsync y avatares: Mueve caras y personajes a partir de audio para crear contenido tipo talking-head o presentador (cuando el modelo seleccionado lo permita).
- Escalado de video: Mejora la resolución y calidad de metraje existente.
- Foley y audio: Añade o mejora bandas sonoras y audio ambiente cuando el modelo lo ofrezca.
Los modelos disponibles (según se describen en la skill) incluyen:
- Google Veo 3.1 / Veo 3 / Veo 3 Fast
- Seedance 1.5 Pro
- Wan 2.5
- Grok Imagine Video
- OmniHuman, Fabric, HunyuanVideo
y muchos más a través del catálogo de apps de inference.sh.
¿Para quién es esta skill?
ai-video-generation es una buena opción si:
- Produces videos para redes sociales (TikTok, Instagram Reels, YouTube Shorts, X, LinkedIn) y buscas visuales diseñados con IA desde el inicio.
- Creas recursos de marketing como teasers de producto, videos de lanzamiento y variantes de anuncios.
- Desarrollas videos explicativos y tutoriales donde indicaciones de texto describen escenas, flujos de interfaz o diagramas que se convierten en videos breves.
- Necesitas prototipar rápidamente presentadores con avatares de IA o contenido tipo talking-head.
- Quieres un flujo de trabajo dirigido por un agente que invoque la CLI
infshde forma programática en lugar de hacer clic en una interfaz web.
Es menos adecuada si necesitas:
- Un editor puramente gráfico con línea de tiempo y keyframing manual.
- Generación de video on-premise u offline (inference.sh es un servicio en la nube).
- Streaming en tiempo real o salida de video en directo.
Cómo encaja ai-video-generation en tu stack
Esta skill se ubica principalmente en flujos de edición de video y marketing de contenidos. Puedes combinarla con:
- Skills de redacción que generen guiones y prompts.
- Skills de generación de imágenes que creen fotogramas o referencias estáticas, que luego se animan con image-to-video.
- Herramientas de postproducción que añadan branding, subtítulos y automatizaciones de distribución tras el render inicial de IA.
Una vez instalada, tu agente puede:
- Redactar prompts y storyboards.
- Usar comandos
infsh app run ...para renderizar clips de video. - Iterar sobre el prompt hasta que el resultado encaje con tu briefing creativo.
Cómo usarla
1. Instalar la skill ai-video-generation
Para añadir esta skill a un entorno de agente compatible utilizando la Skills CLI:
npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation
Esto descarga la definición de la herramienta ai-video-generation del repositorio inferen-sh/skills y la pone a disposición de tu agente para que pueda llamar a la CLI infsh a través de Bash.
Tras la instalación, abre el archivo SKILL.md en el directorio tools/video/ai-video-generation para ver la descripción integrada y los enlaces que utiliza esta skill.
2. Instalar e iniciar sesión en la CLI de inference.sh
La skill depende de la CLI de inference.sh (infsh). El SKILL.md del repositorio enlaza a las instrucciones de instalación en:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Sigue esos pasos para instalar la CLI en tu sistema. Una vez instalada, autentícate:
infsh login
Asegúrate de que esto funcione en una terminal normal antes de depender del agente. El agente usará el mismo binario infsh vía Bash.
3. Inicio rápido: genera tu primer video con IA
El inicio rápido de la skill muestra cómo generar un video con Google Veo 3.1 Fast:
# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'
En un flujo de trabajo con agente, tu asistente:
- Compondrá el payload JSON de
input(por ejemplo, texto del prompt, duración, opciones de estilo si la app las admite). - Llamará a la herramienta Bash permitida con un comando
infsh app run .... - Analizará la respuesta de la CLI para mostrarte las URLs o IDs de los videos.
Puedes adaptar el prompt a tu caso de uso, por ejemplo:
- Demo de producto:
"a rotating 3D render of a sleek wireless headset on a dark gradient background" - Teaser para redes sociales:
"fast-paced montage of city nightlife, neon lights, and skyscrapers" - Video explicativo:
"minimal flat-style animation showing a phone app sending payments across the world"
4. Elegir y cambiar de modelo
El archivo SKILL.md documenta varias categorías de modelos (por ejemplo, Text-to-Video). Cada modelo tiene un App ID que usa infsh.
Para text-to-video, el patrón general es:
infsh app run <APP_ID> --input '{"prompt": "your description here"}'
Ejemplos basados en la lista de modelos de la skill:
-
Alta calidad con audio (cuando esté disponible):
infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}' -
Máxima calidad con interpolación de fotogramas (Veo 3.1):
infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}' -
Iteraciones rápidas (Veo 3.1 Fast):
infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'
Para modelos de image-to-video, lipsync, avatar o upscaling, usa los App IDs específicos documentados en el repositorio y adapta los campos JSON de --input según corresponda (por ejemplo, incluyendo image_url, video_url o audio_url cuando la app elegida lo requiera).
5. Integrar en prompts y flujos de trabajo de tu agente
Al conectar ai-video-generation en tu sistema de agentes:
- Describe la herramienta en los prompts de sistema: Indica al agente que puede generar videos mediante
infsh app runy que hay opciones de modelo disponibles (Veo, Seedance, Wan, etc.). - Fomenta entradas estructuradas: Pide al agente que construya inputs JSON explícitos para la CLI, con campos para prompt, duración y estilo si están soportados.
- Prevé operaciones de larga duración: La generación de video puede tardar más que las completaciones de texto. Diseña tu UX teniendo esto en cuenta (mensajes de progreso, polling, etc.).
- Postprocesa las salidas: Una vez que la CLI devuelva URLs o IDs de archivos, el agente puede incluirlas en notas de proyecto, briefs de marketing o pasos de automatización posteriores.
6. Cuándo esta skill no es la mejor opción
Quizá prefieras otra solución si:
- No puedes instalar ni usar una CLI en el entorno de destino.
- Tu flujo de trabajo requiere computación estrictamente on-prem donde no se permiten APIs externas.
- Solo necesitas recortar o editar metraje existente de forma básica y no generar video con IA.
En esos casos, busca skills de edición de video puras o integraciones con NLEs de escritorio en lugar de una stack de generación de video en la nube basada en IA.
Preguntas frecuentes
¿Qué instala exactamente ai-video-generation?
La skill ai-video-generation instala metadatos y configuración de tooling desde el repositorio inferen-sh/skills para que tu agente sepa cómo llamar a la CLI infsh para generación de video con IA. No instala por sí misma el binario infsh ni ningún modelo. Debes instalar la CLI de inference.sh de forma independiente siguiendo las instrucciones referenciadas en SKILL.md.
¿Necesito una cuenta de inference.sh para usar ai-video-generation?
Sí. El inicio rápido usa explícitamente infsh login, que requiere credenciales válidas de inference.sh. Sin una cuenta y un inicio de sesión correcto, los comandos infsh app run ... que invoque la skill fallarán.
¿A qué modelos de video con IA puedo acceder con esta skill?
La descripción de la skill enumera varias apps compatibles, como Google Veo 3.1, Veo 3, Veo 3 Fast, Seedance 1.5 Pro, Wan 2.5, Grok Imagine Video, OmniHuman, Fabric y HunyuanVideo, además de muchos otros modelos disponibles a través de inference.sh. La lista exacta y sus parámetros se mantienen en el catálogo de inference.sh y pueden evolucionar con el tiempo.
¿Puedo hacer image-to-video y lipsync, o solo text-to-video?
Según la descripción de la skill, ai-video-generation admite text-to-video, image-to-video, lipsync, animación de avatares, escalado de video y sonido foley, siempre que uses modelos apropiados que expongan esas funciones a través de infsh. Consulta la documentación de la app correspondiente en inference.sh para ver los inputs requeridos (por ejemplo, URLs de imagen, audio o video).
¿Cómo controlo la duración del video, el formato (aspect ratio) o el estilo?
Los parámetros de control específicos dependen de la superficie de API del modelo que elijas dentro de inference.sh. La propia skill se centra en conectar la CLI con tu agente, no en imponer un esquema único. Para ajustar duración, formato o estilo, pasa los campos que admita el App ID que estés usando en el JSON de --input. Revisa la documentación de la app de inference.sh para cada modelo para ver las opciones más recientes.
¿Dónde se almacenan los videos generados?
La skill utiliza la CLI de inference.sh, que devuelve información como URLs o IDs de resultados. La ubicación de almacenamiento y la retención las gestiona inference.sh, no la skill. Normalmente recibirás un enlace o referencia que podrás descargar, incrustar en un CMS o usar en herramientas posteriores.
¿Puedo ejecutar ai-video-generation en entornos CI/CD o headless?
Sí, siempre que el entorno pueda instalar y autenticar la CLI infsh y el runtime de tu agente pueda ejecutar comandos Bash. Esto permite automatizar generación masiva de videos de marketing, variaciones de contenido para redes sociales o clips de vista previa como parte de un pipeline.
¿Es ai-video-generation una buena opción para edición de video tradicional?
Usa ai-video-generation cuando lo que buscas principalmente es video generado o transformado por IA. Para edición detallada de metraje existente (líneas de tiempo multipista, cortes manuales, transiciones complejas), seguirás necesitando un editor de video convencional. No obstante, puedes combinar esta skill con la edición tradicional generando primero clips base con IA y puliéndolos después en tu NLE.
¿Cómo actualizo o elimino la skill más adelante?
Gestionas la instalación y eliminación con la misma Skills CLI que usaste para añadirla. Ejecuta el comando skills correspondiente (por ejemplo, un subcomando de remove o update si tu entorno lo admite). Eliminar la skill no desinstala la CLI infsh; solo desconecta la integración de ai-video-generation de tu agente.
