ai-video-generation

por inferen-sh

Genera videos con IA usando Google Veo, Seedance, Wan, Grok y más de 40 modelos a través de la CLI de inference.sh. Compatible con text-to-video, image-to-video, lipsync, animación de avatares, escalado de video y sonido foley para clips de redes sociales, contenidos de marketing, videos explicativos y demostraciones de producto.

Estrellas0

Favoritos0

Comentarios0

CategoríaVideo Editing

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation

Video Image Generation Marketing Social Media Cli Google Ai

Resumen

Descripción general

¿Qué es ai-video-generation?

La skill ai-video-generation conecta tu agente con la CLI de inference.sh para que pueda generar y editar videos con Google Veo, Seedance, Wan, Grok y más de 40 modelos de video con IA. Está pensada para flujos de trabajo en los que un asistente de IA necesita llamar a una herramienta de CLI (vía Bash) para crear y refinar recursos de video de formato corto y largo.

Actualmente, la skill declara *Bash(infsh ) como su herramienta permitida, lo que significa que los agentes pueden ejecutar con seguridad comandos infsh para activar la generación de video con IA y los pasos de procesamiento relacionados.

Capacidades principales

Usando los modelos subyacentes y la CLI infsh, ai-video-generation puede dar soporte a flujos de trabajo como:

Text-to-video (T2V): Convierte indicaciones en lenguaje natural en clips de video completamente renderizados.
Image-to-video (I2V): Anima una imagen fija en una secuencia en movimiento.
Lipsync y avatares: Mueve caras y personajes a partir de audio para crear contenido tipo talking-head o presentador (cuando el modelo seleccionado lo permita).
Escalado de video: Mejora la resolución y calidad de metraje existente.
Foley y audio: Añade o mejora bandas sonoras y audio ambiente cuando el modelo lo ofrezca.

Los modelos disponibles (según se describen en la skill) incluyen:

Google Veo 3.1 / Veo 3 / Veo 3 Fast
Seedance 1.5 Pro
Wan 2.5
Grok Imagine Video
OmniHuman, Fabric, HunyuanVideo

y muchos más a través del catálogo de apps de inference.sh.

¿Para quién es esta skill?

ai-video-generation es una buena opción si:

Produces videos para redes sociales (TikTok, Instagram Reels, YouTube Shorts, X, LinkedIn) y buscas visuales diseñados con IA desde el inicio.
Creas recursos de marketing como teasers de producto, videos de lanzamiento y variantes de anuncios.
Desarrollas videos explicativos y tutoriales donde indicaciones de texto describen escenas, flujos de interfaz o diagramas que se convierten en videos breves.
Necesitas prototipar rápidamente presentadores con avatares de IA o contenido tipo talking-head.
Quieres un flujo de trabajo dirigido por un agente que invoque la CLI infsh de forma programática en lugar de hacer clic en una interfaz web.

Es menos adecuada si necesitas:

Un editor puramente gráfico con línea de tiempo y keyframing manual.
Generación de video on-premise u offline (inference.sh es un servicio en la nube).
Streaming en tiempo real o salida de video en directo.

Cómo encaja ai-video-generation en tu stack

Esta skill se ubica principalmente en flujos de edición de video y marketing de contenidos. Puedes combinarla con:

Skills de redacción que generen guiones y prompts.
Skills de generación de imágenes que creen fotogramas o referencias estáticas, que luego se animan con image-to-video.
Herramientas de postproducción que añadan branding, subtítulos y automatizaciones de distribución tras el render inicial de IA.

Una vez instalada, tu agente puede:

Redactar prompts y storyboards.
Usar comandos infsh app run ... para renderizar clips de video.
Iterar sobre el prompt hasta que el resultado encaje con tu briefing creativo.

Cómo usarla

1. Instalar la skill ai-video-generation

Para añadir esta skill a un entorno de agente compatible utilizando la Skills CLI:

npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation

Esto descarga la definición de la herramienta ai-video-generation del repositorio inferen-sh/skills y la pone a disposición de tu agente para que pueda llamar a la CLI infsh a través de Bash.

Tras la instalación, abre el archivo SKILL.md en el directorio tools/video/ai-video-generation para ver la descripción integrada y los enlaces que utiliza esta skill.

2. Instalar e iniciar sesión en la CLI de inference.sh

La skill depende de la CLI de inference.sh (infsh). El SKILL.md del repositorio enlaza a las instrucciones de instalación en:

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Sigue esos pasos para instalar la CLI en tu sistema. Una vez instalada, autentícate:

infsh login

Asegúrate de que esto funcione en una terminal normal antes de depender del agente. El agente usará el mismo binario infsh vía Bash.

3. Inicio rápido: genera tu primer video con IA

El inicio rápido de la skill muestra cómo generar un video con Google Veo 3.1 Fast:

# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'

En un flujo de trabajo con agente, tu asistente:

Compondrá el payload JSON de input (por ejemplo, texto del prompt, duración, opciones de estilo si la app las admite).
Llamará a la herramienta Bash permitida con un comando infsh app run ....
Analizará la respuesta de la CLI para mostrarte las URLs o IDs de los videos.

Puedes adaptar el prompt a tu caso de uso, por ejemplo:

Demo de producto: "a rotating 3D render of a sleek wireless headset on a dark gradient background"
Teaser para redes sociales: "fast-paced montage of city nightlife, neon lights, and skyscrapers"
Video explicativo: "minimal flat-style animation showing a phone app sending payments across the world"

4. Elegir y cambiar de modelo

El archivo SKILL.md documenta varias categorías de modelos (por ejemplo, Text-to-Video). Cada modelo tiene un App ID que usa infsh.

Para text-to-video, el patrón general es:

infsh app run <APP_ID> --input '{"prompt": "your description here"}'

Ejemplos basados en la lista de modelos de la skill:

Alta calidad con audio (cuando esté disponible):

infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}'

Máxima calidad con interpolación de fotogramas (Veo 3.1):

infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}'

Iteraciones rápidas (Veo 3.1 Fast):

infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'

Para modelos de image-to-video, lipsync, avatar o upscaling, usa los App IDs específicos documentados en el repositorio y adapta los campos JSON de --input según corresponda (por ejemplo, incluyendo image_url, video_url o audio_url cuando la app elegida lo requiera).

5. Integrar en prompts y flujos de trabajo de tu agente

Al conectar ai-video-generation en tu sistema de agentes:

Describe la herramienta en los prompts de sistema: Indica al agente que puede generar videos mediante infsh app run y que hay opciones de modelo disponibles (Veo, Seedance, Wan, etc.).
Fomenta entradas estructuradas: Pide al agente que construya inputs JSON explícitos para la CLI, con campos para prompt, duración y estilo si están soportados.
Prevé operaciones de larga duración: La generación de video puede tardar más que las completaciones de texto. Diseña tu UX teniendo esto en cuenta (mensajes de progreso, polling, etc.).
Postprocesa las salidas: Una vez que la CLI devuelva URLs o IDs de archivos, el agente puede incluirlas en notas de proyecto, briefs de marketing o pasos de automatización posteriores.

6. Cuándo esta skill no es la mejor opción

Quizá prefieras otra solución si:

No puedes instalar ni usar una CLI en el entorno de destino.
Tu flujo de trabajo requiere computación estrictamente on-prem donde no se permiten APIs externas.
Solo necesitas recortar o editar metraje existente de forma básica y no generar video con IA.

En esos casos, busca skills de edición de video puras o integraciones con NLEs de escritorio en lugar de una stack de generación de video en la nube basada en IA.

Preguntas frecuentes

¿Qué instala exactamente ai-video-generation?

La skill ai-video-generation instala metadatos y configuración de tooling desde el repositorio inferen-sh/skills para que tu agente sepa cómo llamar a la CLI infsh para generación de video con IA. No instala por sí misma el binario infsh ni ningún modelo. Debes instalar la CLI de inference.sh de forma independiente siguiendo las instrucciones referenciadas en SKILL.md.

¿Necesito una cuenta de inference.sh para usar ai-video-generation?

Sí. El inicio rápido usa explícitamente infsh login, que requiere credenciales válidas de inference.sh. Sin una cuenta y un inicio de sesión correcto, los comandos infsh app run ... que invoque la skill fallarán.

¿A qué modelos de video con IA puedo acceder con esta skill?

La descripción de la skill enumera varias apps compatibles, como Google Veo 3.1, Veo 3, Veo 3 Fast, Seedance 1.5 Pro, Wan 2.5, Grok Imagine Video, OmniHuman, Fabric y HunyuanVideo, además de muchos otros modelos disponibles a través de inference.sh. La lista exacta y sus parámetros se mantienen en el catálogo de inference.sh y pueden evolucionar con el tiempo.

¿Puedo hacer image-to-video y lipsync, o solo text-to-video?

Según la descripción de la skill, ai-video-generation admite text-to-video, image-to-video, lipsync, animación de avatares, escalado de video y sonido foley, siempre que uses modelos apropiados que expongan esas funciones a través de infsh. Consulta la documentación de la app correspondiente en inference.sh para ver los inputs requeridos (por ejemplo, URLs de imagen, audio o video).

¿Cómo controlo la duración del video, el formato (aspect ratio) o el estilo?

Los parámetros de control específicos dependen de la superficie de API del modelo que elijas dentro de inference.sh. La propia skill se centra en conectar la CLI con tu agente, no en imponer un esquema único. Para ajustar duración, formato o estilo, pasa los campos que admita el App ID que estés usando en el JSON de --input. Revisa la documentación de la app de inference.sh para cada modelo para ver las opciones más recientes.

¿Dónde se almacenan los videos generados?

La skill utiliza la CLI de inference.sh, que devuelve información como URLs o IDs de resultados. La ubicación de almacenamiento y la retención las gestiona inference.sh, no la skill. Normalmente recibirás un enlace o referencia que podrás descargar, incrustar en un CMS o usar en herramientas posteriores.

¿Puedo ejecutar ai-video-generation en entornos CI/CD o headless?

Sí, siempre que el entorno pueda instalar y autenticar la CLI infsh y el runtime de tu agente pueda ejecutar comandos Bash. Esto permite automatizar generación masiva de videos de marketing, variaciones de contenido para redes sociales o clips de vista previa como parte de un pipeline.

¿Es ai-video-generation una buena opción para edición de video tradicional?

Usa ai-video-generation cuando lo que buscas principalmente es video generado o transformado por IA. Para edición detallada de metraje existente (líneas de tiempo multipista, cortes manuales, transiciones complejas), seguirás necesitando un editor de video convencional. No obstante, puedes combinar esta skill con la edición tradicional generando primero clips base con IA y puliéndolos después en tu NLE.

¿Cómo actualizo o elimino la skill más adelante?

Gestionas la instalación y eliminación con la misma Skills CLI que usaste para añadirla. Ejecuta el comando skills correspondiente (por ejemplo, un subcomando de remove o update si tu entorno lo admite). Eliminar la skill no desinstala la CLI infsh; solo desconecta la integración de ai-video-generation de tu agente.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

remotion-best-practices

by remotion-dev

Buenas prácticas prácticas de Remotion para crear videos programáticos, animaciones y composiciones basadas en audio en React.

Video Editing

Favorites 0GitHub 2,4 mil

elevenlabs-sound-effects

by inferen-sh

Genera efectos de sonido con IA a partir de prompts de texto usando ElevenLabs a través de la CLI de inference.sh. Ideal para editores de vídeo, desarrolladores de videojuegos, podcasters, cineastas y creadores de contenido que necesitan diseño sonoro rápido y libre de regalías. Admite texto a efecto de sonido, duración ajustable y control del prompt para SFX cinematográficos, ambientales y listos para juegos.

Audio Editing

Favorites 0GitHub 0

ai-marketing-videos

by inferen-sh

Creación de videos de marketing con IA a través de la CLI de inference.sh. Usa ai-marketing-videos para generar videos promocionales, demos de producto, videos explicativos y creatividades publicitarias para Facebook, YouTube, Instagram y TikTok usando modelos como Veo, Seedance, Wan, FLUX y locuciones con Kokoro.

Video Editing

Favorites 0GitHub 0

agent-tools

by inferen-sh

agent-tools expone la CLI de inference.sh dentro de tu agente para que puedas ejecutar más de 150 aplicaciones de IA desde un solo lugar: generación de imágenes, creación de video, LLMs, búsqueda, 3D y automatización de Twitter. Es ideal cuando necesitas un orquestador de flujos unificado para FLUX, Veo, Gemini, Grok, Claude, Seedance, OmniHuman, Tavily, Exa, OpenRouter y más, sin gestionar GPUs ni integraciones complejas.

Workflow Automation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing te permite doblar y traducir automáticamente audio o vídeo a 29 idiomas usando la CLI de inference.sh, preservando las voces originales de los locutores. Es ideal para editores de vídeo, podcasters y equipos de localización que necesitan versiones multilingües rápidas y de alta calidad de contenido ya existente.

Video Editing

Favorites 0GitHub 0

ai-avatar-video

by inferen-sh

Genera videos de avatares de IA y talking head a partir de una imagen y una pista de audio usando la CLI de inference.sh. ai-avatar-video envuelve las apps OmniHuman, Fabric y PixVerse Lipsync para crear avatares controlados por audio, videos con lipsync y presentadores virtuales, ideal para flujos de trabajo de marketing, videos explicativos y contenido para redes sociales.

Video Editing

Favorites 0GitHub 0

ai-social-media-content

by inferen-sh

Generador de contenido para redes sociales con IA para TikTok, Instagram, YouTube y X. Usa la CLI de inference.sh para crear vídeos, reels, shorts, miniaturas, imágenes, textos, captions y hashtags listos para cada plataforma con modelos como FLUX, Veo, Seedance, Wan, Kokoro TTS y Claude.

Social Media

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

Diseña y ejecuta pipelines de contenido de IA de varios pasos que encadenan herramientas de imagen, vídeo, audio y texto a través de la CLI de inference.sh. Usa ai-content-pipeline para automatizar flujos de trabajo como: generar una imagen, animarla a vídeo, añadir sonido o locución y preparar contenido para YouTube, redes sociales y campañas de marketing.

Workflow Automation

Favorites 0GitHub 0