ai-avatar-video

por inferen-sh

Genera videos de avatares de IA y talking head a partir de una imagen y una pista de audio usando la CLI de inference.sh. ai-avatar-video envuelve las apps OmniHuman, Fabric y PixVerse Lipsync para crear avatares controlados por audio, videos con lipsync y presentadores virtuales, ideal para flujos de trabajo de marketing, videos explicativos y contenido para redes sociales.

Estrellas0

Favoritos0

Comentarios0

CategoríaVideo Editing

Comando de instalación

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Video Audio Marketing Social Media Automation Bash Cli

Resumen

Descripción general

¿Qué es ai-avatar-video?

ai-avatar-video es una skill centrada en CLI para crear videos de avatares de IA y talking head usando la plataforma inference.sh. Te permite enviar una imagen y un archivo de audio a aplicaciones de video preconfiguradas (OmniHuman, Fabric, PixVerse Lipsync) y recibir un video renderizado en el que el avatar habla y sincroniza los labios con tu audio.

Esta skill está pensada para flujos de trabajo basados en Bash y utiliza la CLI infsh por debajo.

Capacidades clave

Generación de talking head con IA a partir de una única imagen de retrato
Avatares controlados por audio: asigna un MP3 de locución u otro audio compatible a un humano digital
Videos con lipsync usando modelos específicos de sincronización labial
Presentadores virtuales y presentadores con IA para videos explicativos, recorridos de producto o anuncios
Selección de modelo a través de apps de inference.sh:
- OmniHuman 1.5: multicharacter, mayor calidad
- OmniHuman 1.0: avatar de un solo personaje
- Fabric 1.0: lipsync tipo “image talks”
- PixVerse Lipsync: generación de lipsync especializada

¿Para quién es ai-avatar-video?

ai-avatar-video encaja bien si:

Produces videos de marketing, piezas cortas promocionales o contenido para redes sociales
Necesitas clips con un portavoz de IA o presentador virtual sin contratar talento
Quieres crear prototipos de humanos digitales o influencers virtuales a partir de imágenes estáticas
Prefieres CLI y automatización (Bash, scripting, pipelines de CI) en lugar de herramientas web manuales

Es menos adecuado si:

Necesitas un editor de video completo (líneas de tiempo, efectos, edición multitrack)
Requieres un flujo de trabajo completamente offline sin llamadas a APIs externas
Buscas una solución únicamente con interfaz gráfica en lugar de herramientas de línea de comandos

Cómo funciona, de un vistazo

Instala e inicia sesión en la CLI infsh.
Elige un modelo (p. ej., bytedance/omnihuman-1-5).
Proporciona un image_url y un audio_url en JSON.
Ejecuta infsh app run ... y descarga el video resultante.

ai-avatar-video se centra en el paso de generación de video y puede integrarse en automatizaciones más amplias o pipelines de posproducción.

Cómo usar

Instalación y requisitos previos

1. Instalar la skill

Utiliza la skills CLI para añadir la skill a tu entorno:

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Esto descarga la definición de la skill ai-avatar-video desde el repositorio inferen-sh/skills en tools/video/ai-avatar-video.

2. Instalar la CLI de inference.sh (`infsh`)

ai-avatar-video asume que tienes la CLI infsh instalada y disponible en tu shell. Sigue las instrucciones oficiales:

Guía de instalación de la CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Después de instalar, inicia sesión:

infsh login

Se te guiará por el proceso de autenticación para que la CLI pueda llamar a las apps de inference.sh.

Flujo básico: crear un video de avatar de IA

1. Prepara tus recursos multimedia

Imagen: una imagen de retrato clara, de frente, alojada en una URL accesible, por ejemplo https://portrait.jpg.
Audio: un archivo de voz o locución (por ejemplo, MP3) alojado en una URL accesible, por ejemplo https://speech.mp3.

Puedes usar almacenamiento de objetos, un servidor web o cualquier alojamiento que proporcione URLs directas.

2. Ejecuta OmniHuman 1.5 para un avatar de alta calidad

Utiliza la app bytedance/omnihuman-1-5 para talking heads multicharacter y de máxima calidad:

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

La CLI procesará la solicitud e imprimirá información de salida, normalmente incluyendo una URL desde la que podrás descargar el video generado.

3. Prueba modelos alternativos

Cambia el ID de la app para explorar diferentes compromisos.

OmniHuman 1.0 – avatar de un solo personaje

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – imagen que habla con lipsync

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – generación de lipsync especializada

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Elige la app según tus necesidades de calidad y estilo de salida. Las opciones exactas y los resultados vienen definidos por las respectivas apps de inference.sh.

Integrar ai-avatar-video en tus flujos de trabajo

Automatización con Bash y CLI

ai-avatar-video está diseñada para uso con Bash (infsh *), por lo que encaja bien en scripts como:

Generar videos por lotes a partir de una lista de imágenes y locuciones
Tareas nocturnas que produzcan videos de marketing o producto actualizados
Pasos de CI/CD que rendericen videos de anuncio de versión cuando etiquetas un release

Ejemplo de bucle (conceptual):

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

Combinación con herramientas de edición y publicación

La skill se centra en generar el clip de talking head. Luego puedes:

Importar el resultado a un editor de video para overlays, subtítulos o B-roll
Enviar el clip a planificadores de redes sociales o a automatizaciones de marketing
Usar skills complementarias (si están disponibles en tu entorno) para subtitulado o reformateo

Archivos y estructura a revisar

Tras instalar la skill desde el repositorio, las referencias útiles incluyen:

SKILL.md: descripción principal, comandos de inicio rápido y resumen de modelos
tools/video/ai-avatar-video/: ubicación en el repositorio, en contexto con otras herramientas de video

Revisar estos archivos te ayudará a alinear tu implementación con los patrones de uso previstos.

Preguntas frecuentes

¿Cuándo debería usar ai-avatar-video en lugar de herramientas de avatar basadas en web?

Usa ai-avatar-video cuando quieras control scriptable desde la CLI sobre la generación de videos de avatar. Si te sientes cómodo con Bash y quieres conectar la creación de avatares de IA a pipelines, herramientas de build o servicios de back-end, esta skill encaja muy bien.

Si prefieres diseñar todo visualmente en el navegador y no tocar nunca la terminal, puede resultarte más cómodo un producto totalmente web.

¿Necesito la CLI de inference.sh para usar ai-avatar-video?

Sí. La skill está construida en torno a la CLI infsh y las apps de inference.sh. Debes:

Instalar la CLI siguiendo las instrucciones oficiales.
Ejecutar infsh login.
Usar comandos infsh app run ... como se muestra en el inicio rápido.

Sin la CLI, ai-avatar-video no puede llamar a los modelos de los que depende.

¿Con qué modelo debería empezar?

Para la mayoría de los casos de uso, comienza con OmniHuman 1.5 (bytedance/omnihuman-1-5), ya que se indica como multicharacter y de mejor calidad.

Puedes elegir alternativas cuando:

OmniHuman 1.0: solo necesitas un avatar más sencillo de un solo personaje.
Fabric 1.0: buscas un estilo directo de “imagen que habla con lipsync”.
PixVerse Lipsync: tu prioridad es el comportamiento de lipsync.

Prueba varios clips para ver qué app se ajusta mejor a tus expectativas visuales y de sincronización.

¿Qué tipo de imagen de entrada funciona mejor?

Aunque los detalles dependen de cada app, en general obtendrás mejores resultados con:

Un retrato claro y frontal
Buena iluminación y rasgos faciales visibles
Mínimas obstrucciones (sin sombras fuertes ni objetos que tapen la cara)

Cuanto más se parezca tu imagen de entrada a una foto de estudio limpia, más natural tenderán a verse el movimiento del avatar y la sincronización labial.

¿Puedo automatizar la producción de videos para redes sociales o marketing con esta skill?

Sí. ai-avatar-video es muy adecuada para:

Generar actualizaciones de marketing recurrentes con un presentador de IA
Crear clips de talking head para redes sociales a partir de audio guionado
Integrarse con otras herramientas CLI para redimensionar, subtitular o subir videos

Puedes orquestar todo el flujo en Bash o en la herramienta de automatización que prefieras, usando esta skill como el paso de generación de avatar.

¿ai-avatar-video es un editor de video completo?

No. ai-avatar-video se centra en generar segmentos de avatar de IA / talking head a partir de imagen + audio usando apps de inference.sh. No sustituye a un editor de video no lineal completo.

Para producciones completas, trata el video generado como un recurso más en tu línea de tiempo de edición y usa tus herramientas habituales para cortes, transiciones, títulos y efectos.

¿Dónde puedo ver o modificar la definición de la skill?

La skill se encuentra en el repositorio inferen-sh/skills en:

tools/video/ai-avatar-video

Abre SKILL.md para ver la descripción principal y el inicio rápido. Puedes explorar el árbol de directorios en el repositorio para entender cómo se integra esta skill con otras herramientas CLI para flujos de trabajo de video.

Calificaciones y reseñas

Aún no hay calificaciones

Comparte tu reseña

Inicia sesión para dejar una calificación y un comentario sobre esta skill.

0/10000

Reseñas más recientes

Guardando...

Más skills de esta categoría

remotion-best-practices

by remotion-dev

Buenas prácticas prácticas de Remotion para crear videos programáticos, animaciones y composiciones basadas en audio en React.

Video Editing

Favorites 0GitHub 2,4 mil

ai-social-media-content

by inferen-sh

Generador de contenido para redes sociales con IA para TikTok, Instagram, YouTube y X. Usa la CLI de inference.sh para crear vídeos, reels, shorts, miniaturas, imágenes, textos, captions y hashtags listos para cada plataforma con modelos como FLUX, Veo, Seedance, Wan, Kokoro TTS y Claude.

Social Media

Favorites 0GitHub 0

ai-video-generation

by inferen-sh

Genera videos con IA usando Google Veo, Seedance, Wan, Grok y más de 40 modelos a través de la CLI de inference.sh. Compatible con text-to-video, image-to-video, lipsync, animación de avatares, escalado de video y sonido foley para clips de redes sociales, contenidos de marketing, videos explicativos y demostraciones de producto.

Video Editing

Favorites 0GitHub 0

agent-tools

by inferen-sh

agent-tools expone la CLI de inference.sh dentro de tu agente para que puedas ejecutar más de 150 aplicaciones de IA desde un solo lugar: generación de imágenes, creación de video, LLMs, búsqueda, 3D y automatización de Twitter. Es ideal cuando necesitas un orquestador de flujos unificado para FLUX, Veo, Gemini, Grok, Claude, Seedance, OmniHuman, Tavily, Exa, OpenRouter y más, sin gestionar GPUs ni integraciones complejas.

Workflow Automation

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

Genera efectos de sonido con IA a partir de prompts de texto usando ElevenLabs a través de la CLI de inference.sh. Ideal para editores de vídeo, desarrolladores de videojuegos, podcasters, cineastas y creadores de contenido que necesitan diseño sonoro rápido y libre de regalías. Admite texto a efecto de sonido, duración ajustable y control del prompt para SFX cinematográficos, ambientales y listos para juegos.

Audio Editing

Favorites 0GitHub 0

ai-marketing-videos

by inferen-sh

Creación de videos de marketing con IA a través de la CLI de inference.sh. Usa ai-marketing-videos para generar videos promocionales, demos de producto, videos explicativos y creatividades publicitarias para Facebook, YouTube, Instagram y TikTok usando modelos como Veo, Seedance, Wan, FLUX y locuciones con Kokoro.

Video Editing

Favorites 0GitHub 0

ai-content-pipeline

by inferen-sh

Diseña y ejecuta pipelines de contenido de IA de varios pasos que encadenan herramientas de imagen, vídeo, audio y texto a través de la CLI de inference.sh. Usa ai-content-pipeline para automatizar flujos de trabajo como: generar una imagen, animarla a vídeo, añadir sonido o locución y preparar contenido para YouTube, redes sociales y campañas de marketing.

Workflow Automation

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing te permite doblar y traducir automáticamente audio o vídeo a 29 idiomas usando la CLI de inference.sh, preservando las voces originales de los locutores. Es ideal para editores de vídeo, podcasters y equipos de localización que necesitan versiones multilingües rápidas y de alta calidad de contenido ya existente.

Video Editing

Favorites 0GitHub 0

ai-avatar-video

Descripción general

¿Qué es ai-avatar-video?

Capacidades clave

¿Para quién es ai-avatar-video?

Cómo funciona, de un vistazo

Cómo usar

Instalación y requisitos previos

1. Instalar la skill

2. Instalar la CLI de inference.sh (infsh)

Flujo básico: crear un video de avatar de IA

1. Prepara tus recursos multimedia

2. Ejecuta OmniHuman 1.5 para un avatar de alta calidad

3. Prueba modelos alternativos

Integrar ai-avatar-video en tus flujos de trabajo

Automatización con Bash y CLI

Combinación con herramientas de edición y publicación

Archivos y estructura a revisar

Preguntas frecuentes

¿Cuándo debería usar ai-avatar-video en lugar de herramientas de avatar basadas en web?

¿Necesito la CLI de inference.sh para usar ai-avatar-video?

¿Con qué modelo debería empezar?

¿Qué tipo de imagen de entrada funciona mejor?

¿Puedo automatizar la producción de videos para redes sociales o marketing con esta skill?

¿ai-avatar-video es un editor de video completo?

¿Dónde puedo ver o modificar la definición de la skill?

Calificaciones y reseñas

2. Instalar la CLI de inference.sh (`infsh`)