I

ai-avatar-video

por inferen-sh

Genera videos de avatares de IA y talking head a partir de una imagen y una pista de audio usando la CLI de inference.sh. ai-avatar-video envuelve las apps OmniHuman, Fabric y PixVerse Lipsync para crear avatares controlados por audio, videos con lipsync y presentadores virtuales, ideal para flujos de trabajo de marketing, videos explicativos y contenido para redes sociales.

Estrellas0
Favoritos0
Comentarios0
CategoríaVideo Editing
Comando de instalación
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
Resumen

Descripción general

¿Qué es ai-avatar-video?

ai-avatar-video es una skill centrada en CLI para crear videos de avatares de IA y talking head usando la plataforma inference.sh. Te permite enviar una imagen y un archivo de audio a aplicaciones de video preconfiguradas (OmniHuman, Fabric, PixVerse Lipsync) y recibir un video renderizado en el que el avatar habla y sincroniza los labios con tu audio.

Esta skill está pensada para flujos de trabajo basados en Bash y utiliza la CLI infsh por debajo.

Capacidades clave

  • Generación de talking head con IA a partir de una única imagen de retrato
  • Avatares controlados por audio: asigna un MP3 de locución u otro audio compatible a un humano digital
  • Videos con lipsync usando modelos específicos de sincronización labial
  • Presentadores virtuales y presentadores con IA para videos explicativos, recorridos de producto o anuncios
  • Selección de modelo a través de apps de inference.sh:
    • OmniHuman 1.5: multicharacter, mayor calidad
    • OmniHuman 1.0: avatar de un solo personaje
    • Fabric 1.0: lipsync tipo “image talks”
    • PixVerse Lipsync: generación de lipsync especializada

¿Para quién es ai-avatar-video?

ai-avatar-video encaja bien si:

  • Produces videos de marketing, piezas cortas promocionales o contenido para redes sociales
  • Necesitas clips con un portavoz de IA o presentador virtual sin contratar talento
  • Quieres crear prototipos de humanos digitales o influencers virtuales a partir de imágenes estáticas
  • Prefieres CLI y automatización (Bash, scripting, pipelines de CI) en lugar de herramientas web manuales

Es menos adecuado si:

  • Necesitas un editor de video completo (líneas de tiempo, efectos, edición multitrack)
  • Requieres un flujo de trabajo completamente offline sin llamadas a APIs externas
  • Buscas una solución únicamente con interfaz gráfica en lugar de herramientas de línea de comandos

Cómo funciona, de un vistazo

  1. Instala e inicia sesión en la CLI infsh.
  2. Elige un modelo (p. ej., bytedance/omnihuman-1-5).
  3. Proporciona un image_url y un audio_url en JSON.
  4. Ejecuta infsh app run ... y descarga el video resultante.

ai-avatar-video se centra en el paso de generación de video y puede integrarse en automatizaciones más amplias o pipelines de posproducción.

Cómo usar

Instalación y requisitos previos

1. Instalar la skill

Utiliza la skills CLI para añadir la skill a tu entorno:

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Esto descarga la definición de la skill ai-avatar-video desde el repositorio inferen-sh/skills en tools/video/ai-avatar-video.

2. Instalar la CLI de inference.sh (infsh)

ai-avatar-video asume que tienes la CLI infsh instalada y disponible en tu shell. Sigue las instrucciones oficiales:

  • Guía de instalación de la CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Después de instalar, inicia sesión:

infsh login

Se te guiará por el proceso de autenticación para que la CLI pueda llamar a las apps de inference.sh.

Flujo básico: crear un video de avatar de IA

1. Prepara tus recursos multimedia

  • Imagen: una imagen de retrato clara, de frente, alojada en una URL accesible, por ejemplo https://portrait.jpg.
  • Audio: un archivo de voz o locución (por ejemplo, MP3) alojado en una URL accesible, por ejemplo https://speech.mp3.

Puedes usar almacenamiento de objetos, un servidor web o cualquier alojamiento que proporcione URLs directas.

2. Ejecuta OmniHuman 1.5 para un avatar de alta calidad

Utiliza la app bytedance/omnihuman-1-5 para talking heads multicharacter y de máxima calidad:

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

La CLI procesará la solicitud e imprimirá información de salida, normalmente incluyendo una URL desde la que podrás descargar el video generado.

3. Prueba modelos alternativos

Cambia el ID de la app para explorar diferentes compromisos.

OmniHuman 1.0 – avatar de un solo personaje

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – imagen que habla con lipsync

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – generación de lipsync especializada

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Elige la app según tus necesidades de calidad y estilo de salida. Las opciones exactas y los resultados vienen definidos por las respectivas apps de inference.sh.

Integrar ai-avatar-video en tus flujos de trabajo

Automatización con Bash y CLI

ai-avatar-video está diseñada para uso con Bash (infsh *), por lo que encaja bien en scripts como:

  • Generar videos por lotes a partir de una lista de imágenes y locuciones
  • Tareas nocturnas que produzcan videos de marketing o producto actualizados
  • Pasos de CI/CD que rendericen videos de anuncio de versión cuando etiquetas un release

Ejemplo de bucle (conceptual):

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

Combinación con herramientas de edición y publicación

La skill se centra en generar el clip de talking head. Luego puedes:

  • Importar el resultado a un editor de video para overlays, subtítulos o B-roll
  • Enviar el clip a planificadores de redes sociales o a automatizaciones de marketing
  • Usar skills complementarias (si están disponibles en tu entorno) para subtitulado o reformateo

Archivos y estructura a revisar

Tras instalar la skill desde el repositorio, las referencias útiles incluyen:

  • SKILL.md: descripción principal, comandos de inicio rápido y resumen de modelos
  • tools/video/ai-avatar-video/: ubicación en el repositorio, en contexto con otras herramientas de video

Revisar estos archivos te ayudará a alinear tu implementación con los patrones de uso previstos.

Preguntas frecuentes

¿Cuándo debería usar ai-avatar-video en lugar de herramientas de avatar basadas en web?

Usa ai-avatar-video cuando quieras control scriptable desde la CLI sobre la generación de videos de avatar. Si te sientes cómodo con Bash y quieres conectar la creación de avatares de IA a pipelines, herramientas de build o servicios de back-end, esta skill encaja muy bien.

Si prefieres diseñar todo visualmente en el navegador y no tocar nunca la terminal, puede resultarte más cómodo un producto totalmente web.

¿Necesito la CLI de inference.sh para usar ai-avatar-video?

Sí. La skill está construida en torno a la CLI infsh y las apps de inference.sh. Debes:

  1. Instalar la CLI siguiendo las instrucciones oficiales.
  2. Ejecutar infsh login.
  3. Usar comandos infsh app run ... como se muestra en el inicio rápido.

Sin la CLI, ai-avatar-video no puede llamar a los modelos de los que depende.

¿Con qué modelo debería empezar?

Para la mayoría de los casos de uso, comienza con OmniHuman 1.5 (bytedance/omnihuman-1-5), ya que se indica como multicharacter y de mejor calidad.

Puedes elegir alternativas cuando:

  • OmniHuman 1.0: solo necesitas un avatar más sencillo de un solo personaje.
  • Fabric 1.0: buscas un estilo directo de “imagen que habla con lipsync”.
  • PixVerse Lipsync: tu prioridad es el comportamiento de lipsync.

Prueba varios clips para ver qué app se ajusta mejor a tus expectativas visuales y de sincronización.

¿Qué tipo de imagen de entrada funciona mejor?

Aunque los detalles dependen de cada app, en general obtendrás mejores resultados con:

  • Un retrato claro y frontal
  • Buena iluminación y rasgos faciales visibles
  • Mínimas obstrucciones (sin sombras fuertes ni objetos que tapen la cara)

Cuanto más se parezca tu imagen de entrada a una foto de estudio limpia, más natural tenderán a verse el movimiento del avatar y la sincronización labial.

¿Puedo automatizar la producción de videos para redes sociales o marketing con esta skill?

Sí. ai-avatar-video es muy adecuada para:

  • Generar actualizaciones de marketing recurrentes con un presentador de IA
  • Crear clips de talking head para redes sociales a partir de audio guionado
  • Integrarse con otras herramientas CLI para redimensionar, subtitular o subir videos

Puedes orquestar todo el flujo en Bash o en la herramienta de automatización que prefieras, usando esta skill como el paso de generación de avatar.

¿ai-avatar-video es un editor de video completo?

No. ai-avatar-video se centra en generar segmentos de avatar de IA / talking head a partir de imagen + audio usando apps de inference.sh. No sustituye a un editor de video no lineal completo.

Para producciones completas, trata el video generado como un recurso más en tu línea de tiempo de edición y usa tus herramientas habituales para cortes, transiciones, títulos y efectos.

¿Dónde puedo ver o modificar la definición de la skill?

La skill se encuentra en el repositorio inferen-sh/skills en:

  • tools/video/ai-avatar-video

Abre SKILL.md para ver la descripción principal y el inicio rápido. Puedes explorar el árbol de directorios en el repositorio para entender cómo se integra esta skill con otras herramientas CLI para flujos de trabajo de video.

Calificaciones y reseñas

Aún no hay calificaciones
Comparte tu reseña
Inicia sesión para dejar una calificación y un comentario sobre esta skill.
G
0/10000
Reseñas más recientes
Guardando...