I

ai-avatar-video

por inferen-sh

Gere vídeos de avatar de IA e talking head a partir de uma imagem e uma trilha de áudio usando o CLI do inference.sh. ai-avatar-video envolve os apps OmniHuman, Fabric e PixVerse Lipsync para criar avatares guiados por áudio, vídeos com lipsync e apresentadores virtuais, ideal para fluxos de marketing, vídeos explicativos e conteúdo para redes sociais.

Estrelas0
Favoritos0
Comentários0
CategoriaVideo Editing
Comando de instalação
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
Visão geral

Visão geral

O que é ai-avatar-video?

ai-avatar-video é uma skill focada em CLI para criar vídeos de avatar de IA e talking head usando a plataforma inference.sh. Ela permite enviar uma imagem e um arquivo de áudio para apps de vídeo prontos (OmniHuman, Fabric, PixVerse Lipsync) e receber um vídeo renderizado em que o avatar fala e faz lipsync com o seu áudio.

Esta skill é pensada para fluxos baseados em Bash e usa o CLI infsh por baixo dos panos.

Principais recursos

  • Geração de talking head com IA a partir de uma única imagem de retrato
  • Avatares guiados por áudio: mapeie um arquivo de narração em MP3/outro formato suportado para um humano digital
  • Vídeos com lipsync usando modelos dedicados de lipsync
  • Apresentadores virtuais e apresentadores de IA para vídeos explicativos, tours de produto ou anúncios
  • Escolha de modelo via apps do inference.sh:
    • OmniHuman 1.5 – multi-personagem, maior qualidade
    • OmniHuman 1.0 – avatar de personagem único
    • Fabric 1.0 – lipsync tipo “image talks”
    • PixVerse Lipsync – geração de lipsync focada

Para quem é o ai-avatar-video?

ai-avatar-video é uma boa opção se você:

  • Produz vídeos de marketing, promos curtas ou conteúdo para redes sociais
  • Precisa de clipes com porta-voz de IA ou apresentador virtual sem contratar talentos
  • Quer prototipar humanos digitais ou influenciadores virtuais a partir de imagens estáticas
  • Prefere CLI e automação (Bash, scripting, pipelines de CI) em vez de ferramentas web manuais

Ele é menos indicado se você:

  • Precisa de um editor de vídeo completo (linhas do tempo, efeitos, edição multifaixa)
  • Requer um fluxo totalmente offline, sem chamadas a APIs externas
  • Quer uma solução apenas com interface gráfica, sem linha de comando

Como funciona em alto nível

  1. Instale e faça login no CLI infsh.
  2. Escolha um modelo (por exemplo, bytedance/omnihuman-1-5).
  3. Forneça um image_url e audio_url em JSON.
  4. Execute infsh app run ... e baixe o vídeo resultante.

ai-avatar-video se concentra na etapa de geração de vídeo e pode ser incorporado em automações maiores ou pipelines de pós-produção.

Como usar

Instalação e pré-requisitos

1. Instale a skill

Use o skills CLI para adicionar a skill ao seu ambiente:

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Isso traz a definição da skill ai-avatar-video do repositório inferen-sh/skills em tools/video/ai-avatar-video.

2. Instale o CLI do inference.sh (infsh)

ai-avatar-video parte do princípio de que o CLI infsh já está instalado e disponível no seu shell. Siga as instruções oficiais:

  • Guia de instalação do CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Depois de instalar, faça login:

infsh login

Você será guiado pelo fluxo de autenticação para que o CLI possa chamar os apps do inference.sh.

Fluxo básico: criar um vídeo de avatar de IA

1. Prepare seus assets de mídia

  • Imagem: Um retrato nítido, de frente, hospedado em uma URL acessível, por exemplo https://portrait.jpg.
  • Áudio: Um arquivo de fala ou narração (por exemplo, MP3) hospedado em uma URL acessível, por exemplo https://speech.mp3.

Você pode usar storage de objetos, um servidor web ou qualquer hospedagem que forneça URLs diretas.

2. Execute o OmniHuman 1.5 para um avatar de alta qualidade

Use o app bytedance/omnihuman-1-5 para talking heads multi-personagem com melhor qualidade:

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

O CLI vai processar a requisição e imprimir informações de saída, normalmente incluindo uma URL onde você pode baixar o vídeo gerado.

3. Experimente modelos alternativos

Altere o app ID para explorar diferentes trade-offs.

OmniHuman 1.0 – avatar de personagem único

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – imagem fala com lipsync

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – geração de lipsync focada

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Escolha o app de acordo com a qualidade desejada e o estilo de saída. As opções exatas e os outputs são definidos pelos respectivos apps do inference.sh.

Integração do ai-avatar-video em fluxos de trabalho

Automação com Bash e CLI

ai-avatar-video foi projetado para uso em Bash (infsh *), portanto se encaixa bem em scripts como:

  • Geração em lote de vídeos a partir de uma lista de imagens e narrações
  • Jobs noturnos que produzem vídeos de marketing ou de produto atualizados
  • Etapas de CI/CD que renderizam vídeos de anúncio de release quando você marca uma nova versão

Exemplo de loop (conceitual):

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

Combinação com ferramentas de edição e publicação

A skill se concentra em gerar o clipe de talking head. Depois disso, você pode:

  • Levar o output para um editor de vídeo para inserir overlays, legendas ou B-roll
  • Enviar o clipe para ferramentas de agendamento de redes sociais ou automação de marketing
  • Usar skills complementares (se disponíveis no seu ambiente) para legendagem ou reformatar o vídeo

Arquivos e estrutura para analisar

Após instalar a skill a partir do repositório, referências úteis incluem:

  • SKILL.md – Descrição principal, comandos de quick start e visão geral de modelos
  • tools/video/ai-avatar-video/ – Localização no repositório, junto com outras ferramentas de vídeo

Revisar esses arquivos ajuda a alinhar sua implementação com os padrões de uso previstos.

FAQ

Quando devo usar ai-avatar-video em vez de ferramentas de avatar baseadas na web?

Use ai-avatar-video quando você quiser um controle CLI-first, scriptável sobre a geração de vídeos de avatar. Se você se sente à vontade com Bash e quer conectar a criação de avatares de IA a pipelines, ferramentas de build ou serviços de back-end, esta skill é uma ótima escolha.

Se você prefere desenhar tudo visualmente no navegador e nunca usar o terminal, um produto 100% web pode ser mais conveniente.

Preciso do CLI do inference.sh para usar o ai-avatar-video?

Sim. A skill é construída em torno do CLI infsh e dos apps do inference.sh. Você precisa:

  1. Instalar o CLI seguindo as instruções oficiais.
  2. Executar infsh login.
  3. Usar comandos infsh app run ... conforme mostrado no quick start.

Sem o CLI, o ai-avatar-video não consegue chamar os modelos dos quais depende.

Com qual modelo devo começar?

Para a maioria dos casos de uso, comece com o OmniHuman 1.5 (bytedance/omnihuman-1-5), pois ele é indicado como multi-personagem e de melhor qualidade.

Você pode escolher alternativas quando:

  • OmniHuman 1.0: Você só precisa de um avatar mais simples, de personagem único.
  • Fabric 1.0: Você quer um estilo direto de “image talks com lipsync”.
  • PixVerse Lipsync: Seu foco principal é o comportamento de lipsync.

Faça testes com alguns clipes para ver qual app atende melhor às suas expectativas visuais e de timing.

Que tipo de imagem de entrada funciona melhor?

Embora os detalhes dependam dos apps subjacentes, em geral você obtém melhores resultados com:

  • Um retrato claro, de frente
  • Boa iluminação e traços faciais bem visíveis
  • Poucas obstruções (sem sombras pesadas ou objetos cobrindo o rosto)

Quanto mais a sua entrada se aproximar de uma foto de estúdio limpa, mais natural tende a ficar o movimento do avatar e o lipsync.

Posso automatizar a produção de vídeos para redes sociais ou marketing com esta skill?

Sim. ai-avatar-video é muito adequado para:

  • Gerar atualizações recorrentes de marketing com um apresentador de IA
  • Criar clipes de talking head para redes sociais a partir de áudios roteirizados
  • Integrar com outras ferramentas de CLI para redimensionar, legendar ou fazer upload

Você pode orquestrar todo o fluxo em Bash ou na sua ferramenta de automação preferida, usando esta skill como a etapa de geração de avatar.

ai-avatar-video é um editor de vídeo completo?

Não. ai-avatar-video é focado em gerar segmentos de avatar de IA / talking head a partir de imagem + áudio usando apps do inference.sh. Ele não substitui um editor não linear completo.

Para produções completas, trate o vídeo gerado como mais um asset na sua linha do tempo de edição e use suas ferramentas usuais de edição de vídeo para cortes, transições, títulos e efeitos.

Onde posso ver ou modificar a definição da skill?

A skill está no repositório inferen-sh/skills em:

  • tools/video/ai-avatar-video

Abra o SKILL.md para ver a descrição principal e o quick start. Você pode navegar pela árvore de diretórios do repositório para entender como esta skill se encaixa entre outras ferramentas de CLI para fluxos de vídeo.

Avaliações e comentários

Ainda não há avaliações
Compartilhe sua avaliação
Faça login para deixar uma nota e um comentário sobre esta skill.
G
0/10000
Avaliações mais recentes
Salvando...