ai-avatar-video
por inferen-shGere vídeos de avatar de IA e talking head a partir de uma imagem e uma trilha de áudio usando o CLI do inference.sh. ai-avatar-video envolve os apps OmniHuman, Fabric e PixVerse Lipsync para criar avatares guiados por áudio, vídeos com lipsync e apresentadores virtuais, ideal para fluxos de marketing, vídeos explicativos e conteúdo para redes sociais.
Visão geral
O que é ai-avatar-video?
ai-avatar-video é uma skill focada em CLI para criar vídeos de avatar de IA e talking head usando a plataforma inference.sh. Ela permite enviar uma imagem e um arquivo de áudio para apps de vídeo prontos (OmniHuman, Fabric, PixVerse Lipsync) e receber um vídeo renderizado em que o avatar fala e faz lipsync com o seu áudio.
Esta skill é pensada para fluxos baseados em Bash e usa o CLI infsh por baixo dos panos.
Principais recursos
- Geração de talking head com IA a partir de uma única imagem de retrato
- Avatares guiados por áudio: mapeie um arquivo de narração em MP3/outro formato suportado para um humano digital
- Vídeos com lipsync usando modelos dedicados de lipsync
- Apresentadores virtuais e apresentadores de IA para vídeos explicativos, tours de produto ou anúncios
- Escolha de modelo via apps do inference.sh:
- OmniHuman 1.5 – multi-personagem, maior qualidade
- OmniHuman 1.0 – avatar de personagem único
- Fabric 1.0 – lipsync tipo “image talks”
- PixVerse Lipsync – geração de lipsync focada
Para quem é o ai-avatar-video?
ai-avatar-video é uma boa opção se você:
- Produz vídeos de marketing, promos curtas ou conteúdo para redes sociais
- Precisa de clipes com porta-voz de IA ou apresentador virtual sem contratar talentos
- Quer prototipar humanos digitais ou influenciadores virtuais a partir de imagens estáticas
- Prefere CLI e automação (Bash, scripting, pipelines de CI) em vez de ferramentas web manuais
Ele é menos indicado se você:
- Precisa de um editor de vídeo completo (linhas do tempo, efeitos, edição multifaixa)
- Requer um fluxo totalmente offline, sem chamadas a APIs externas
- Quer uma solução apenas com interface gráfica, sem linha de comando
Como funciona em alto nível
- Instale e faça login no CLI
infsh. - Escolha um modelo (por exemplo,
bytedance/omnihuman-1-5). - Forneça um
image_urleaudio_urlem JSON. - Execute
infsh app run ...e baixe o vídeo resultante.
ai-avatar-video se concentra na etapa de geração de vídeo e pode ser incorporado em automações maiores ou pipelines de pós-produção.
Como usar
Instalação e pré-requisitos
1. Instale a skill
Use o skills CLI para adicionar a skill ao seu ambiente:
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
Isso traz a definição da skill ai-avatar-video do repositório inferen-sh/skills em tools/video/ai-avatar-video.
2. Instale o CLI do inference.sh (infsh)
ai-avatar-video parte do princípio de que o CLI infsh já está instalado e disponível no seu shell. Siga as instruções oficiais:
- Guia de instalação do CLI:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Depois de instalar, faça login:
infsh login
Você será guiado pelo fluxo de autenticação para que o CLI possa chamar os apps do inference.sh.
Fluxo básico: criar um vídeo de avatar de IA
1. Prepare seus assets de mídia
- Imagem: Um retrato nítido, de frente, hospedado em uma URL acessível, por exemplo
https://portrait.jpg. - Áudio: Um arquivo de fala ou narração (por exemplo, MP3) hospedado em uma URL acessível, por exemplo
https://speech.mp3.
Você pode usar storage de objetos, um servidor web ou qualquer hospedagem que forneça URLs diretas.
2. Execute o OmniHuman 1.5 para um avatar de alta qualidade
Use o app bytedance/omnihuman-1-5 para talking heads multi-personagem com melhor qualidade:
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
O CLI vai processar a requisição e imprimir informações de saída, normalmente incluindo uma URL onde você pode baixar o vídeo gerado.
3. Experimente modelos alternativos
Altere o app ID para explorar diferentes trade-offs.
OmniHuman 1.0 – avatar de personagem único
infsh app run bytedance/omnihuman-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Fabric 1.0 – imagem fala com lipsync
infsh app run falai/fabric-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
PixVerse Lipsync – geração de lipsync focada
infsh app run falai/pixverse-lipsync --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Escolha o app de acordo com a qualidade desejada e o estilo de saída. As opções exatas e os outputs são definidos pelos respectivos apps do inference.sh.
Integração do ai-avatar-video em fluxos de trabalho
Automação com Bash e CLI
ai-avatar-video foi projetado para uso em Bash (infsh *), portanto se encaixa bem em scripts como:
- Geração em lote de vídeos a partir de uma lista de imagens e narrações
- Jobs noturnos que produzem vídeos de marketing ou de produto atualizados
- Etapas de CI/CD que renderizam vídeos de anúncio de release quando você marca uma nova versão
Exemplo de loop (conceitual):
while read image audio; do
infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt
Combinação com ferramentas de edição e publicação
A skill se concentra em gerar o clipe de talking head. Depois disso, você pode:
- Levar o output para um editor de vídeo para inserir overlays, legendas ou B-roll
- Enviar o clipe para ferramentas de agendamento de redes sociais ou automação de marketing
- Usar skills complementares (se disponíveis no seu ambiente) para legendagem ou reformatar o vídeo
Arquivos e estrutura para analisar
Após instalar a skill a partir do repositório, referências úteis incluem:
SKILL.md– Descrição principal, comandos de quick start e visão geral de modelostools/video/ai-avatar-video/– Localização no repositório, junto com outras ferramentas de vídeo
Revisar esses arquivos ajuda a alinhar sua implementação com os padrões de uso previstos.
FAQ
Quando devo usar ai-avatar-video em vez de ferramentas de avatar baseadas na web?
Use ai-avatar-video quando você quiser um controle CLI-first, scriptável sobre a geração de vídeos de avatar. Se você se sente à vontade com Bash e quer conectar a criação de avatares de IA a pipelines, ferramentas de build ou serviços de back-end, esta skill é uma ótima escolha.
Se você prefere desenhar tudo visualmente no navegador e nunca usar o terminal, um produto 100% web pode ser mais conveniente.
Preciso do CLI do inference.sh para usar o ai-avatar-video?
Sim. A skill é construída em torno do CLI infsh e dos apps do inference.sh. Você precisa:
- Instalar o CLI seguindo as instruções oficiais.
- Executar
infsh login. - Usar comandos
infsh app run ...conforme mostrado no quick start.
Sem o CLI, o ai-avatar-video não consegue chamar os modelos dos quais depende.
Com qual modelo devo começar?
Para a maioria dos casos de uso, comece com o OmniHuman 1.5 (bytedance/omnihuman-1-5), pois ele é indicado como multi-personagem e de melhor qualidade.
Você pode escolher alternativas quando:
- OmniHuman 1.0: Você só precisa de um avatar mais simples, de personagem único.
- Fabric 1.0: Você quer um estilo direto de “image talks com lipsync”.
- PixVerse Lipsync: Seu foco principal é o comportamento de lipsync.
Faça testes com alguns clipes para ver qual app atende melhor às suas expectativas visuais e de timing.
Que tipo de imagem de entrada funciona melhor?
Embora os detalhes dependam dos apps subjacentes, em geral você obtém melhores resultados com:
- Um retrato claro, de frente
- Boa iluminação e traços faciais bem visíveis
- Poucas obstruções (sem sombras pesadas ou objetos cobrindo o rosto)
Quanto mais a sua entrada se aproximar de uma foto de estúdio limpa, mais natural tende a ficar o movimento do avatar e o lipsync.
Posso automatizar a produção de vídeos para redes sociais ou marketing com esta skill?
Sim. ai-avatar-video é muito adequado para:
- Gerar atualizações recorrentes de marketing com um apresentador de IA
- Criar clipes de talking head para redes sociais a partir de áudios roteirizados
- Integrar com outras ferramentas de CLI para redimensionar, legendar ou fazer upload
Você pode orquestrar todo o fluxo em Bash ou na sua ferramenta de automação preferida, usando esta skill como a etapa de geração de avatar.
ai-avatar-video é um editor de vídeo completo?
Não. ai-avatar-video é focado em gerar segmentos de avatar de IA / talking head a partir de imagem + áudio usando apps do inference.sh. Ele não substitui um editor não linear completo.
Para produções completas, trate o vídeo gerado como mais um asset na sua linha do tempo de edição e use suas ferramentas usuais de edição de vídeo para cortes, transições, títulos e efeitos.
Onde posso ver ou modificar a definição da skill?
A skill está no repositório inferen-sh/skills em:
tools/video/ai-avatar-video
Abra o SKILL.md para ver a descrição principal e o quick start. Você pode navegar pela árvore de diretórios do repositório para entender como esta skill se encaixa entre outras ferramentas de CLI para fluxos de vídeo.
