ai-avatar-video

por inferen-sh

Gere vídeos de avatar de IA e talking head a partir de uma imagem e uma trilha de áudio usando o CLI do inference.sh. ai-avatar-video envolve os apps OmniHuman, Fabric e PixVerse Lipsync para criar avatares guiados por áudio, vídeos com lipsync e apresentadores virtuais, ideal para fluxos de marketing, vídeos explicativos e conteúdo para redes sociais.

Estrelas0

Favoritos0

Comentários0

CategoriaVideo Editing

Comando de instalação

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Video Audio Marketing Social Media Automation Bash Cli

Visão geral

O que é ai-avatar-video?

ai-avatar-video é uma skill focada em CLI para criar vídeos de avatar de IA e talking head usando a plataforma inference.sh. Ela permite enviar uma imagem e um arquivo de áudio para apps de vídeo prontos (OmniHuman, Fabric, PixVerse Lipsync) e receber um vídeo renderizado em que o avatar fala e faz lipsync com o seu áudio.

Esta skill é pensada para fluxos baseados em Bash e usa o CLI infsh por baixo dos panos.

Principais recursos

Geração de talking head com IA a partir de uma única imagem de retrato
Avatares guiados por áudio: mapeie um arquivo de narração em MP3/outro formato suportado para um humano digital
Vídeos com lipsync usando modelos dedicados de lipsync
Apresentadores virtuais e apresentadores de IA para vídeos explicativos, tours de produto ou anúncios
Escolha de modelo via apps do inference.sh:
- OmniHuman 1.5 – multi-personagem, maior qualidade
- OmniHuman 1.0 – avatar de personagem único
- Fabric 1.0 – lipsync tipo “image talks”
- PixVerse Lipsync – geração de lipsync focada

Para quem é o ai-avatar-video?

ai-avatar-video é uma boa opção se você:

Produz vídeos de marketing, promos curtas ou conteúdo para redes sociais
Precisa de clipes com porta-voz de IA ou apresentador virtual sem contratar talentos
Quer prototipar humanos digitais ou influenciadores virtuais a partir de imagens estáticas
Prefere CLI e automação (Bash, scripting, pipelines de CI) em vez de ferramentas web manuais

Ele é menos indicado se você:

Precisa de um editor de vídeo completo (linhas do tempo, efeitos, edição multifaixa)
Requer um fluxo totalmente offline, sem chamadas a APIs externas
Quer uma solução apenas com interface gráfica, sem linha de comando

Como funciona em alto nível

Instale e faça login no CLI infsh.
Escolha um modelo (por exemplo, bytedance/omnihuman-1-5).
Forneça um image_url e audio_url em JSON.
Execute infsh app run ... e baixe o vídeo resultante.

ai-avatar-video se concentra na etapa de geração de vídeo e pode ser incorporado em automações maiores ou pipelines de pós-produção.

Como usar

Instalação e pré-requisitos

1. Instale a skill

Use o skills CLI para adicionar a skill ao seu ambiente:

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Isso traz a definição da skill ai-avatar-video do repositório inferen-sh/skills em tools/video/ai-avatar-video.

2. Instale o CLI do inference.sh (`infsh`)

ai-avatar-video parte do princípio de que o CLI infsh já está instalado e disponível no seu shell. Siga as instruções oficiais:

Guia de instalação do CLI: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Depois de instalar, faça login:

infsh login

Você será guiado pelo fluxo de autenticação para que o CLI possa chamar os apps do inference.sh.

Fluxo básico: criar um vídeo de avatar de IA

1. Prepare seus assets de mídia

Imagem: Um retrato nítido, de frente, hospedado em uma URL acessível, por exemplo https://portrait.jpg.
Áudio: Um arquivo de fala ou narração (por exemplo, MP3) hospedado em uma URL acessível, por exemplo https://speech.mp3.

Você pode usar storage de objetos, um servidor web ou qualquer hospedagem que forneça URLs diretas.

2. Execute o OmniHuman 1.5 para um avatar de alta qualidade

Use o app bytedance/omnihuman-1-5 para talking heads multi-personagem com melhor qualidade:

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

O CLI vai processar a requisição e imprimir informações de saída, normalmente incluindo uma URL onde você pode baixar o vídeo gerado.

3. Experimente modelos alternativos

Altere o app ID para explorar diferentes trade-offs.

OmniHuman 1.0 – avatar de personagem único

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – imagem fala com lipsync

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – geração de lipsync focada

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Escolha o app de acordo com a qualidade desejada e o estilo de saída. As opções exatas e os outputs são definidos pelos respectivos apps do inference.sh.

Integração do ai-avatar-video em fluxos de trabalho

Automação com Bash e CLI

ai-avatar-video foi projetado para uso em Bash (infsh *), portanto se encaixa bem em scripts como:

Geração em lote de vídeos a partir de uma lista de imagens e narrações
Jobs noturnos que produzem vídeos de marketing ou de produto atualizados
Etapas de CI/CD que renderizam vídeos de anúncio de release quando você marca uma nova versão

Exemplo de loop (conceitual):

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

Combinação com ferramentas de edição e publicação

A skill se concentra em gerar o clipe de talking head. Depois disso, você pode:

Levar o output para um editor de vídeo para inserir overlays, legendas ou B-roll
Enviar o clipe para ferramentas de agendamento de redes sociais ou automação de marketing
Usar skills complementares (se disponíveis no seu ambiente) para legendagem ou reformatar o vídeo

Arquivos e estrutura para analisar

Após instalar a skill a partir do repositório, referências úteis incluem:

SKILL.md – Descrição principal, comandos de quick start e visão geral de modelos
tools/video/ai-avatar-video/ – Localização no repositório, junto com outras ferramentas de vídeo

Revisar esses arquivos ajuda a alinhar sua implementação com os padrões de uso previstos.

FAQ

Quando devo usar ai-avatar-video em vez de ferramentas de avatar baseadas na web?

Use ai-avatar-video quando você quiser um controle CLI-first, scriptável sobre a geração de vídeos de avatar. Se você se sente à vontade com Bash e quer conectar a criação de avatares de IA a pipelines, ferramentas de build ou serviços de back-end, esta skill é uma ótima escolha.

Se você prefere desenhar tudo visualmente no navegador e nunca usar o terminal, um produto 100% web pode ser mais conveniente.

Preciso do CLI do inference.sh para usar o ai-avatar-video?

Sim. A skill é construída em torno do CLI infsh e dos apps do inference.sh. Você precisa:

Instalar o CLI seguindo as instruções oficiais.
Executar infsh login.
Usar comandos infsh app run ... conforme mostrado no quick start.

Sem o CLI, o ai-avatar-video não consegue chamar os modelos dos quais depende.

Com qual modelo devo começar?

Para a maioria dos casos de uso, comece com o OmniHuman 1.5 (bytedance/omnihuman-1-5), pois ele é indicado como multi-personagem e de melhor qualidade.

Você pode escolher alternativas quando:

OmniHuman 1.0: Você só precisa de um avatar mais simples, de personagem único.
Fabric 1.0: Você quer um estilo direto de “image talks com lipsync”.
PixVerse Lipsync: Seu foco principal é o comportamento de lipsync.

Faça testes com alguns clipes para ver qual app atende melhor às suas expectativas visuais e de timing.

Que tipo de imagem de entrada funciona melhor?

Embora os detalhes dependam dos apps subjacentes, em geral você obtém melhores resultados com:

Um retrato claro, de frente
Boa iluminação e traços faciais bem visíveis
Poucas obstruções (sem sombras pesadas ou objetos cobrindo o rosto)

Quanto mais a sua entrada se aproximar de uma foto de estúdio limpa, mais natural tende a ficar o movimento do avatar e o lipsync.

Posso automatizar a produção de vídeos para redes sociais ou marketing com esta skill?

Sim. ai-avatar-video é muito adequado para:

Gerar atualizações recorrentes de marketing com um apresentador de IA
Criar clipes de talking head para redes sociais a partir de áudios roteirizados
Integrar com outras ferramentas de CLI para redimensionar, legendar ou fazer upload

Você pode orquestrar todo o fluxo em Bash ou na sua ferramenta de automação preferida, usando esta skill como a etapa de geração de avatar.

ai-avatar-video é um editor de vídeo completo?

Não. ai-avatar-video é focado em gerar segmentos de avatar de IA / talking head a partir de imagem + áudio usando apps do inference.sh. Ele não substitui um editor não linear completo.

Para produções completas, trate o vídeo gerado como mais um asset na sua linha do tempo de edição e use suas ferramentas usuais de edição de vídeo para cortes, transições, títulos e efeitos.

Onde posso ver ou modificar a definição da skill?

A skill está no repositório inferen-sh/skills em:

tools/video/ai-avatar-video

Abra o SKILL.md para ver a descrição principal e o quick start. Você pode navegar pela árvore de diretórios do repositório para entender como esta skill se encaixa entre outras ferramentas de CLI para fluxos de vídeo.

Avaliações e comentários

Ainda não há avaliações

Compartilhe sua avaliação

Faça login para deixar uma nota e um comentário sobre esta skill.

0/10000

Avaliações mais recentes

Salvando...

Mais skills nesta categoria

ai-content-pipeline

by inferen-sh

Crie e execute pipelines de conteúdo em IA com múltiplas etapas, encadeando ferramentas de imagem, vídeo, áudio e texto via CLI do inference.sh. Use ai-content-pipeline para automatizar fluxos como: gerar uma imagem, animá-la em vídeo, adicionar trilha sonora ou narração e preparar conteúdo para YouTube, redes sociais e campanhas de marketing.

Workflow Automation

Favorites 0GitHub 0

agent-tools

by inferen-sh

agent-tools expõe o CLI do inference.sh dentro do seu agente para que você possa rodar mais de 150 apps de IA em um só lugar: geração de imagens, criação de vídeos, LLMs, busca, 3D e automação para Twitter. Ideal quando você precisa de um orquestrador de fluxos unificado para FLUX, Veo, Gemini, Grok, Claude, Seedance, OmniHuman, Tavily, Exa, OpenRouter e muito mais, sem gerenciar GPUs ou integrações complexas.

Workflow Automation

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

Gere efeitos sonoros com IA a partir de prompts de texto usando ElevenLabs via a CLI do inference.sh. Ideal para editores de vídeo, desenvolvedores de jogos, podcasters, cineastas e criadores de conteúdo que precisam de sound design rápido e livre de royalties. Oferece text-to-sound-effect, duração ajustável e controle de prompt para SFX cinematográficos, ambientes e prontos para games.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing permite dublar e traduzir automaticamente áudio ou vídeo para 29 idiomas usando a CLI do inference.sh, preservando as vozes originais dos locutores. Ideal para editores de vídeo, podcasters e equipes de localização que precisam de versões multilíngues rápidas e de alta qualidade de conteúdos já existentes.

Video Editing

Favorites 0GitHub 0

remotion-best-practices

by remotion-dev

Boas práticas práticas de Remotion para construir vídeos programáticos, animações e composições guiadas por áudio em React.

Video Editing

Favorites 0GitHub 2,4 mil

ai-video-generation

by inferen-sh

Gere vídeos com IA usando Google Veo, Seedance, Wan, Grok e mais de 40 modelos via a CLI do inference.sh. Suporta text-to-video, image-to-video, lipsync, animação de avatar, upscale de vídeo e foley sound para clipes de redes sociais, conteúdo de marketing, explainers e demos de produto.

Video Editing

Favorites 0GitHub 0

ai-marketing-videos

by inferen-sh

Criação de vídeos de marketing com IA via inference.sh CLI. Use ai-marketing-videos para gerar vídeos de anúncio, demonstrações de produto, explainers e criativos para Facebook, YouTube, Instagram e TikTok usando modelos como Veo, Seedance, Wan, FLUX e narração com Kokoro.

Video Editing

Favorites 0GitHub 0

ai-social-media-content

by inferen-sh

Gerador de conteúdo para redes sociais com IA para TikTok, Instagram, YouTube e X. Use a CLI inference.sh para criar vídeos, reels, shorts, thumbnails, imagens, legendas e hashtags prontos para cada plataforma com modelos como FLUX, Veo, Seedance, Wan, Kokoro TTS e Claude.

Social Media

Favorites 0GitHub 0

ai-avatar-video

Visão geral

O que é ai-avatar-video?

Principais recursos

Para quem é o ai-avatar-video?

Como funciona em alto nível

Como usar

Instalação e pré-requisitos

1. Instale a skill

2. Instale o CLI do inference.sh (infsh)

Fluxo básico: criar um vídeo de avatar de IA

1. Prepare seus assets de mídia

2. Execute o OmniHuman 1.5 para um avatar de alta qualidade

3. Experimente modelos alternativos

Integração do ai-avatar-video em fluxos de trabalho

Automação com Bash e CLI

Combinação com ferramentas de edição e publicação

Arquivos e estrutura para analisar

FAQ

Quando devo usar ai-avatar-video em vez de ferramentas de avatar baseadas na web?

Preciso do CLI do inference.sh para usar o ai-avatar-video?

Com qual modelo devo começar?

Que tipo de imagem de entrada funciona melhor?

Posso automatizar a produção de vídeos para redes sociais ou marketing com esta skill?

ai-avatar-video é um editor de vídeo completo?

Onde posso ver ou modificar a definição da skill?

Avaliações e comentários

2. Instale o CLI do inference.sh (`infsh`)