ai-avatar-video
von inferen-shErzeuge KI-Avatare und Talking-Head-Videos aus einem Bild und einem Audiotrack mit der inference.sh CLI. ai-avatar-video bündelt die Apps OmniHuman, Fabric und PixVerse Lipsync für audio-gesteuerte Avatare, Lipsync-Videos und virtuelle Presenter – ideal für Marketing, Erklärvideos und Social-Content-Workflows.
Überblick
Was ist ai-avatar-video?
ai-avatar-video ist ein CLI-orientiertes Skill für die Erstellung von KI-Avataren und Talking-Head-Videos mit der Plattform inference.sh. Du sendest ein Bild und eine Audiodatei an vorkonfigurierte Video-Apps (OmniHuman, Fabric, PixVerse Lipsync) und erhältst ein gerendertes Video zurück, in dem der Avatar spricht und lipsynct zu deinem Audio.
Das Skill ist für Bash-basierte Workflows ausgelegt und nutzt intern die infsh CLI.
Zentrale Funktionen
- AI Talking Head aus einem einzelnen Porträtbild
- Audio-gesteuerte Avatare: Voice-over-MP3/sonstige unterstützte Audios mit einem digitalen Menschen verknüpfen
- Lipsync-Videos mit dedizierten Lipsync-Modellen
- Virtuelle Presenter und AI Presenters für Erklärvideos, Produkt-Touren oder Ankündigungen
- Modellwahl über inference.sh Apps:
- OmniHuman 1.5 – mehrere Charaktere, höhere Qualität
- OmniHuman 1.0 – ein einzelner Avatar
- Fabric 1.0 – „image talks“-Lipsync
- PixVerse Lipsync – spezialisierte Lipsync-Generierung
Für wen ist ai-avatar-video geeignet?
ai-avatar-video passt gut, wenn du:
- Marketingvideos, kurze Promos oder Social-Media-Content produzierst
- KI-Sprecher:innen oder virtuelle Presenter brauchst, ohne reale Talente zu buchen
- Digitale Menschen oder virtuelle Influencer aus Standbildern prototypen möchtest
- CLI und Automatisierung (Bash, Scripting, CI-Pipelines) Web-Tools per Handbedienung vorziehst
Weniger geeignet ist es, wenn du:
- Einen vollständigen Video-Editor (Timeline, Effekte, Multitrack-Schnitt) benötigst
- Einen rein lokalen Workflow ohne externe API-Calls brauchst
- Eine reine GUI-Lösung statt Kommandozeilen-Tools bevorzugst
Funktionsweise im Überblick
infshCLI installieren und einloggen.- Ein Modell wählen (z. B.
bytedance/omnihuman-1-5). image_urlundaudio_urlals JSON angeben.infsh app run ...ausführen und das resultierende Video herunterladen.
ai-avatar-video konzentriert sich auf den Videogenerierungs-Schritt und lässt sich in größere Automatisierungs- oder Postproduktions-Pipelines einbetten.
Verwendung
Installation und Voraussetzungen
1. Skill installieren
Mit der Skills-CLI das Skill zu deiner Umgebung hinzufügen:
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
Damit wird die ai-avatar-video Skill-Definition aus dem Repository inferen-sh/skills unter tools/video/ai-avatar-video heruntergeladen.
2. inference.sh CLI (infsh) installieren
ai-avatar-video setzt voraus, dass die infsh CLI installiert und in deiner Shell verfügbar ist. Folge der offiziellen Anleitung:
- CLI-Installationsguide:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Nach der Installation einloggen:
infsh login
Du wirst durch den Authentifizierungsprozess geführt, damit die CLI inference.sh Apps aufrufen kann.
Basis-Workflow: ein KI-Avatar-Video erzeugen
1. Medien vorbereiten
- Bild: Ein klares, frontales Porträt, das unter einer erreichbaren URL liegt, z. B.
https://portrait.jpg. - Audio: Eine Sprach- oder Voice-over-Datei (z. B. MP3) unter einer erreichbaren URL, z. B.
https://speech.mp3.
Du kannst Object Storage, einen Webserver oder jede andere Hosting-Lösung nutzen, die direkte URLs bereitstellt.
2. OmniHuman 1.5 für einen hochwertigen Avatar einsetzen
Verwende die App bytedance/omnihuman-1-5 für mehrere Charaktere und bestmögliche Talking-Head-Qualität:
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Die CLI verarbeitet die Anfrage und gibt Ausgabedaten aus, in der Regel inklusive einer URL, unter der du das generierte Video herunterladen kannst.
3. Alternative Modelle ausprobieren
Wechsle die App-ID, um verschiedene Trade-offs zu testen.
OmniHuman 1.0 – Avatar mit einer Figur
infsh app run bytedance/omnihuman-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Fabric 1.0 – „image talks“ mit Lipsync
infsh app run falai/fabric-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
PixVerse Lipsync – fokussierte Lipsync-Generierung
infsh app run falai/pixverse-lipsync --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Wähle die App passend zu deinen Qualitätsanforderungen und dem gewünschten Stil. Die genauen Optionen und Ausgaben werden von den jeweiligen inference.sh Apps definiert.
ai-avatar-video in Workflows integrieren
Bash- und CLI-Automatisierung
ai-avatar-video ist für den Einsatz mit *Bash (infsh ) konzipiert und eignet sich daher gut für Skripte wie:
- Batch-Erzeugung von Videos aus einer Liste von Bildern und Voice-overs
- Nachtläufe, die aktualisierte Marketing- oder Produktvideos erzeugen
- CI/CD-Schritte, die Release-Announcement-Videos rendern, wenn du ein Release taggst
Beispielschleife (konzeptionell):
while read image audio; do
infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt
Kombination mit Editing- und Publishing-Tools
Das Skill konzentriert sich auf die Generierung des Talking-Head-Clips. Anschließend kannst du:
- Den Output in einen Video-Editor übernehmen für Overlays, Untertitel oder B-Roll
- Den Clip an Social-Media-Planungstools oder Marketing-Automatisierung übergeben
- Begleitende Skills (falls in deiner Umgebung verfügbar) für Untertitelung oder Reformatierung nutzen
Relevante Dateien und Struktur
Nach der Installation des Skills aus dem Repository sind u. a. folgende Referenzen hilfreich:
SKILL.md– Kerndokumentation, Quickstart-Kommandos und Modellübersichttools/video/ai-avatar-video/– Speicherort im Repo, im Kontext anderer Video-Tools
Das Durchsehen dieser Dateien hilft dir, deine Implementierung an die vorgesehenen Nutzungsmuster anzupassen.
FAQ
Wann sollte ich ai-avatar-video statt webbasierter Avatar-Tools verwenden?
Nutze ai-avatar-video, wenn du CLI-first, skriptbare Kontrolle über die Avatar-Videoerzeugung möchtest. Wenn du dich mit Bash wohlfühlst und KI-Avatar-Erstellung in Pipelines, Build-Tools oder Backend-Services integrieren willst, ist dieses Skill eine gute Wahl.
Wenn du lieber alles visuell im Browser designst und nie ein Terminal öffnen möchtest, ist ein rein webbasiertes Produkt vermutlich bequemer.
Brauche ich die inference.sh CLI für ai-avatar-video?
Ja. Das Skill ist rund um die infsh CLI und die darunterliegenden inference.sh Apps aufgebaut. Du musst:
- Die CLI nach der offiziellen Anleitung installieren.
infsh loginausführen.infsh app run ...Kommandos wie im Quickstart gezeigt verwenden.
Ohne die CLI kann ai-avatar-video die zugrunde liegenden Modelle nicht aufrufen.
Mit welchem Modell sollte ich starten?
Für die meisten Anwendungsfälle empfiehlt sich OmniHuman 1.5 (bytedance/omnihuman-1-5), da es als multi-character und best quality ausgewiesen ist.
Alternativen sind sinnvoll, wenn:
- OmniHuman 1.0: Du nur einen einfachen Avatar mit einer Figur brauchst.
- Fabric 1.0: Du einen direkten „image talks mit Lipsync“-Stil bevorzugst.
- PixVerse Lipsync: Dein Hauptfokus auf der Lipsync-Performance liegt.
Teste mehrere Clips mit unterschiedlichen Apps, um zu sehen, welche Variante am besten zu deinen visuellen und zeitlichen Erwartungen passt.
Welche Art von Eingabebild liefert die besten Ergebnisse?
Die Details hängen von den jeweiligen Apps ab, allgemein erreichst du bessere Resultate mit:
- Einem klaren, frontalen Porträt
- guter Ausleuchtung und gut erkennbaren Gesichtszügen
- möglichst wenig Verdeckung (keine starken Schatten oder verdeckende Objekte)
Je näher dein Input einem sauberen Studio-Headshot kommt, desto natürlicher wirken in der Regel Bewegung und Lipsync des Avatars.
Kann ich mit diesem Skill Social-Media- oder Marketingvideos automatisieren?
Ja. ai-avatar-video eignet sich gut für:
- Wiederkehrende Marketing-Updates mit einem KI-Presenter
- Social-Media-Talking-Head-Clips aus geskriptetem Audio
- Integration mit anderen CLI-Tools zum Resizing, Untertiteln oder Hochladen
Du kannst den gesamten Ablauf in Bash oder deinem bevorzugten Automatisierungs-Stack orchestrieren und dieses Skill als Avatar-Generierungs-Schritt verwenden.
Ist ai-avatar-video ein vollwertiger Video-Editor?
Nein. ai-avatar-video konzentriert sich auf die Generierung von KI-Avatar- / Talking-Head-Segmenten aus Bild + Audio mithilfe von inference.sh Apps. Es ersetzt keinen vollwertigen nichtlinearen Editor.
Für komplette Produktionen solltest du das generierte Video als einen Baustein in deiner Schnitt-Timeline betrachten und für Schnitt, Übergänge, Titel und Effekte deine üblichen Video-Editing-Tools einsetzen.
Wo kann ich die Skill-Definition einsehen oder anpassen?
Das Skill liegt im Repository inferen-sh/skills unter:
tools/video/ai-avatar-video
Öffne SKILL.md für die Hauptbeschreibung und den Quickstart. Du kannst die Verzeichnisstruktur im Repository durchsehen, um zu verstehen, wie dieses Skill im Kontext anderer CLI-Tools für Videoworkflows eingeordnet ist.
