ai-avatar-video

von inferen-sh

Erzeuge KI-Avatare und Talking-Head-Videos aus einem Bild und einem Audiotrack mit der inference.sh CLI. ai-avatar-video bündelt die Apps OmniHuman, Fabric und PixVerse Lipsync für audio-gesteuerte Avatare, Lipsync-Videos und virtuelle Presenter – ideal für Marketing, Erklärvideos und Social-Content-Workflows.

Stars0

Favoriten0

Kommentare0

KategorieVideo Editing

Installationsbefehl

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Video Audio Marketing Social Media Automation Bash Cli

Überblick

Was ist ai-avatar-video?

ai-avatar-video ist ein CLI-orientiertes Skill für die Erstellung von KI-Avataren und Talking-Head-Videos mit der Plattform inference.sh. Du sendest ein Bild und eine Audiodatei an vorkonfigurierte Video-Apps (OmniHuman, Fabric, PixVerse Lipsync) und erhältst ein gerendertes Video zurück, in dem der Avatar spricht und lipsynct zu deinem Audio.

Das Skill ist für Bash-basierte Workflows ausgelegt und nutzt intern die infsh CLI.

Zentrale Funktionen

AI Talking Head aus einem einzelnen Porträtbild
Audio-gesteuerte Avatare: Voice-over-MP3/sonstige unterstützte Audios mit einem digitalen Menschen verknüpfen
Lipsync-Videos mit dedizierten Lipsync-Modellen
Virtuelle Presenter und AI Presenters für Erklärvideos, Produkt-Touren oder Ankündigungen
Modellwahl über inference.sh Apps:
- OmniHuman 1.5 – mehrere Charaktere, höhere Qualität
- OmniHuman 1.0 – ein einzelner Avatar
- Fabric 1.0 – „image talks“-Lipsync
- PixVerse Lipsync – spezialisierte Lipsync-Generierung

Für wen ist ai-avatar-video geeignet?

ai-avatar-video passt gut, wenn du:

Marketingvideos, kurze Promos oder Social-Media-Content produzierst
KI-Sprecher:innen oder virtuelle Presenter brauchst, ohne reale Talente zu buchen
Digitale Menschen oder virtuelle Influencer aus Standbildern prototypen möchtest
CLI und Automatisierung (Bash, Scripting, CI-Pipelines) Web-Tools per Handbedienung vorziehst

Weniger geeignet ist es, wenn du:

Einen vollständigen Video-Editor (Timeline, Effekte, Multitrack-Schnitt) benötigst
Einen rein lokalen Workflow ohne externe API-Calls brauchst
Eine reine GUI-Lösung statt Kommandozeilen-Tools bevorzugst

Funktionsweise im Überblick

infsh CLI installieren und einloggen.
Ein Modell wählen (z. B. bytedance/omnihuman-1-5).
image_url und audio_url als JSON angeben.
infsh app run ... ausführen und das resultierende Video herunterladen.

ai-avatar-video konzentriert sich auf den Videogenerierungs-Schritt und lässt sich in größere Automatisierungs- oder Postproduktions-Pipelines einbetten.

Verwendung

Installation und Voraussetzungen

1. Skill installieren

Mit der Skills-CLI das Skill zu deiner Umgebung hinzufügen:

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

Damit wird die ai-avatar-video Skill-Definition aus dem Repository inferen-sh/skills unter tools/video/ai-avatar-video heruntergeladen.

2. inference.sh CLI (`infsh`) installieren

ai-avatar-video setzt voraus, dass die infsh CLI installiert und in deiner Shell verfügbar ist. Folge der offiziellen Anleitung:

CLI-Installationsguide: https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

Nach der Installation einloggen:

infsh login

Du wirst durch den Authentifizierungsprozess geführt, damit die CLI inference.sh Apps aufrufen kann.

Basis-Workflow: ein KI-Avatar-Video erzeugen

1. Medien vorbereiten

Bild: Ein klares, frontales Porträt, das unter einer erreichbaren URL liegt, z. B. https://portrait.jpg.
Audio: Eine Sprach- oder Voice-over-Datei (z. B. MP3) unter einer erreichbaren URL, z. B. https://speech.mp3.

Du kannst Object Storage, einen Webserver oder jede andere Hosting-Lösung nutzen, die direkte URLs bereitstellt.

2. OmniHuman 1.5 für einen hochwertigen Avatar einsetzen

Verwende die App bytedance/omnihuman-1-5 für mehrere Charaktere und bestmögliche Talking-Head-Qualität:

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Die CLI verarbeitet die Anfrage und gibt Ausgabedaten aus, in der Regel inklusive einer URL, unter der du das generierte Video herunterladen kannst.

3. Alternative Modelle ausprobieren

Wechsle die App-ID, um verschiedene Trade-offs zu testen.

OmniHuman 1.0 – Avatar mit einer Figur

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – „image talks“ mit Lipsync

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – fokussierte Lipsync-Generierung

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Wähle die App passend zu deinen Qualitätsanforderungen und dem gewünschten Stil. Die genauen Optionen und Ausgaben werden von den jeweiligen inference.sh Apps definiert.

ai-avatar-video in Workflows integrieren

Bash- und CLI-Automatisierung

ai-avatar-video ist für den Einsatz mit *Bash (infsh ) konzipiert und eignet sich daher gut für Skripte wie:

Batch-Erzeugung von Videos aus einer Liste von Bildern und Voice-overs
Nachtläufe, die aktualisierte Marketing- oder Produktvideos erzeugen
CI/CD-Schritte, die Release-Announcement-Videos rendern, wenn du ein Release taggst

Beispielschleife (konzeptionell):

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

Kombination mit Editing- und Publishing-Tools

Das Skill konzentriert sich auf die Generierung des Talking-Head-Clips. Anschließend kannst du:

Den Output in einen Video-Editor übernehmen für Overlays, Untertitel oder B-Roll
Den Clip an Social-Media-Planungstools oder Marketing-Automatisierung übergeben
Begleitende Skills (falls in deiner Umgebung verfügbar) für Untertitelung oder Reformatierung nutzen

Relevante Dateien und Struktur

Nach der Installation des Skills aus dem Repository sind u. a. folgende Referenzen hilfreich:

SKILL.md – Kerndokumentation, Quickstart-Kommandos und Modellübersicht
tools/video/ai-avatar-video/ – Speicherort im Repo, im Kontext anderer Video-Tools

Das Durchsehen dieser Dateien hilft dir, deine Implementierung an die vorgesehenen Nutzungsmuster anzupassen.

FAQ

Wann sollte ich ai-avatar-video statt webbasierter Avatar-Tools verwenden?

Nutze ai-avatar-video, wenn du CLI-first, skriptbare Kontrolle über die Avatar-Videoerzeugung möchtest. Wenn du dich mit Bash wohlfühlst und KI-Avatar-Erstellung in Pipelines, Build-Tools oder Backend-Services integrieren willst, ist dieses Skill eine gute Wahl.

Wenn du lieber alles visuell im Browser designst und nie ein Terminal öffnen möchtest, ist ein rein webbasiertes Produkt vermutlich bequemer.

Brauche ich die inference.sh CLI für ai-avatar-video?

Ja. Das Skill ist rund um die infsh CLI und die darunterliegenden inference.sh Apps aufgebaut. Du musst:

Die CLI nach der offiziellen Anleitung installieren.
infsh login ausführen.
infsh app run ... Kommandos wie im Quickstart gezeigt verwenden.

Ohne die CLI kann ai-avatar-video die zugrunde liegenden Modelle nicht aufrufen.

Mit welchem Modell sollte ich starten?

Für die meisten Anwendungsfälle empfiehlt sich OmniHuman 1.5 (bytedance/omnihuman-1-5), da es als multi-character und best quality ausgewiesen ist.

Alternativen sind sinnvoll, wenn:

OmniHuman 1.0: Du nur einen einfachen Avatar mit einer Figur brauchst.
Fabric 1.0: Du einen direkten „image talks mit Lipsync“-Stil bevorzugst.
PixVerse Lipsync: Dein Hauptfokus auf der Lipsync-Performance liegt.

Teste mehrere Clips mit unterschiedlichen Apps, um zu sehen, welche Variante am besten zu deinen visuellen und zeitlichen Erwartungen passt.

Welche Art von Eingabebild liefert die besten Ergebnisse?

Die Details hängen von den jeweiligen Apps ab, allgemein erreichst du bessere Resultate mit:

Einem klaren, frontalen Porträt
guter Ausleuchtung und gut erkennbaren Gesichtszügen
möglichst wenig Verdeckung (keine starken Schatten oder verdeckende Objekte)

Je näher dein Input einem sauberen Studio-Headshot kommt, desto natürlicher wirken in der Regel Bewegung und Lipsync des Avatars.

Ja. ai-avatar-video eignet sich gut für:

Wiederkehrende Marketing-Updates mit einem KI-Presenter
Social-Media-Talking-Head-Clips aus geskriptetem Audio
Integration mit anderen CLI-Tools zum Resizing, Untertiteln oder Hochladen

Du kannst den gesamten Ablauf in Bash oder deinem bevorzugten Automatisierungs-Stack orchestrieren und dieses Skill als Avatar-Generierungs-Schritt verwenden.

Ist ai-avatar-video ein vollwertiger Video-Editor?

Nein. ai-avatar-video konzentriert sich auf die Generierung von KI-Avatar- / Talking-Head-Segmenten aus Bild + Audio mithilfe von inference.sh Apps. Es ersetzt keinen vollwertigen nichtlinearen Editor.

Für komplette Produktionen solltest du das generierte Video als einen Baustein in deiner Schnitt-Timeline betrachten und für Schnitt, Übergänge, Titel und Effekte deine üblichen Video-Editing-Tools einsetzen.

Wo kann ich die Skill-Definition einsehen oder anpassen?

Das Skill liegt im Repository inferen-sh/skills unter:

tools/video/ai-avatar-video

Öffne SKILL.md für die Hauptbeschreibung und den Quickstart. Du kannst die Verzeichnisstruktur im Repository durchsehen, um zu verstehen, wie dieses Skill im Kontext anderer CLI-Tools für Videoworkflows eingeordnet ist.

Bewertungen & Rezensionen

Noch keine Bewertungen

Teile deine Rezension

Melde dich an, um für diesen Skill eine Bewertung und einen Kommentar zu hinterlassen.

0/10000

Neueste Rezensionen

Wird gespeichert...

Mehr Skills in dieser Kategorie

ai-social-media-content

by inferen-sh

KI-gestützter Social-Media-Content-Generator für TikTok, Instagram, YouTube und X. Verwende die inference.sh CLI, um mit Modellen wie FLUX, Veo, Seedance, Wan, Kokoro TTS und Claude plattformspezifische Videos, Reels, Shorts, Thumbnails, Bilder, Captions und Hashtags zu erstellen.

Social Media

Favorites 0GitHub 0

ai-marketing-videos

by inferen-sh

KI-gestützte Erstellung von Marketingvideos über die inference.sh CLI. Verwende ai-marketing-videos, um Promo-Videos, Produkt-Demos, Erklärvideos und Ad Creatives für Facebook, YouTube, Instagram und TikTok mit Modellen wie Veo, Seedance, Wan, FLUX und Kokoro Voiceover zu generieren.

Video Editing

Favorites 0GitHub 0

ai-video-generation

by inferen-sh

Erzeuge KI-Videos mit Google Veo, Seedance, Wan, Grok und über 40 weiteren Modellen über die inference.sh CLI. Unterstützt Text-to-Video, Image-to-Video, Lipsync, Avatar-Animation, Video-Upscaling und Foley-Sound – ideal für Social-Media-Clips, Marketing-Content, Erklärvideos und Produktdemos.

Video Editing

Favorites 0GitHub 0

remotion-best-practices

by remotion-dev

Praktische Remotion Best Practices für den Aufbau programmatischer Videos, Animationen und audiogesteuerter Kompositionen in React.

Video Editing

Favorites 0GitHub 2411

ai-content-pipeline

by inferen-sh

Entwerfen und betreiben Sie mehrstufige AI-Content-Pipelines, die Bild-, Video-, Audio- und Text-Tools über die inference.sh CLI miteinander verketten. Verwenden Sie ai-content-pipeline, um Workflows zu automatisieren wie: ein Bild generieren, zu einem Video animieren, Sound oder Voiceover hinzufügen und Inhalte für YouTube, Social Media und Marketing-Kampagnen aufbereiten.

Workflow Automation

Favorites 0GitHub 0

agent-tools

by inferen-sh

agent-tools bindet die inference.sh CLI direkt in deinen Agenten ein, sodass du über eine zentrale Schnittstelle mehr als 150 KI-Apps ausführen kannst: Bildgenerierung, Videoproduktion, LLMs, Suche, 3D und Twitter-Automatisierung. Ideal, wenn du einen einheitlichen Workflow-Runner für FLUX, Veo, Gemini, Grok, Claude, Seedance, OmniHuman, Tavily, Exa, OpenRouter und viele weitere brauchst, ohne selbst GPUs oder komplexe Integrationen zu managen.

Workflow Automation

Favorites 0GitHub 0

elevenlabs-sound-effects

by inferen-sh

Erzeuge KI-Soundeffekte aus Text-Prompts mit ElevenLabs über die inference.sh CLI. Ideal für Video-Editoren, Game-Developer, Podcaster, Filmschaffende und Content Creator, die schnelles, lizenzfreies Sounddesign benötigen. Unterstützt Text-to-Sound-Effect, anpassbare Dauer und Prompt-Steuerung für cinematische, atmosphärische und game-taugliche SFX.

Audio Editing

Favorites 0GitHub 0

elevenlabs-dubbing

by inferen-sh

elevenlabs-dubbing ermöglicht es dir, Audio- oder Videoinhalte automatisch in 29 Sprachen zu vertonen und zu übersetzen – direkt über die inference.sh CLI – und dabei die Stimmen der ursprünglichen Sprecher zu erhalten. Ideal für Video-Editoren, Podcaster und Lokalisierungsteams, die schnell hochwertige, mehrsprachige Versionen bestehender Inhalte benötigen.

Video Editing

Favorites 0GitHub 0

ai-avatar-video

Überblick

Was ist ai-avatar-video?

Zentrale Funktionen

Für wen ist ai-avatar-video geeignet?

Funktionsweise im Überblick

Verwendung

Installation und Voraussetzungen

1. Skill installieren

2. inference.sh CLI (infsh) installieren

Basis-Workflow: ein KI-Avatar-Video erzeugen

1. Medien vorbereiten

2. OmniHuman 1.5 für einen hochwertigen Avatar einsetzen

3. Alternative Modelle ausprobieren

ai-avatar-video in Workflows integrieren

Bash- und CLI-Automatisierung

Kombination mit Editing- und Publishing-Tools

Relevante Dateien und Struktur

FAQ

Wann sollte ich ai-avatar-video statt webbasierter Avatar-Tools verwenden?

Brauche ich die inference.sh CLI für ai-avatar-video?

Mit welchem Modell sollte ich starten?

Welche Art von Eingabebild liefert die besten Ergebnisse?

Kann ich mit diesem Skill Social-Media- oder Marketingvideos automatisieren?

Ist ai-avatar-video ein vollwertiger Video-Editor?

Wo kann ich die Skill-Definition einsehen oder anpassen?

Bewertungen & Rezensionen

2. inference.sh CLI (`infsh`) installieren