ai-video-generation
von inferen-shErzeuge KI-Videos mit Google Veo, Seedance, Wan, Grok und über 40 weiteren Modellen über die inference.sh CLI. Unterstützt Text-to-Video, Image-to-Video, Lipsync, Avatar-Animation, Video-Upscaling und Foley-Sound – ideal für Social-Media-Clips, Marketing-Content, Erklärvideos und Produktdemos.
Überblick
Was ist ai-video-generation?
Die ai-video-generation-Skill verbindet deinen Agenten mit der inference.sh CLI, damit er Videos mit Google Veo, Seedance, Wan, Grok und über 40 KI-Videomodellen generieren und bearbeiten kann. Sie ist für Workflows gedacht, in denen ein KI-Assistent ein CLI-Tool (über Bash) aufruft, um kurze und lange Video-Assets zu erstellen und zu verfeinern.
Die Skill deklariert aktuell Bash(infsh *) als erlaubtes Tool. Das bedeutet, Agenten können sicher infsh-Kommandos ausführen, um KI-Videogenerierung und verwandte Verarbeitungsschritte anzustoßen.
Zentrale Funktionen
Mit den zugrunde liegenden Modellen und der infsh CLI kann ai-video-generation Workflows unterstützen wie:
- Text-to-Video (T2V): Wandelt natürlichsprachliche Prompts in fertig gerenderte Videoclips.
- Image-to-Video (I2V): Animiert ein Standbild zu einer bewegten Sequenz.
- Lipsync & Avatare: Steuert Gesichter und Charaktere per Audio, um Talking-Head- oder Presenter-Content zu erzeugen (wo vom gewählten Modell unterstützt).
- Video-Upscaling: Verbessert Auflösung und Qualität von bestehendem Material.
- Foley und Audio: Fügt Soundtracks und Umgebungsgeräusche hinzu oder verbessert sie, sofern das Modell dies bereitstellt.
Verfügbare Modelle (laut Skill-Beschreibung) sind unter anderem:
- Google Veo 3.1 / Veo 3 / Veo 3 Fast
- Seedance 1.5 Pro
- Wan 2.5
- Grok Imagine Video
- OmniHuman, Fabric, HunyuanVideo
und viele weitere über den Apps-Katalog von inference.sh.
Für wen eignet sich diese Skill?
ai-video-generation passt gut, wenn du:
- Social-Media-Videos (TikTok, Instagram Reels, YouTube Shorts, X, LinkedIn) produzierst und auf AI-first-Visuals setzt.
- Marketing-Assets wie Produkt-Teaser, Launch-Videos oder Anzeigen-Varianten erstellst.
- Erklärvideos und Tutorials baust, bei denen Text-Prompts Szenen, UI-Flows oder Diagramme beschreiben, die in kurze Videos verwandelt werden.
- Schnell AI-Avatar-Presenter oder Talking-Head-Content prototypen möchtest.
- Einen agenten-gesteuerten Workflow willst, der programmatisch die
infshCLI aufruft, statt durch eine Web-Oberfläche zu klicken.
Weniger geeignet ist sie, wenn du:
- Einen rein GUI-basierten Editor mit Timeline und manueller Keyframe-Steuerung brauchst.
- On-Premises- oder Offline-Videogenerierung benötigst (inference.sh ist ein Cloud-Service).
- Echtzeit-Streaming oder Live-Video-Ausgabe brauchst.
Wie ai-video-generation in deinen Stack passt
Diese Skill gehört vor allem in Video-Editing- und Content-Marketing-Workflows. Du kannst sie kombinieren mit:
- Copywriting-Skills, die Skripte und Prompts schreiben.
- Image-Generation-Skills, die Frames oder Referenz-Standbilder erzeugen, die anschließend per Image-to-Video animiert werden.
- Postproduktionstools, die nach dem initialen AI-Render Branding, Untertitel und Distributions-Automatisierungen hinzufügen.
Nach der Installation kann dein Agent:
- Prompts und Storyboards entwerfen.
- Mit
infsh app run ...-Kommandos Videoclips rendern. - Den Prompt iterativ verfeinern, bis das Ergebnis deinem Creative Brief entspricht.
Nutzung
1. ai-video-generation Skill installieren
Um diese Skill in einer kompatiblen Agent-Umgebung mit der Skills CLI hinzuzufügen:
npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation
Damit wird die ai-video-generation Tool-Definition aus dem inferen-sh/skills Repository geladen und deinem Agenten zur Verfügung gestellt, sodass er die infsh CLI über Bash aufrufen kann.
Nach der Installation öffne die Datei SKILL.md im Verzeichnis tools/video/ai-video-generation, um die eingebettete Beschreibung und die von dieser Skill genutzten Links einzusehen.
2. inference.sh CLI installieren und einloggen
Die Skill hängt von der inference.sh CLI (infsh) ab. In SKILL.md im Repository findest du einen Link zu den Installationsanleitungen:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
Folge diesen Schritten, um die CLI auf deinem System zu installieren. Nach der Installation meldest du dich an:
infsh login
Stelle sicher, dass dies in einer normalen Shell funktioniert, bevor du dich auf den Agenten verlässt. Der Agent verwendet dasselbe infsh-Binary über Bash.
3. Quickstart: dein erstes KI-Video generieren
Der Quickstart der Skill demonstriert die Videogenerierung mit Google Veo 3.1 Fast:
# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'
In einem Agent-Workflow wird dein Assistent:
- Das JSON-
input-Payload erstellen (z. B. Prompt-Text, Dauer, Stiloptionen, sofern vom App unterstützt). - Das erlaubte Bash-Tool mit einem
infsh app run ...-Kommando aufrufen. - Die CLI-Antwort auswerten, um Video-URLs oder IDs für dich bereitzustellen.
Du kannst den Prompt an deinen Anwendungsfall anpassen, etwa:
- Produktdemo:
"a rotating 3D render of a sleek wireless headset on a dark gradient background" - Social Teaser:
"fast-paced montage of city nightlife, neon lights, and skyscrapers" - Erklärvideo:
"minimal flat-style animation showing a phone app sending payments across the world"
4. Modelle auswählen und wechseln
Die Datei SKILL.md dokumentiert mehrere Modellkategorien (zum Beispiel Text-to-Video). Jedes Modell hat eine App ID, die von infsh verwendet wird.
Für Text-to-Video gilt im Allgemeinen das Muster:
infsh app run <APP_ID> --input '{"prompt": "your description here"}'
Beispiele basierend auf der Modellauswahl der Skill:
-
Hohe Qualität mit Audio (wo unterstützt):
infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}' -
Beste Qualität mit Frame-Interpolation (Veo 3.1):
infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}' -
Schnelle Iterationen (Veo 3.1 Fast):
infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'
Für Image-to-Video-, Lipsync-, Avatar- oder Upscaling-Modelle verwendest du die modell-spezifischen App IDs aus dem Repository und passt die JSON-Felder im --input entsprechend an (z. B. image_url, video_url oder audio_url, je nach Anforderungen der gewählten App).
5. In Agent-Prompts und Workflows integrieren
Wenn du ai-video-generation in dein Agent-System einbindest:
- Beschreibe das Tool in System-Prompts: Weise den Agenten darauf hin, dass er Videos über
infsh app rungenerieren kann und dass verschiedene Modelloptionen (Veo, Seedance, Wan usw.) verfügbar sind. - Strukturierte Inputs fördern: Bitte den Agenten, explizite JSON-Inputs für die CLI zu erstellen – mit Feldern für Prompt, Dauer und Stil, sofern unterstützt.
- Mit lange laufenden Operationen rechnen: Videogenerierung dauert oft länger als Text-Completions. Entwirf deine UX entsprechend (Statusmeldungen, Polling usw.).
- Outputs weiterverarbeiten: Sobald die CLI URLs oder File-IDs zurückgibt, kann der Agent sie in Projektnotizen, Marketing-Briefs oder nachgelagerte Automationen einbauen.
6. Wann diese Skill nicht optimal ist
Eine andere Lösung ist sinnvoller, wenn:
- Du keine CLI im Zielsystem installieren oder nutzen kannst.
- Dein Workflow strikt auf On-Prem-Compute ohne externe APIs beschränkt ist.
- Du nur einfaches Trimmen oder Editieren von bestehendem Material brauchst und keine KI-Generierung.
In solchen Fällen sind reine Video-Editing-Skills oder Integrationen mit Desktop-NLEs passender als ein Cloud-AI-Generierungsstack.
FAQ
Was installiert ai-video-generation genau?
Die ai-video-generation-Skill installiert Metadaten und Tooling-Konfiguration aus dem inferen-sh/skills Repository, damit dein Agent weiß, wie er die infsh CLI für KI-Videogenerierung aufrufen kann. Sie installiert nicht das infsh-Binary oder Modelle selbst. Du musst die inference.sh CLI separat nach den in SKILL.md verlinkten Anweisungen installieren.
Brauche ich ein inference.sh Konto, um ai-video-generation zu nutzen?
Ja. Der Quickstart setzt infsh login voraus, wofür gültige Zugangsdaten für inference.sh erforderlich sind. Ohne Konto und Login schlagen die von der Skill ausgelösten infsh app run ...-Kommandos fehl.
Welche KI-Videomodelle kann ich mit dieser Skill nutzen?
Die Skill-Beschreibung listet mehrere unterstützte Apps, darunter Google Veo 3.1, Veo 3, Veo 3 Fast, Seedance 1.5 Pro, Wan 2.5, Grok Imagine Video, OmniHuman, Fabric und HunyuanVideo sowie viele weitere Modelle, die über inference.sh verfügbar sind. Die genaue Liste und ihre Parameter werden im inference.sh-Katalog gepflegt und können sich über die Zeit ändern.
Kann ich Image-to-Video und Lipsync nutzen oder nur Text-to-Video?
Laut Skill-Beschreibung unterstützt ai-video-generation Text-to-Video, Image-to-Video, Lipsync, Avatar-Animation, Video-Upscaling und Foley-Sound, sofern du passende Modelle verwendest, die diese Funktionen über infsh bereitstellen. Prüfe die jeweilige App-Dokumentation auf inference.sh für die erforderlichen Inputs (z. B. Image-, Audio- oder Video-URLs).
Wie steuere ich Videolänge, Seitenverhältnis oder Stil?
Die konkreten Steuerparameter hängen von der API-Oberfläche des gewählten Modells innerhalb von inference.sh ab. Die Skill selbst konzentriert sich darauf, die CLI an deinen Agent anzubinden, ohne ein einheitliches Schema zu erzwingen. Um Dauer, Seitenverhältnis oder Stil zu steuern, übergibst du die Felder, die von der verwendeten App ID im --input JSON unterstützt werden. Konsultiere für jedes Modell die inference.sh-App-Dokumentation für die aktuell verfügbaren Optionen.
Wo werden die generierten Videos gespeichert?
Die Skill nutzt die inference.sh CLI, die Informationen wie Ergebnis-URLs oder IDs zurückgibt. Speicherort und Aufbewahrung werden von inference.sh verwaltet, nicht von der Skill selbst. Typischerweise erhältst du einen Link oder Verweis, den du herunterladen, in ein CMS einbetten oder an weitere Tools weiterreichen kannst.
Kann ich ai-video-generation in CI/CD oder Headless-Umgebungen ausführen?
Ja, sofern die Umgebung die infsh CLI installieren und authentifizieren kann und deine Agent-Runtime Bash-Kommandos ausführen darf. So kannst du etwa die Massenproduktion von Marketingvideos, Social-Content-Varianten oder automatisierten Preview-Clips als Teil einer Pipeline skripten.
Ist ai-video-generation eine gute Wahl für klassisches Video-Editing?
Nutze ai-video-generation, wenn du in erster Linie KI-generierte oder KI-transformierte Videos willst. Für fein granulare Bearbeitung von bestehendem Material (Mehrspur-Timelines, manuelle Schnitte, komplexe Übergänge) brauchst du weiterhin einen klassischen Videoeditor. Du kannst diese Skill aber mit traditionellem Editing kombinieren, indem du Basismaterial per KI erzeugst und anschließend in deinem NLE verfeinerst.
Wie aktualisiere oder entferne ich die Skill später?
Installation und Entfernung verwaltest du mit derselben Skills CLI, mit der du sie hinzugefügt hast. Führe den entsprechenden skills-Befehl aus (z. B. einen Remove- oder Update-Subcommand, falls von deiner Umgebung unterstützt). Das Entfernen der Skill deinstalliert nicht die infsh CLI; es trennt lediglich die ai-video-generation-Integration von deinem Agenten.
