ai-video-generation

作者 inferen-sh

通过 inference.sh CLI，使用 Google Veo、Seedance、Wan、Grok 等 40+ 模型生成 AI 视频。支持文生视频、图生视频、唇形同步、虚拟人驱动、视频超分和拟音音效，适用于社交媒体短视频、营销素材、讲解视频和产品演示。

Stars0

收录时间2026年3月27日

分类视频编辑

安装命令

npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation

视频 Image Generation Marketing Social Media Cli Google Ai

概览

什么是 ai-video-generation？

ai-video-generation 技能将你的智能体连接到 inference.sh CLI，让它可以使用 Google Veo、Seedance、Wan、Grok 等 40+ AI 视频模型来生成和编辑视频。它专为这样的流程设计：AI 助手需要通过 Bash 调用 CLI 工具来创建和打磨长短视频素材。

该技能当前声明的可用工具是 Bash(infsh *)，这意味着智能体可以安全地运行 infsh 命令来触发 AI 视频生成以及相关的处理步骤。

主要能力

借助底层模型和 infsh CLI，ai-video-generation 可以支持如下工作流：

文生视频（T2V）：将自然语言提示转换为完整渲染的视频片段。
图生视频（I2V）：将一张静态图片动画化为连续画面。
唇形同步与虚拟人：用音频驱动人脸和角色，生成讲解员/主持人口型内容（前提是所选模型支持）。
视频超分与增强：提升现有素材的分辨率和画质。
拟音与音频：在模型支持的情况下，为视频添加或增强音乐与环境音效。

在技能描述中可用的模型包括：

Google Veo 3.1 / Veo 3 / Veo 3 Fast
Seedance 1.5 Pro
Wan 2.5
Grok Imagine Video
OmniHuman、Fabric、HunyuanVideo

以及更多可通过 inference.sh 应用目录使用的模型。

适合哪些人使用？

ai-video-generation 非常适合：

制作 社交媒体视频（TikTok、Instagram Reels、YouTube Shorts、X、LinkedIn），希望从一开始就采用 AI 视觉方案。
创建 营销素材，例如产品预告、发布视频和广告版本测试素材。
构建 讲解视频和教程，通过文字提示描述场景、界面流程或示意图，并转化为短视频。
需要快速打样 AI 虚拟人讲解 或说头类内容。
希望通过智能体自动调用 infsh CLI，而不是在网页界面中手动点击操作的团队。

在以下场景中，它可能并不适合：

你需要一个完全 GUI 化、带时间线和手动关键帧控制的剪辑器。
你必须在本地或离线环境中进行视频生成（inference.sh 为云端服务）。
你需要实时流式或直播输出的视频。

在你的技术栈中的定位

该技能主要适用于 视频制作/编辑 和 内容营销 工作流。你可以将它与以下能力组合使用：

负责撰写脚本和提示词的文案类技能。
用于生成画面或参考静帧、再通过图生视频进行动画化的图像生成技能。
在初次 AI 渲染后，为视频添加品牌元素、字幕，以及分发自动化的后期制作工具。

安装完成后，你的智能体可以：

起草提示词和分镜脚本。
使用 infsh app run ... 命令渲染视频片段。
不断迭代提示词，直到效果符合你的创意需求。

使用指南

1. 安装 ai-video-generation 技能

在兼容的智能体环境中，通过 Skills CLI 添加此技能：

npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation

上述命令会从 inferen-sh/skills 仓库中拉取 ai-video-generation 工具定义，并暴露给你的智能体，使其可以通过 Bash 调用 infsh CLI。

安装完成后，在 tools/video/ai-video-generation 目录下打开 SKILL.md 文件，查看此技能使用到的内嵌说明和链接。

2. 安装并登录 inference.sh CLI

该技能依赖 inference.sh CLI（infsh）。仓库中的 SKILL.md 文件中提供了安装说明链接：

https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

按照文档步骤在你的系统上安装 CLI。安装完成后，先进行身份验证：

infsh login

在依赖智能体之前，请先在普通 Shell 中确认该命令可以正常工作。智能体会通过 Bash 使用同一个 infsh 可执行文件。

3. 快速上手：生成你的第一个 AI 视频

技能的快速上手示例展示了如何使用 Google Veo 3.1 Fast 生成视频：

# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'

在一个基于智能体的工作流中，你的助手将会：

构造 JSON input 负载（例如提示词文本、时长、风格选项等，视具体 app 支持情况而定）。
使用被允许的 Bash 工具执行 infsh app run ... 命令。
解析 CLI 返回结果，将视频 URL 或 ID 呈现给你。

你可以根据自己的场景调整提示词，例如：

产品演示："a rotating 3D render of a sleek wireless headset on a dark gradient background"
社交预热视频："fast-paced montage of city nightlife, neon lights, and skyscrapers"
讲解视频："minimal flat-style animation showing a phone app sending payments across the world"

4. 选择并切换模型

SKILL.md 文件中记录了多个 模型类别（例如 Text-to-Video）。每个模型都有一个供 infsh 使用的 App ID。

对于文生视频，一般调用模式为：

infsh app run <APP_ID> --input '{"prompt": "your description here"}'

基于技能模型列表的示例：

追求高质量且在模型支持的情况下带音频：

infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}'

最高质量且支持插帧（Veo 3.1）：

infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}'

快速迭代（Veo 3.1 Fast）：

infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'

对于图生视频、唇形同步、虚拟人或超分模型，请使用仓库中记录的对应 App ID，并按需调整 --input JSON 字段（例如根据所选 app 要求加入 image_url、video_url 或 audio_url 等）。

5. 集成到智能体提示词和工作流

在将 ai-video-generation 接入你的智能体系统时，可以参考以下建议：

在 system prompt 中说明工具能力：告诉智能体它可以通过 infsh app run 生成视频，并说明可用模型（Veo、Seedance、Wan 等）。
鼓励使用结构化输入：要求智能体为 CLI 构造明确的 JSON 输入，包括 prompt、duration 和 style 等字段（如模型支持）。
预期长耗时操作：视频生成通常比文本补全更耗时。请在产品体验上做好设计（例如进度提示、轮询机制等）。
对输出做后处理：当 CLI 返回 URL 或文件 ID 后，智能体可以将其写入项目备注、营销简报或后续自动化步骤中。

6. 何时不适合使用此技能

在以下情况下，你可能需要考虑其他方案：

目标环境无法安装或使用 CLI。
工作流要求严格的本地计算，不允许访问外部 API。
你只需要对现有素材做基础剪辑（如裁剪、拼接），而不需要任何 AI 生成。

此类场景更适合使用纯视频剪辑技能，或与桌面 NLE 集成，而不是依赖云端 AI 生成栈。

常见问题（FAQ）

安装 ai-video-generation 实际会装些什么？

ai-video-generation 技能会从 inferen-sh/skills 仓库安装元数据和工具配置，让你的智能体知道如何调用 infsh CLI 进行 AI 视频生成。它本身不会安装 infsh 二进制程序或任何模型。你需要根据 SKILL.md 中的指引，单独安装 inference.sh CLI。

使用 ai-video-generation 是否需要 inference.sh 账号？

需要。快速上手示例中使用了 infsh login，该命令需要有效的 inference.sh 账号凭据。如果没有账号并完成登录，技能触发的 infsh app run ... 命令将无法执行成功。

使用这个技能可以访问哪些 AI 视频模型？

技能描述中列出了多个支持的应用，包括 Google Veo 3.1、Veo 3、Veo 3 Fast、Seedance 1.5 Pro、Wan 2.5、Grok Imagine Video、OmniHuman、Fabric 和 HunyuanVideo，以及通过 inference.sh 提供的更多模型。具体模型列表和参数以 inference.sh 目录为准，并可能随时间更新。

我能做图生视频和唇形同步吗，还是只能文生视频？

根据技能描述，只要你选择的 infsh 模型支持相关能力，ai-video-generation 可用于 文生视频、图生视频、唇形同步、虚拟人动画、视频超分 和 拟音音效。请查阅 inference.sh 上对应 app 的文档，了解所需输入（例如图片、音频或视频 URL 等）。

我该如何控制视频时长、宽高比或风格？

可控参数取决于你在 inference.sh 中所选模型的 API 能力。该技能的重点是把 CLI 接入智能体，而不是定义统一的参数结构。若要调整时长、宽高比或风格，请在 --input JSON 中传入所用 App ID 支持的字段。具体且最新的可用选项以各模型的 inference.sh app 文档为准。

生成的视频存储在哪里？

该技能通过 inference.sh CLI 工作，CLI 会返回结果 URL 或 ID 等信息。视频的存储位置和保留策略由 inference.sh 管理，而不是这个技能。通常你会拿到一个链接或引用，可用于下载、嵌入到 CMS，或输入到后续工具中继续处理。

我可以在 CI/CD 或无头环境中运行 ai-video-generation 吗？

可以，只要环境中能够安装并完成 infsh CLI 的身份验证，并且你的智能体运行时可以执行 Bash 命令。这样你就可以在流水线中脚本化批量营销视频生成、社交内容变体或自动预览片段。

ai-video-generation 适合传统视频剪辑吗？

当你主要需要 AI 生成或 AI 转换 视频时，使用 ai-video-generation 是比较合适的。如果你的需求是对现有素材进行精细化剪辑（多轨时间线、手动剪切、复杂转场等），仍然需要传统的视频编辑器。当然，你可以把这个技能与 NLE 结合：先用 AI 生成基础素材，再在 NLE 中精修。

之后如何更新或移除该技能？

你可以通过与安装时相同的 Skills CLI 管理该技能。运行相应的 skills 命令（例如环境支持的 remove 或 update 子命令）即可。移除技能不会卸载 infsh CLI，只是将 ai-video-generation 与智能体的集成从环境中解绑。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

elevenlabs-sound-effects

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，根据文本提示生成 AI 音效。非常适合需要快速、免版税声音设计的视频剪辑师、游戏开发者、播客作者、电影创作者和内容创作者。支持文本转音效、可调节时长，以及可控的提示词影响力，可用于电影级、氛围化和游戏就绪的 SFX。

音频编辑

收藏 0GitHub 0

ai-marketing-videos

作者 inferen-sh

通过 inference.sh CLI 创建 AI 驱动的营销视频。使用 ai-marketing-videos 为 Facebook、YouTube、Instagram 和 TikTok 生成宣传视频、产品演示、说明视频以及广告创意素材，支持 Veo、Seedance、Wan、FLUX 等视觉模型和 Kokoro 配音模型。

视频编辑

收藏 0GitHub 0

ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI，根据图片和音频生成 AI 虚拟人和说话头像视频。ai-avatar-video 封装了 OmniHuman、Fabric 和 PixVerse Lipsync 等应用，用于打造音频驱动的虚拟人、唇形同步视频和虚拟主持人，非常适合营销、讲解视频和社交内容工作流。

视频编辑

收藏 0GitHub 0

remotion-best-practices

作者 remotion-dev

面向 Remotion 的实用最佳实践，用 React 构建程序化视频、动画，以及音频驱动的合成场景。

视频编辑

收藏 0GitHub 2411

ai-content-pipeline

作者 inferen-sh

使用 inference.sh CLI 设计并运行多步骤 AI 内容生产流水线，把图片、视频、音频和文本工具串联起来。通过 ai-content-pipeline，你可以自动化内容工作流，例如：生成图片、将图片动画化成视频、添加音效或配音，并为 YouTube、社交媒体和营销活动批量准备素材。

工作流自动化

收藏 0GitHub 0

agent-tools

作者 inferen-sh

agent-tools 会在你的智能体中暴露 inference.sh CLI，让你可以在一个入口里调用 150+ 个 AI 应用：图片生成、视频创作、LLM、大模型搜索、3D，以及 Twitter 自动化等。适合希望用统一工作流来调用 FLUX、Veo、Gemini、Grok、Claude、Seedance、OmniHuman、Tavily、Exa、OpenRouter 等多种模型，又不想自己管理 GPU 或复杂集成的场景。

工作流自动化

收藏 0GitHub 0

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言，同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

视频编辑

收藏 0GitHub 0

ai-social-media-content

作者 inferen-sh

适用于 TikTok、Instagram、YouTube 和 X 的 AI 社交媒体内容生成器。结合 inference.sh CLI，可以用 FLUX、Veo、Seedance、Wan、Kokoro TTS 和 Claude 等模型，一键生成适配各平台的视频、reels、shorts、缩略图、图片、文案和标签。

社交媒体

收藏 0GitHub 0