ai-video-generation
作者 inferen-sh通过 inference.sh CLI,使用 Google Veo、Seedance、Wan、Grok 等 40+ 模型生成 AI 视频。支持文生视频、图生视频、唇形同步、虚拟人驱动、视频超分和拟音音效,适用于社交媒体短视频、营销素材、讲解视频和产品演示。
概览
什么是 ai-video-generation?
ai-video-generation 技能将你的智能体连接到 inference.sh CLI,让它可以使用 Google Veo、Seedance、Wan、Grok 等 40+ AI 视频模型来生成和编辑视频。它专为这样的流程设计:AI 助手需要通过 Bash 调用 CLI 工具来创建和打磨长短视频素材。
该技能当前声明的可用工具是 Bash(infsh *),这意味着智能体可以安全地运行 infsh 命令来触发 AI 视频生成以及相关的处理步骤。
主要能力
借助底层模型和 infsh CLI,ai-video-generation 可以支持如下工作流:
- 文生视频(T2V):将自然语言提示转换为完整渲染的视频片段。
- 图生视频(I2V):将一张静态图片动画化为连续画面。
- 唇形同步与虚拟人:用音频驱动人脸和角色,生成讲解员/主持人口型内容(前提是所选模型支持)。
- 视频超分与增强:提升现有素材的分辨率和画质。
- 拟音与音频:在模型支持的情况下,为视频添加或增强音乐与环境音效。
在技能描述中可用的模型包括:
- Google Veo 3.1 / Veo 3 / Veo 3 Fast
- Seedance 1.5 Pro
- Wan 2.5
- Grok Imagine Video
- OmniHuman、Fabric、HunyuanVideo
以及更多可通过 inference.sh 应用目录使用的模型。
适合哪些人使用?
ai-video-generation 非常适合:
- 制作 社交媒体视频(TikTok、Instagram Reels、YouTube Shorts、X、LinkedIn),希望从一开始就采用 AI 视觉方案。
- 创建 营销素材,例如产品预告、发布视频和广告版本测试素材。
- 构建 讲解视频和教程,通过文字提示描述场景、界面流程或示意图,并转化为短视频。
- 需要快速打样 AI 虚拟人讲解 或说头类内容。
- 希望通过智能体自动调用
infshCLI,而不是在网页界面中手动点击操作的团队。
在以下场景中,它可能并不适合:
- 你需要一个完全 GUI 化、带时间线和手动关键帧控制的剪辑器。
- 你必须在本地或离线环境中进行视频生成(inference.sh 为云端服务)。
- 你需要实时流式或直播输出的视频。
在你的技术栈中的定位
该技能主要适用于 视频制作/编辑 和 内容营销 工作流。你可以将它与以下能力组合使用:
- 负责撰写脚本和提示词的文案类技能。
- 用于生成画面或参考静帧、再通过图生视频进行动画化的图像生成技能。
- 在初次 AI 渲染后,为视频添加品牌元素、字幕,以及分发自动化的后期制作工具。
安装完成后,你的智能体可以:
- 起草提示词和分镜脚本。
- 使用
infsh app run ...命令渲染视频片段。 - 不断迭代提示词,直到效果符合你的创意需求。
使用指南
1. 安装 ai-video-generation 技能
在兼容的智能体环境中,通过 Skills CLI 添加此技能:
npx skills add https://github.com/inferen-sh/skills --skill ai-video-generation
上述命令会从 inferen-sh/skills 仓库中拉取 ai-video-generation 工具定义,并暴露给你的智能体,使其可以通过 Bash 调用 infsh CLI。
安装完成后,在 tools/video/ai-video-generation 目录下打开 SKILL.md 文件,查看此技能使用到的内嵌说明和链接。
2. 安装并登录 inference.sh CLI
该技能依赖 inference.sh CLI(infsh)。仓库中的 SKILL.md 文件中提供了安装说明链接:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
按照文档步骤在你的系统上安装 CLI。安装完成后,先进行身份验证:
infsh login
在依赖智能体之前,请先在普通 Shell 中确认该命令可以正常工作。智能体会通过 Bash 使用同一个 infsh 可执行文件。
3. 快速上手:生成你的第一个 AI 视频
技能的快速上手示例展示了如何使用 Google Veo 3.1 Fast 生成视频:
# Generate a video with Veo
infsh app run google/veo-3-1-fast --input '{"prompt": "drone shot flying over a forest"}'
在一个基于智能体的工作流中,你的助手将会:
- 构造 JSON
input负载(例如提示词文本、时长、风格选项等,视具体 app 支持情况而定)。 - 使用被允许的 Bash 工具执行
infsh app run ...命令。 - 解析 CLI 返回结果,将视频 URL 或 ID 呈现给你。
你可以根据自己的场景调整提示词,例如:
- 产品演示:
"a rotating 3D render of a sleek wireless headset on a dark gradient background" - 社交预热视频:
"fast-paced montage of city nightlife, neon lights, and skyscrapers" - 讲解视频:
"minimal flat-style animation showing a phone app sending payments across the world"
4. 选择并切换模型
SKILL.md 文件中记录了多个 模型类别(例如 Text-to-Video)。每个模型都有一个供 infsh 使用的 App ID。
对于文生视频,一般调用模式为:
infsh app run <APP_ID> --input '{"prompt": "your description here"}'
基于技能模型列表的示例:
-
追求高质量且在模型支持的情况下带音频:
infsh app run google/veo-3 --input '{"prompt": "cinematic close-up of a chef plating gourmet food"}' -
最高质量且支持插帧(Veo 3.1):
infsh app run google/veo-3-1 --input '{"prompt": "slow motion shot of waves crashing at sunset"}' -
快速迭代(Veo 3.1 Fast):
infsh app run google/veo-3-1-fast --input '{"prompt": "energetic sports highlights reel"}'
对于图生视频、唇形同步、虚拟人或超分模型,请使用仓库中记录的对应 App ID,并按需调整 --input JSON 字段(例如根据所选 app 要求加入 image_url、video_url 或 audio_url 等)。
5. 集成到智能体提示词和工作流
在将 ai-video-generation 接入你的智能体系统时,可以参考以下建议:
- 在 system prompt 中说明工具能力:告诉智能体它可以通过
infsh app run生成视频,并说明可用模型(Veo、Seedance、Wan 等)。 - 鼓励使用结构化输入:要求智能体为 CLI 构造明确的 JSON 输入,包括 prompt、duration 和 style 等字段(如模型支持)。
- 预期长耗时操作:视频生成通常比文本补全更耗时。请在产品体验上做好设计(例如进度提示、轮询机制等)。
- 对输出做后处理:当 CLI 返回 URL 或文件 ID 后,智能体可以将其写入项目备注、营销简报或后续自动化步骤中。
6. 何时不适合使用此技能
在以下情况下,你可能需要考虑其他方案:
- 目标环境无法安装或使用 CLI。
- 工作流要求严格的本地计算,不允许访问外部 API。
- 你只需要对现有素材做基础剪辑(如裁剪、拼接),而不需要任何 AI 生成。
此类场景更适合使用纯视频剪辑技能,或与桌面 NLE 集成,而不是依赖云端 AI 生成栈。
常见问题(FAQ)
安装 ai-video-generation 实际会装些什么?
ai-video-generation 技能会从 inferen-sh/skills 仓库安装元数据和工具配置,让你的智能体知道如何调用 infsh CLI 进行 AI 视频生成。它本身 不会 安装 infsh 二进制程序或任何模型。你需要根据 SKILL.md 中的指引,单独安装 inference.sh CLI。
使用 ai-video-generation 是否需要 inference.sh 账号?
需要。快速上手示例中使用了 infsh login,该命令需要有效的 inference.sh 账号凭据。如果没有账号并完成登录,技能触发的 infsh app run ... 命令将无法执行成功。
使用这个技能可以访问哪些 AI 视频模型?
技能描述中列出了多个支持的应用,包括 Google Veo 3.1、Veo 3、Veo 3 Fast、Seedance 1.5 Pro、Wan 2.5、Grok Imagine Video、OmniHuman、Fabric 和 HunyuanVideo,以及通过 inference.sh 提供的更多模型。具体模型列表和参数以 inference.sh 目录为准,并可能随时间更新。
我能做图生视频和唇形同步吗,还是只能文生视频?
根据技能描述,只要你选择的 infsh 模型支持相关能力,ai-video-generation 可用于 文生视频、图生视频、唇形同步、虚拟人动画、视频超分 和 拟音音效。请查阅 inference.sh 上对应 app 的文档,了解所需输入(例如图片、音频或视频 URL 等)。
我该如何控制视频时长、宽高比或风格?
可控参数取决于你在 inference.sh 中所选模型的 API 能力。该技能的重点是把 CLI 接入智能体,而不是定义统一的参数结构。若要调整时长、宽高比或风格,请在 --input JSON 中传入所用 App ID 支持的字段。具体且最新的可用选项以各模型的 inference.sh app 文档为准。
生成的视频存储在哪里?
该技能通过 inference.sh CLI 工作,CLI 会返回结果 URL 或 ID 等信息。视频的存储位置和保留策略由 inference.sh 管理,而不是这个技能。通常你会拿到一个链接或引用,可用于下载、嵌入到 CMS,或输入到后续工具中继续处理。
我可以在 CI/CD 或无头环境中运行 ai-video-generation 吗?
可以,只要环境中能够安装并完成 infsh CLI 的身份验证,并且你的智能体运行时可以执行 Bash 命令。这样你就可以在流水线中脚本化批量营销视频生成、社交内容变体或自动预览片段。
ai-video-generation 适合传统视频剪辑吗?
当你主要需要 AI 生成或 AI 转换 视频时,使用 ai-video-generation 是比较合适的。如果你的需求是对现有素材进行精细化剪辑(多轨时间线、手动剪切、复杂转场等),仍然需要传统的视频编辑器。当然,你可以把这个技能与 NLE 结合:先用 AI 生成基础素材,再在 NLE 中精修。
之后如何更新或移除该技能?
你可以通过与安装时相同的 Skills CLI 管理该技能。运行相应的 skills 命令(例如环境支持的 remove 或 update 子命令)即可。移除技能不会卸载 infsh CLI,只是将 ai-video-generation 与智能体的集成从环境中解绑。
