ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI，根据图片和音频生成 AI 虚拟人和说话头像视频。ai-avatar-video 封装了 OmniHuman、Fabric 和 PixVerse Lipsync 等应用，用于打造音频驱动的虚拟人、唇形同步视频和虚拟主持人，非常适合营销、讲解视频和社交内容工作流。

Stars0

收录时间2026年3月27日

分类视频编辑

安装命令

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

视频音频 Marketing Social Media Automation Bash Cli

概览

什么是 ai-avatar-video？

ai-avatar-video 是一个以 CLI 为中心的技能，用于在 inference.sh 平台上创建 AI avatar 和 talking head 视频。你可以将一张图片和一段音频发送到预构建的视频应用（OmniHuman、Fabric、PixVerse Lipsync），并获取渲染好的视频，让虚拟人根据你的音频开口说话并完成唇形同步。

这个技能专为基于 Bash 的工作流设计，底层依赖 infsh CLI。

主要能力

从单张头像图片生成 AI talking head
音频驱动的虚拟人：将配音 MP3/其他支持的音频映射到数字人
使用专用唇形同步模型生成 lipsync videos
用于讲解、产品演示或公告的 虚拟主持人 / AI 主讲人
通过 inference.sh apps 选择不同模型：
- OmniHuman 1.5 – 多角色，更高质量
- OmniHuman 1.0 – 单角色 avatar
- Fabric 1.0 – “image talks” 风格 lipsync
- PixVerse Lipsync – 专注唇形同步生成

谁适合使用 ai-avatar-video？

如果你符合以下场景，ai-avatar-video 会非常适合：

制作 营销视频、短宣传片或 社交媒体内容
需要 AI 代言人 / 虚拟主持人 片段，而不想专门请真人出镜
想从静态图片快速尝试 digital humans 或虚拟 IP
喜欢通过 CLI 和自动化（Bash、脚本、CI 流水线）而不是纯手动网页工具来完成工作

以下需求则不太适合：

需要完整视频编辑器（时间线、特效、多轨编辑）
要求完全离线、不能调用外部 API
只想要 GUI 可视化工具，而不想用命令行

工作原理一览

安装并登录 infsh CLI。
选择一个模型（例如 bytedance/omnihuman-1-5）。
在 JSON 中提供 image_url 和 audio_url。
运行 infsh app run ... 并下载生成的视频。

ai-avatar-video 专注于 视频生成这一步，可以嵌入到更大的自动化或后期制作流水线中使用。

使用指南

安装与前置条件

1. 安装技能

使用 skills CLI 将此技能添加到你的环境中：

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

这会从 inferen-sh/skills 仓库的 tools/video/ai-avatar-video 路径拉取 ai-avatar-video 的技能定义。

2. 安装 inference.sh CLI（`infsh`）

ai-avatar-video 假定你已经在 shell 中安装并可使用 infsh CLI。请按照官方说明进行安装：

CLI 安装指南：https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

安装完成后，先登录：

infsh login

按照提示完成身份验证，之后 CLI 才能调用 inference.sh apps。

基本流程：创建一段 AI avatar 视频

1. 准备媒体素材

图片：一张清晰的正面头像图片，并托管在可访问的 URL 上，例如 https://portrait.jpg。
音频：一段语音或配音文件（如 MP3），托管在可访问的 URL 上，例如 https://speech.mp3。

你可以使用对象存储、Web 服务器或任何能提供直接 URL 的托管方式。

2. 使用 OmniHuman 1.5 生成高质量虚拟人

使用 bytedance/omnihuman-1-5 app 来生成多角色、较高质量的 talking head：

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

CLI 会处理请求并输出结果信息，通常包括一个可下载生成视频的 URL。

3. 试用其他模型

切换 app ID，可以探索不同效果与取舍。

OmniHuman 1.0 – 单角色 avatar

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – image talks lipsync 风格

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – 专注唇形同步生成

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

可根据所需画质和风格选择对应 app。具体可用选项和输出格式以各自的 inference.sh app 定义为准。

将 ai-avatar-video 集成进工作流

Bash 与 CLI 自动化

ai-avatar-video 专为 *Bash（infsh ） 使用场景设计，非常适合写入脚本中：

从一组图片和配音批量生成视频
夜间定时任务，自动生成最新的营销或产品视频
在 CI/CD 流水线中，当你打 tag 时自动渲染版本发布公告视频

示例循环（概念性示例）：

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

结合编辑与发布工具

该技能侧重生成 talking-head 片段，之后你可以：

将输出导入视频编辑器，叠加字幕、贴片或 B-roll
将片段接入社交媒体排期工具或营销自动化流程
搭配环境中其他技能（如有）进行字幕生成、格式转换等

安装后可查看的文件与结构

从仓库安装技能后，以下文件/路径有参考价值：

SKILL.md – 核心说明、快速上手命令和模型概览
tools/video/ai-avatar-video/ – 在仓库中的位置，可结合其他视频工具一起理解

阅读这些文件有助于你将实现方式与预期使用模式对齐。

常见问题（FAQ）

什么时候应该用 ai-avatar-video，而不是网页端的 avatar 工具？

当你需要 以 CLI 为主、可脚本化控制 avatar 视频生成时，就适合使用 ai-avatar-video。如果你熟悉 Bash，希望把 AI avatar 生成接入流水线、构建工具或后端服务，这个技能会非常合适。

如果你更喜欢在浏览器中可视化设计，完全不想使用终端命令，那么纯网页产品可能更顺手。

使用 ai-avatar-video 一定要安装 inference.sh CLI 吗？

是的。这个技能是围绕 infsh CLI 和底层的 inference.sh apps 构建的，你需要：

按官方说明安装 CLI。
运行 infsh login。
按快速上手示例使用 infsh app run ... 命令。

没有 CLI，ai-avatar-video 就无法调用其依赖的模型。

我应该先从哪个模型开始？

在大多数场景下，推荐先使用 OmniHuman 1.5（bytedance/omnihuman-1-5），因为它被标注为 多角色 且 画质更好。

你可以在以下情况选择其他模型：

OmniHuman 1.0：只需要简单的单角色 avatar。
Fabric 1.0：偏好直接的 “image talks with lipsync” 风格。
PixVerse Lipsync：主要关注唇形同步效果。

建议用几段不同内容多试几个 app，看看哪种在画面风格和时间同步上更符合预期。

什么样的输入图片效果最好？

具体要求取决于底层 app，但通常以下条件会带来更佳效果：

清晰、正面 的人像照片
良好的光线，五官清晰可见
避免遮挡（不要有严重阴影或遮挡面部的物体）

输入越接近干净的棚拍头像，虚拟人的动作和唇形看起来通常就越自然。

能用这个技能自动化生成社交媒体或营销视频吗？

可以。ai-avatar-video 非常适合：

定期输出带 AI 主讲人的 营销更新视频
用脚本音频生成 社交媒体 talking-head 短视频
结合其他 CLI 工具完成尺寸调整、加字幕或上传

你可以用 Bash 或其他自动化工具编排整套流程，将此技能作为 avatar 生成环节嵌入其中。

ai-avatar-video 是完整的视频编辑器吗？

不是。ai-avatar-video 专注于使用 inference.sh apps 从图片 + 音频生成 AI avatar / talking-head 片段，并不能替代完整的非线性视频编辑器。

在完整项目中，可以把生成的视频当作时间线中的一个素材，剪辑、转场、片头片尾和特效等仍然用你熟悉的视频编辑工具完成。

我在哪里可以查看或修改技能定义？

该技能位于 inferen-sh/skills 仓库中的：

tools/video/ai-avatar-video

打开 SKILL.md 可以查看主要说明和快速上手示例。你也可以浏览仓库目录结构，了解这个技能如何与其它面向视频工作流的 CLI 工具配合使用。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

ai-content-pipeline

作者 inferen-sh

使用 inference.sh CLI 设计并运行多步骤 AI 内容生产流水线，把图片、视频、音频和文本工具串联起来。通过 ai-content-pipeline，你可以自动化内容工作流，例如：生成图片、将图片动画化成视频、添加音效或配音，并为 YouTube、社交媒体和营销活动批量准备素材。

工作流自动化

收藏 0GitHub 0

agent-tools

作者 inferen-sh

agent-tools 会在你的智能体中暴露 inference.sh CLI，让你可以在一个入口里调用 150+ 个 AI 应用：图片生成、视频创作、LLM、大模型搜索、3D，以及 Twitter 自动化等。适合希望用统一工作流来调用 FLUX、Veo、Gemini、Grok、Claude、Seedance、OmniHuman、Tavily、Exa、OpenRouter 等多种模型，又不想自己管理 GPU 或复杂集成的场景。

工作流自动化

收藏 0GitHub 0

remotion-best-practices

作者 remotion-dev

面向 Remotion 的实用最佳实践，用 React 构建程序化视频、动画，以及音频驱动的合成场景。

视频编辑

收藏 0GitHub 2411

ai-video-generation

作者 inferen-sh

通过 inference.sh CLI，使用 Google Veo、Seedance、Wan、Grok 等 40+ 模型生成 AI 视频。支持文生视频、图生视频、唇形同步、虚拟人驱动、视频超分和拟音音效，适用于社交媒体短视频、营销素材、讲解视频和产品演示。

视频编辑

收藏 0GitHub 0

elevenlabs-dubbing

作者 inferen-sh

elevenlabs-dubbing 通过 inference.sh CLI 自动为音频或视频生成配音并翻译成 29 种语言，同时尽可能保留原说话人的声音特征。非常适合需要为既有内容快速生成高质量多语种版本的视频剪辑师、播客创作者和本地化团队。

视频编辑

收藏 0GitHub 0

elevenlabs-sound-effects

作者 inferen-sh

通过 inference.sh CLI 调用 ElevenLabs，根据文本提示生成 AI 音效。非常适合需要快速、免版税声音设计的视频剪辑师、游戏开发者、播客作者、电影创作者和内容创作者。支持文本转音效、可调节时长，以及可控的提示词影响力，可用于电影级、氛围化和游戏就绪的 SFX。

音频编辑

收藏 0GitHub 0

ai-social-media-content

作者 inferen-sh

适用于 TikTok、Instagram、YouTube 和 X 的 AI 社交媒体内容生成器。结合 inference.sh CLI，可以用 FLUX、Veo、Seedance、Wan、Kokoro TTS 和 Claude 等模型，一键生成适配各平台的视频、reels、shorts、缩略图、图片、文案和标签。

社交媒体

收藏 0GitHub 0

ai-marketing-videos

作者 inferen-sh

通过 inference.sh CLI 创建 AI 驱动的营销视频。使用 ai-marketing-videos 为 Facebook、YouTube、Instagram 和 TikTok 生成宣传视频、产品演示、说明视频以及广告创意素材，支持 Veo、Seedance、Wan、FLUX 等视觉模型和 Kokoro 配音模型。

视频编辑

收藏 0GitHub 0

ai-avatar-video

概览

什么是 ai-avatar-video？

主要能力

谁适合使用 ai-avatar-video？

工作原理一览

使用指南

安装与前置条件

1. 安装技能

2. 安装 inference.sh CLI（infsh）

基本流程：创建一段 AI avatar 视频

1. 准备媒体素材

2. 使用 OmniHuman 1.5 生成高质量虚拟人

3. 试用其他模型

将 ai-avatar-video 集成进工作流

Bash 与 CLI 自动化

结合编辑与发布工具

安装后可查看的文件与结构

常见问题（FAQ）

什么时候应该用 ai-avatar-video，而不是网页端的 avatar 工具？

使用 ai-avatar-video 一定要安装 inference.sh CLI 吗？

我应该先从哪个模型开始？

什么样的输入图片效果最好？

能用这个技能自动化生成社交媒体或营销视频吗？

ai-avatar-video 是完整的视频编辑器吗？

我在哪里可以查看或修改技能定义？

评分与评论

2. 安装 inference.sh CLI（`infsh`）