I

ai-avatar-video

作者 inferen-sh

使用 inference.sh CLI,根据图片和音频生成 AI 虚拟人和说话头像视频。ai-avatar-video 封装了 OmniHuman、Fabric 和 PixVerse Lipsync 等应用,用于打造音频驱动的虚拟人、唇形同步视频和虚拟主持人,非常适合营销、讲解视频和社交内容工作流。

Stars0
收藏0
评论0
收录时间2026年3月27日
分类视频编辑
安装命令
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
概览

概览

什么是 ai-avatar-video?

ai-avatar-video 是一个以 CLI 为中心的技能,用于在 inference.sh 平台上创建 AI avatar 和 talking head 视频。你可以将一张图片和一段音频发送到预构建的视频应用(OmniHuman、Fabric、PixVerse Lipsync),并获取渲染好的视频,让虚拟人根据你的音频开口说话并完成唇形同步。

这个技能专为基于 Bash 的工作流设计,底层依赖 infsh CLI。

主要能力

  • 从单张头像图片生成 AI talking head
  • 音频驱动的虚拟人:将配音 MP3/其他支持的音频映射到数字人
  • 使用专用唇形同步模型生成 lipsync videos
  • 用于讲解、产品演示或公告的 虚拟主持人 / AI 主讲人
  • 通过 inference.sh apps 选择不同 模型
    • OmniHuman 1.5 – 多角色,更高质量
    • OmniHuman 1.0 – 单角色 avatar
    • Fabric 1.0 – “image talks” 风格 lipsync
    • PixVerse Lipsync – 专注唇形同步生成

谁适合使用 ai-avatar-video?

如果你符合以下场景,ai-avatar-video 会非常适合:

  • 制作 营销视频、短宣传片或 社交媒体内容
  • 需要 AI 代言人 / 虚拟主持人 片段,而不想专门请真人出镜
  • 想从静态图片快速尝试 digital humans 或虚拟 IP
  • 喜欢通过 CLI 和自动化(Bash、脚本、CI 流水线)而不是纯手动网页工具来完成工作

以下需求则不太适合:

  • 需要完整视频编辑器(时间线、特效、多轨编辑)
  • 要求完全离线、不能调用外部 API
  • 只想要 GUI 可视化工具,而不想用命令行

工作原理一览

  1. 安装并登录 infsh CLI。
  2. 选择一个模型(例如 bytedance/omnihuman-1-5)。
  3. 在 JSON 中提供 image_urlaudio_url
  4. 运行 infsh app run ... 并下载生成的视频。

ai-avatar-video 专注于 视频生成这一步,可以嵌入到更大的自动化或后期制作流水线中使用。

使用指南

安装与前置条件

1. 安装技能

使用 skills CLI 将此技能添加到你的环境中:

npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video

这会从 inferen-sh/skills 仓库的 tools/video/ai-avatar-video 路径拉取 ai-avatar-video 的技能定义。

2. 安装 inference.sh CLI(infsh

ai-avatar-video 假定你已经在 shell 中安装并可使用 infsh CLI。请按照官方说明进行安装:

  • CLI 安装指南:https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md

安装完成后,先登录:

infsh login

按照提示完成身份验证,之后 CLI 才能调用 inference.sh apps。

基本流程:创建一段 AI avatar 视频

1. 准备媒体素材

  • 图片:一张清晰的正面头像图片,并托管在可访问的 URL 上,例如 https://portrait.jpg
  • 音频:一段语音或配音文件(如 MP3),托管在可访问的 URL 上,例如 https://speech.mp3

你可以使用对象存储、Web 服务器或任何能提供直接 URL 的托管方式。

2. 使用 OmniHuman 1.5 生成高质量虚拟人

使用 bytedance/omnihuman-1-5 app 来生成多角色、较高质量的 talking head:

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

CLI 会处理请求并输出结果信息,通常包括一个可下载生成视频的 URL。

3. 试用其他模型

切换 app ID,可以探索不同效果与取舍。

OmniHuman 1.0 – 单角色 avatar

infsh app run bytedance/omnihuman-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Fabric 1.0 – image talks lipsync 风格

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

PixVerse Lipsync – 专注唇形同步生成

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

可根据所需画质和风格选择对应 app。具体可用选项和输出格式以各自的 inference.sh app 定义为准。

将 ai-avatar-video 集成进工作流

Bash 与 CLI 自动化

ai-avatar-video 专为 *Bash(infsh 使用场景设计,非常适合写入脚本中:

  • 从一组图片和配音批量生成视频
  • 夜间定时任务,自动生成最新的营销或产品视频
  • 在 CI/CD 流水线中,当你打 tag 时自动渲染版本发布公告视频

示例循环(概念性示例):

while read image audio; do
  infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt

结合编辑与发布工具

该技能侧重生成 talking-head 片段,之后你可以:

  • 将输出导入视频编辑器,叠加字幕、贴片或 B-roll
  • 将片段接入社交媒体排期工具或营销自动化流程
  • 搭配环境中其他技能(如有)进行字幕生成、格式转换等

安装后可查看的文件与结构

从仓库安装技能后,以下文件/路径有参考价值:

  • SKILL.md – 核心说明、快速上手命令和模型概览
  • tools/video/ai-avatar-video/ – 在仓库中的位置,可结合其他视频工具一起理解

阅读这些文件有助于你将实现方式与预期使用模式对齐。

常见问题(FAQ)

什么时候应该用 ai-avatar-video,而不是网页端的 avatar 工具?

当你需要 以 CLI 为主、可脚本化控制 avatar 视频生成时,就适合使用 ai-avatar-video。如果你熟悉 Bash,希望把 AI avatar 生成接入流水线、构建工具或后端服务,这个技能会非常合适。

如果你更喜欢在浏览器中可视化设计,完全不想使用终端命令,那么纯网页产品可能更顺手。

使用 ai-avatar-video 一定要安装 inference.sh CLI 吗?

是的。这个技能是围绕 infsh CLI 和底层的 inference.sh apps 构建的,你需要:

  1. 按官方说明安装 CLI。
  2. 运行 infsh login
  3. 按快速上手示例使用 infsh app run ... 命令。

没有 CLI,ai-avatar-video 就无法调用其依赖的模型。

我应该先从哪个模型开始?

在大多数场景下,推荐先使用 OmniHuman 1.5bytedance/omnihuman-1-5),因为它被标注为 多角色画质更好

你可以在以下情况选择其他模型:

  • OmniHuman 1.0:只需要简单的单角色 avatar。
  • Fabric 1.0:偏好直接的 “image talks with lipsync” 风格。
  • PixVerse Lipsync:主要关注唇形同步效果。

建议用几段不同内容多试几个 app,看看哪种在画面风格和时间同步上更符合预期。

什么样的输入图片效果最好?

具体要求取决于底层 app,但通常以下条件会带来更佳效果:

  • 清晰、正面 的人像照片
  • 良好的 光线,五官清晰可见
  • 避免遮挡(不要有严重阴影或遮挡面部的物体)

输入越接近干净的棚拍头像,虚拟人的动作和唇形看起来通常就越自然。

能用这个技能自动化生成社交媒体或营销视频吗?

可以。ai-avatar-video 非常适合:

  • 定期输出带 AI 主讲人的 营销更新视频
  • 用脚本音频生成 社交媒体 talking-head 短视频
  • 结合其他 CLI 工具完成尺寸调整、加字幕或上传

你可以用 Bash 或其他自动化工具编排整套流程,将此技能作为 avatar 生成环节嵌入其中。

ai-avatar-video 是完整的视频编辑器吗?

不是。ai-avatar-video 专注于使用 inference.sh apps 从图片 + 音频生成 AI avatar / talking-head 片段,并不能替代完整的非线性视频编辑器。

在完整项目中,可以把生成的视频当作时间线中的一个素材,剪辑、转场、片头片尾和特效等仍然用你熟悉的视频编辑工具完成。

我在哪里可以查看或修改技能定义?

该技能位于 inferen-sh/skills 仓库中的:

  • tools/video/ai-avatar-video

打开 SKILL.md 可以查看主要说明和快速上手示例。你也可以浏览仓库目录结构,了解这个技能如何与其它面向视频工作流的 CLI 工具配合使用。

评分与评论

暂无评分
分享你的评价
登录后即可为这个技能评分并发表评论。
G
0/10000
最新评论
保存中...