ai-avatar-video
作者 inferen-sh使用 inference.sh CLI,根据图片和音频生成 AI 虚拟人和说话头像视频。ai-avatar-video 封装了 OmniHuman、Fabric 和 PixVerse Lipsync 等应用,用于打造音频驱动的虚拟人、唇形同步视频和虚拟主持人,非常适合营销、讲解视频和社交内容工作流。
概览
什么是 ai-avatar-video?
ai-avatar-video 是一个以 CLI 为中心的技能,用于在 inference.sh 平台上创建 AI avatar 和 talking head 视频。你可以将一张图片和一段音频发送到预构建的视频应用(OmniHuman、Fabric、PixVerse Lipsync),并获取渲染好的视频,让虚拟人根据你的音频开口说话并完成唇形同步。
这个技能专为基于 Bash 的工作流设计,底层依赖 infsh CLI。
主要能力
- 从单张头像图片生成 AI talking head
- 音频驱动的虚拟人:将配音 MP3/其他支持的音频映射到数字人
- 使用专用唇形同步模型生成 lipsync videos
- 用于讲解、产品演示或公告的 虚拟主持人 / AI 主讲人
- 通过 inference.sh apps 选择不同 模型:
- OmniHuman 1.5 – 多角色,更高质量
- OmniHuman 1.0 – 单角色 avatar
- Fabric 1.0 – “image talks” 风格 lipsync
- PixVerse Lipsync – 专注唇形同步生成
谁适合使用 ai-avatar-video?
如果你符合以下场景,ai-avatar-video 会非常适合:
- 制作 营销视频、短宣传片或 社交媒体内容
- 需要 AI 代言人 / 虚拟主持人 片段,而不想专门请真人出镜
- 想从静态图片快速尝试 digital humans 或虚拟 IP
- 喜欢通过 CLI 和自动化(Bash、脚本、CI 流水线)而不是纯手动网页工具来完成工作
以下需求则不太适合:
- 需要完整视频编辑器(时间线、特效、多轨编辑)
- 要求完全离线、不能调用外部 API
- 只想要 GUI 可视化工具,而不想用命令行
工作原理一览
- 安装并登录
infshCLI。 - 选择一个模型(例如
bytedance/omnihuman-1-5)。 - 在 JSON 中提供
image_url和audio_url。 - 运行
infsh app run ...并下载生成的视频。
ai-avatar-video 专注于 视频生成这一步,可以嵌入到更大的自动化或后期制作流水线中使用。
使用指南
安装与前置条件
1. 安装技能
使用 skills CLI 将此技能添加到你的环境中:
npx skills add https://github.com/inferen-sh/skills --skill ai-avatar-video
这会从 inferen-sh/skills 仓库的 tools/video/ai-avatar-video 路径拉取 ai-avatar-video 的技能定义。
2. 安装 inference.sh CLI(infsh)
ai-avatar-video 假定你已经在 shell 中安装并可使用 infsh CLI。请按照官方说明进行安装:
- CLI 安装指南:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
安装完成后,先登录:
infsh login
按照提示完成身份验证,之后 CLI 才能调用 inference.sh apps。
基本流程:创建一段 AI avatar 视频
1. 准备媒体素材
- 图片:一张清晰的正面头像图片,并托管在可访问的 URL 上,例如
https://portrait.jpg。 - 音频:一段语音或配音文件(如 MP3),托管在可访问的 URL 上,例如
https://speech.mp3。
你可以使用对象存储、Web 服务器或任何能提供直接 URL 的托管方式。
2. 使用 OmniHuman 1.5 生成高质量虚拟人
使用 bytedance/omnihuman-1-5 app 来生成多角色、较高质量的 talking head:
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
CLI 会处理请求并输出结果信息,通常包括一个可下载生成视频的 URL。
3. 试用其他模型
切换 app ID,可以探索不同效果与取舍。
OmniHuman 1.0 – 单角色 avatar
infsh app run bytedance/omnihuman-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
Fabric 1.0 – image talks lipsync 风格
infsh app run falai/fabric-1-0 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
PixVerse Lipsync – 专注唇形同步生成
infsh app run falai/pixverse-lipsync --input '{
"image_url": "https://portrait.jpg",
"audio_url": "https://speech.mp3"
}'
可根据所需画质和风格选择对应 app。具体可用选项和输出格式以各自的 inference.sh app 定义为准。
将 ai-avatar-video 集成进工作流
Bash 与 CLI 自动化
ai-avatar-video 专为 *Bash(infsh ) 使用场景设计,非常适合写入脚本中:
- 从一组图片和配音批量生成视频
- 夜间定时任务,自动生成最新的营销或产品视频
- 在 CI/CD 流水线中,当你打 tag 时自动渲染版本发布公告视频
示例循环(概念性示例):
while read image audio; do
infsh app run bytedance/omnihuman-1-5 --input "{\"image_url\": \"$image\", \"audio_url\": \"$audio\"}"
done < avatar_jobs.txt
结合编辑与发布工具
该技能侧重生成 talking-head 片段,之后你可以:
- 将输出导入视频编辑器,叠加字幕、贴片或 B-roll
- 将片段接入社交媒体排期工具或营销自动化流程
- 搭配环境中其他技能(如有)进行字幕生成、格式转换等
安装后可查看的文件与结构
从仓库安装技能后,以下文件/路径有参考价值:
SKILL.md– 核心说明、快速上手命令和模型概览tools/video/ai-avatar-video/– 在仓库中的位置,可结合其他视频工具一起理解
阅读这些文件有助于你将实现方式与预期使用模式对齐。
常见问题(FAQ)
什么时候应该用 ai-avatar-video,而不是网页端的 avatar 工具?
当你需要 以 CLI 为主、可脚本化控制 avatar 视频生成时,就适合使用 ai-avatar-video。如果你熟悉 Bash,希望把 AI avatar 生成接入流水线、构建工具或后端服务,这个技能会非常合适。
如果你更喜欢在浏览器中可视化设计,完全不想使用终端命令,那么纯网页产品可能更顺手。
使用 ai-avatar-video 一定要安装 inference.sh CLI 吗?
是的。这个技能是围绕 infsh CLI 和底层的 inference.sh apps 构建的,你需要:
- 按官方说明安装 CLI。
- 运行
infsh login。 - 按快速上手示例使用
infsh app run ...命令。
没有 CLI,ai-avatar-video 就无法调用其依赖的模型。
我应该先从哪个模型开始?
在大多数场景下,推荐先使用 OmniHuman 1.5(bytedance/omnihuman-1-5),因为它被标注为 多角色 且 画质更好。
你可以在以下情况选择其他模型:
- OmniHuman 1.0:只需要简单的单角色 avatar。
- Fabric 1.0:偏好直接的 “image talks with lipsync” 风格。
- PixVerse Lipsync:主要关注唇形同步效果。
建议用几段不同内容多试几个 app,看看哪种在画面风格和时间同步上更符合预期。
什么样的输入图片效果最好?
具体要求取决于底层 app,但通常以下条件会带来更佳效果:
- 清晰、正面 的人像照片
- 良好的 光线,五官清晰可见
- 避免遮挡(不要有严重阴影或遮挡面部的物体)
输入越接近干净的棚拍头像,虚拟人的动作和唇形看起来通常就越自然。
能用这个技能自动化生成社交媒体或营销视频吗?
可以。ai-avatar-video 非常适合:
- 定期输出带 AI 主讲人的 营销更新视频
- 用脚本音频生成 社交媒体 talking-head 短视频
- 结合其他 CLI 工具完成尺寸调整、加字幕或上传
你可以用 Bash 或其他自动化工具编排整套流程,将此技能作为 avatar 生成环节嵌入其中。
ai-avatar-video 是完整的视频编辑器吗?
不是。ai-avatar-video 专注于使用 inference.sh apps 从图片 + 音频生成 AI avatar / talking-head 片段,并不能替代完整的非线性视频编辑器。
在完整项目中,可以把生成的视频当作时间线中的一个素材,剪辑、转场、片头片尾和特效等仍然用你熟悉的视频编辑工具完成。
我在哪里可以查看或修改技能定义?
该技能位于 inferen-sh/skills 仓库中的:
tools/video/ai-avatar-video
打开 SKILL.md 可以查看主要说明和快速上手示例。你也可以浏览仓库目录结构,了解这个技能如何与其它面向视频工作流的 CLI 工具配合使用。
