ai-image-generation
作者 inferen-sh使用 inference.sh CLI 及 50+ 个模型生成 AI 图片,包括 FLUX Dev LoRA、FLUX.2 Klein LoRA、Gemini 3 Pro Image、Grok Imagine、Seedream 4.5、Reve 和 ImagineArt。支持文生图、图生图、局部修补(inpainting)、LoRA、图片编辑、超分辨率放大及文字渲染,适用于 AI 艺术创作、产品效果图、概念设计、社媒配图、营销视觉与插画等场景。
概览
什么是 ai-image-generation?
ai-image-generation 技能通过 inference.sh 命令行接口,将你的 agent 或 CLI 工作流连接到 50 多个 AI 图像模型。它专注于实用、可脚本化的图片生成,用于 AI 艺术、营销视觉、产品效果图、概念设计和社交媒体图像等场景。
在底层,这个技能依赖 infsh CLI 来调用预置的“apps”,例如 FLUX Dev LoRA、FLUX.2 Klein LoRA、Gemini 3 Pro Image、Grok Imagine、Seedream 4.5、Reve、ImagineArt,以及其他文生图和图片编辑模型。
核心能力
- Text-to-image(文生图):根据自然语言 prompt 生成图片。
- Image-to-image(图生图):基于现有图片生成新的变体。
- Inpainting 与编辑:只修改图片的特定区域,而无需整张重绘。
- LoRA 支持:使用基于 LoRA 的 FLUX 模型实现灵活的风格迁移与微调。
- Upscaling(超分辨率):提升已有图片的分辨率与清晰度。
- 文字渲染:生成带有清晰可读文字的图片,用于广告、Banner 和社媒配图。
谁适合使用这个技能?
如果你符合以下情况,ai-image-generation 会比较适合:
- 从事 营销或社交媒体运营,需要用命令行快速生成符合品牌风格的视觉素材。
- 搭建需要调用多种图像模型的 自动化或 agent 工作流。
- 是一名 开发者,偏好通过 CLI 进行类似 API 的调用,而不是依赖网页控制台。
- 需要一个可脚本化、可集成到 CI、定时任务或内容生产流水线中的 Midjourney / DALL·E 替代方案。
在以下情况下则可能不太适合:
- 只想使用纯图形界面工具,不希望接触终端。
- 需要完全自托管模型;此技能是围绕托管的 inference.sh 平台构建的。
模型覆盖范围(示例)
仓库的 SKILL.md 介绍了多个图像 app,包括但不限于:
- FLUX Dev LoRA(
falai/flux-dev-lora)——高质量输出,支持自定义风格。 - FLUX.2 Klein LoRA(
falai/flux-2-klein-lora)——速度更快、LoRA 友好的模型。 - Gemini 3 Pro Image ——基于 Google Gemini 的图像生成。
- Grok Imagine ——由 Grok 提供算力的图像生成。
- Seedream 4.5、Reve、ImagineArt ——更多偏创意和插画风格的模型。
所有这些都以 inference.sh apps 的形式暴露,你可以使用统一的 infsh app run ... 调用模式进行驱动。
使用指南
1. 前置条件
要高效使用 ai-image-generation,你需要:
- inference.sh 账号——前往 https://inference.sh 注册并获取凭证。
- inference.sh CLI(
infsh)——技能在底层通过infsh发起调用。 - 兼容 Bash 的环境——技能声明允许使用
Bash(infsh *),推荐在 Linux、macOS 或 Windows 的 WSL 上使用。
请按照仓库中的官方 CLI 安装说明进行设置:
- CLI 安装脚本:
https://raw.githubusercontent.com/inference-sh/skills/refs/heads/main/cli-install.md
至少需要在终端中能成功运行:
infsh --help
且无报错,再将该技能接入 agent。
2. 安装 ai-image-generation 技能
如果你使用的是读取本仓库的 Agent Skills 生态,一般通过下面的方式安装:
npx skills add https://github.com/inferen-sh/skills --skill ai-image-generation
这会从 tools/image/ai-image-generation 拉取 ai-image-generation 技能,并将其元数据和工具配置暴露给你的 agent 使用。
3. 登录 inference.sh
ai-image-generation 假定 infsh 已经完成认证登录。
infsh login
按终端或浏览器中的提示完成登录。一旦认证成功,后续的 infsh app run ... 调用就会使用你账号下的配额和计费。
4. 运行第一次文生图生成
SKILL.md 中的 Quick Start 演示了如何使用 FLUX Dev LoRA app 生成图片:
infsh app run falai/flux-dev-lora --input '{"prompt": "a cat astronaut in space"}'
这一调用模式是 ai-image-generation 的核心:
- 选择一个 App ID(例如
falai/flux-dev-lora)。 - 传入一个描述 prompt 和其他参数的 input JSON 负载。
- 读取 CLI 输出,其中通常包含生成图片的 URL 或文件引用。
在配置好该技能后,你的 agent 可以以编程方式构造并执行同样的 CLI 调用。
5. 在不同模型之间切换
这个技能不会把你锁定在某一个模型上,你可以根据任务选择合适的 inference.sh app:
- 追求高质量、风格化艺术效果:选用 FLUX Dev LoRA(
falai/flux-dev-lora)。 - 需要更快速度并保留 LoRA 支持:使用 FLUX.2 Klein LoRA(
falai/flux-2-klein-lora)。 - 希望基于 Gemini 的图像生成:选择 Gemini 3 Pro Image。
- 偏好 Grok 算力的视觉生成:使用 Grok Imagine。
- 通用营销与插画场景:尝试 Seedream 4.5、Reve 和 ImagineArt。
在实际使用中,你的命令只需要更换 App ID:
# 示例:使用 FLUX.2 Klein LoRA
infsh app run falai/flux-2-klein-lora --input '{"prompt": "product render of a modern smartwatch on a marble table"}'
6. 集成到 agents 与脚本
由于 ai-image-generation 是通过 Bash(infsh *) 驱动的,它非常适合用于:
- Agent 工作流:自动选择模型、生成图片,然后将图片 URL 返回给用户。
- Cron 定时任务:定期自动生成新的社媒配图或博客插图。
- CI 流水线:自动生成设计稿、产品截图或更新视觉资源。
在 agent 场景中,通常的步骤是:
- 加载
ai-image-generation的技能元数据(例如从SKILL.md)。 - 允许 agent 在需要生成图片时调用
infsh app run ...。 - 解析 CLI 输出,让 agent 能够引用生成的图片资源。
7. 使用图片编辑、局部修补和超分辨率
ai-image-generation 暴露了支持 image-to-image、inpainting、基于 LoRA 的风格迁移以及超分辨率的模型。尽管不同模型的输入参数各不相同,但基本流程类似:
- 提供一个 源图片(通常通过 inference.sh 支持的 URL 或文件引用)。
- 添加描述编辑内容的 prompts 或 masks。
- 使用与你需求匹配的 App ID(例如 inference.sh apps 列表中对应的 upscaler 或 inpainting 模型)。
由于这些细节是模型特定的,并托管在 inference.sh 上,建议在保持 CLI 调用模式不变的前提下,查阅各个 app 在 inference.sh 上的详细文档。
常见问题(FAQ)
安装 ai-image-generation 实际上会在本机装些什么?
ai-image-generation 不会在你的机器上安装任何模型。它只会安装元数据和配置,让你的 agent 能够安全地通过 infsh CLI 调用托管在 inference.sh 上的模型。所有重计算都在 inference.sh 平台上完成。
使用 ai-image-generation 一定要安装 inference.sh CLI 吗?
是的。该技能声明了 allowed-tools: Bash(infsh *),意味着所有操作都围绕 infsh 这个二进制工具展开。你必须先安装并完成 inference.sh CLI 的认证,技能才可以生成或编辑图片。
通过 ai-image-generation 可以访问哪些 AI 模型?
该技能设计用于连接 inference.sh 上 50 多个以图像为主的 apps。仓库中明确提到的包括:
- FLUX Dev LoRA
- FLUX.2 Klein LoRA
- Gemini 3 Pro Image
- Grok Imagine
- Seedream 4.5
- Reve
- ImagineArt
你也可以直接在 inference.sh 上浏览更多 apps,并通过相同的 infsh app run ... 接口进行调用。
我可以用 ai-image-generation 做社交媒体和营销配图吗?
可以。ai-image-generation 非常适合用来生成:
- 社交媒体贴文与广告创意图
- 博客头图和 Hero 图
- 产品效果图和促销视觉素材
- 支撑营销活动的快速概念图
由于整个流程基于 CLI,你可以自动化重复的内容生产任务,并把它们集成进现有的营销生产流水线。
如果我平时不用终端,ai-image-generation 适合我吗?
可能不太适合。ai-image-generation 专为 CLI 和 agent 场景优化。如果你更习惯拖拽操作或纯 Web 工具,GUI 类图片生成器可能更符合预期。不过,如果你愿意偶尔运行简单命令,或者让 agent 帮你抽象掉命令行细节,这个技能仍然可以发挥价值。
我可以自托管 ai-image-generation 使用的这些模型吗?
根据仓库中的信息,该技能仅记录了基于托管 inference.sh 平台的使用方式。它并未被设计成自托管解决方案,因此在规划时应默认使用 inference.sh 的基础设施和定价模式。
生成图片时遇到报错,应该如何排查?
如果通过 ai-image-generation 调用失败,可以按以下步骤排查:
- 在终端中直接运行对应的
infsh app run ...命令,检查是否存在认证或输入参数错误。 - 确认 CLI 已通过
infsh login完成登录。 - 在 inference.sh 文档中核对 App ID 和 input JSON 是否正确。
如果直接通过 CLI 调用可以成功,再根据这个调用的参数调整你的 agent 配置。
哪里可以看到更多使用示例?
ai-image-generation 目录下的 SKILL.md 包含一个 Quick Start 和可用模型列表。若想了解更深入、模型级的使用示例(如 prompt 写法、参数说明和高级选项),可以直接浏览各个 app 的页面及其在 https://inference.sh 上的文档。
