videoagent-image-studio

作者 pexoai

videoagent-image-studio 是一款面向 Node agent 的统一图像生成技能。它为 Midjourney、Flux、Ideogram、Recraft、SDXL 等模型提供单一 CLI 工作流，并具备基于代理的配置、模型选择指引和适合自动化的标准化输出。

Stars456

收录时间2026年3月31日

分类图像生成

安装命令

npx skills add pexoai/pexo-skills --skill videoagent-image-studio

编辑评分

该技能评分为 78/100，作为目录条目表现扎实：仓库为 agent 提供了清晰的触发场景、具体的图像生成工作流，以及超越通用提示词的实际执行能力。对于希望通过单一 CLI 入口调用多种图像模型的目录用户来说，它值得考虑安装；但也应注意其“零配置”承诺与仓库更广泛文档之间存在一定不一致。

78/100

亮点

触发条件明确：`SKILL.md` 明确说明，当用户要求生成或创作图片、艺术作品、logo、图标或插画时应使用该技能。
操作指引完善：该技能包含模型选择表、提示词增强步骤，以及可实际执行的 Node CLI（`tools/generate.js`），并记录了参数说明与统一输出处理方式。
对 agent 有实质加成：它集中接入 Midjourney、Flux、Ideogram、Recraft、SDXL 和 Nano Banana 等多个模型，同时在内部处理 Midjourney 的轮询流程。

注意点

可信度信号存在混杂：`SKILL.md` 和 `package.json` 强调通过 hosted proxy 实现免 key 使用，但 `CONTRIBUTING.md` 和 `.env.example` 又提到本地开发需要 provider API keys。
采用门槛说明仍属中等：`SKILL.md` 中没有明确的安装命令，补充支持材料也仅限于单个脚本，缺少更多参考文档或资源。

视频 Cli Node.js JavaScript Vercel OpenClaw

概览

videoagent-image-studio skill 概览

videoagent-image-studio 能做什么

videoagent-image-studio skill 是一个面向 agent 的统一图像生成封装层，适合那些需要生成图片、但不想手动对接和维护多个 provider API 的场景。它提供了一套统一的 CLI 工作流，可将请求路由到 midjourney、flux-pro、flux-dev、flux-schnell、ideogram、recraft、sdxl 和 nano-banana 等模型，同时返回一致的结果结构。

哪些人适合安装

如果你经常需要根据对话式请求生成图片，并希望比直接集成各家 provider 更省事，那么这个 skill 很合适。尤其适用于 agent 开发者、内容团队，以及需要把图像生成接入自动化流程的人：相比为不同模型分别配置环境，一条可复用命令更容易落地。

它真正解决的是什么问题

大多数用户真正需要的并不是“一个图片模型”，而是把“做一张电影感产品图”或“生成一个文字清晰的 logo”这类模糊需求，稳定地转成可执行生成步骤的方法。videoagent-image-studio 的价值就在于把 prompt 优化建议、模型选择建议和统一执行路径整合到一起。

为什么它值得关注

它的核心差异并不只是“能调用多个模型”。videoagent-image-studio 的实际价值在于它：

通过一次调用即可访问多个图像模型
把 Midjourney 风格的异步复杂度封装在脚本内部
统一输出格式，方便下游自动化处理
降低安装门槛，因为可以直接使用 hosted proxy，而不必自带 provider keys

安装前最需要判断的事

安装决策的关键，在于你是否更看重易用性，而不是对底层 provider 的直接控制。如果你想要一个对 agent 友好、配置尽量少的图像生成层，它非常合适；但如果你需要深度的 provider 原生选项、自定义安全策略，或更复杂的批量编排能力，后续可能会觉得这个抽象层不够用。

适合用于 Image Generation 的场景

当需求明确是“生成视觉内容”时，就适合使用 videoagent-image-studio for Image Generation：例如插画、海报、logo、产品渲染图、社媒配图、概念艺术、动漫场景或风格化营销素材。相对来说，它不太适合重度图片编辑流水线，或依赖 mask、合成、复杂后处理的多模态工作流。

如何使用 videoagent-image-studio skill

安装环境与运行要求

仓库里明确标注了 node >=18，并提供了单一可执行入口 tools/generate.js。在多数情况下，videoagent-image-studio install 的判断很直接：只要你的环境能跑 Node CLI 工具，就可以很快开始测试这个 skill。

建议先看这些文件：

SKILL.md
tools/generate.js
.env.example
CHANGELOG.md

它们会直接告诉你：skill 在什么条件下触发、支持哪些参数、输出长什么样、以及你是否需要在环境中配置环境变量。

实际命令长什么样

核心调用方式就是直接执行 Node 脚本：

node tools/generate.js --model flux-dev --prompt "a modern ceramic mug on a clean studio table, soft window light" --aspect-ratio 1:1

脚本支持的关键参数包括：

--model
--prompt
--aspect-ratio
--num-images
--negative-prompt
--seed

此外，还提供了适用于 Midjourney 后续操作这类流程的动作型参数：

--action
--index
--job-id
--upscale-type
--variation-type

在写 prompt 前先选对模型

模型选得对，往往比微调措辞更能影响结果质量。这个 skill 自带的路由建议很实用：

midjourney：偏艺术化、电影感、绘画感场景
flux-pro：适合写实人像和产品风输出
flux-dev：通用场景的均衡默认选项
flux-schnell：适合快速出草稿和迭代
ideogram：适合海报、logo、图中文字
recraft：适合 icon、vector、扁平化设计
sdxl：适合动漫和风格化插画
nano-banana：适合借助参考图做一致性生成

如果第一张图不对，不要先拼命改 prompt，优先换模型。

把模糊需求改写成可用 prompt

弱输入：
make a nice cafe image

更强的输入：
cozy Paris-style street cafe at blue hour, warm interior glow, wet cobblestone reflections, cinematic composition, medium-wide shot, realistic photography, subtle steam from coffee cups, no people blocking storefront signage

为什么后者效果更好：

明确了主体和场景
给出了镜头 / 构图线索
说明了风格和写实程度
减少了画面重点上的歧义

补充约束信息，减少坏结果

想让 videoagent-image-studio usage 更稳定，prompt 里最好补齐这些信息：

主体
环境
视觉风格
构图或取景
光线
宽高比
必须出现的元素
必须避免的元素

示例：

node tools/generate.js \
  --model ideogram \
  --prompt "minimal tech conference poster, bold readable headline area, geometric background, blue and black palette, modern Swiss design, high contrast, clean spacing" \
  --aspect-ratio 4:5 \
  --negative-prompt "blurry text, crowded layout, ornate illustration"

这比只说“做一张酷一点的海报”可靠得多。

当你能预判质量漂移时，用 negative prompt

脚本支持 --negative-prompt。如果模型总是加入错误风格、无关细节或画面杂乱，这个参数会很有用。好的 negative prompt 应该具体、可视化，例如：

extra fingers, distorted hands, deformed face
blurry text, illegible letters
busy background, low contrast
cartoonish, oversaturated, plastic skin

不要一上来就塞进几十个泛泛而谈的缺陷词，除非你已经反复遇到这些具体问题。

自动化场景里要清楚输出结构

CHANGELOG.md 提到，输出结构已被标准化，字段类似：

success
model
imageUrl
images
jobId

如果你打算把结果接到后续 agent 步骤，这一点非常关键。普通 prompt 只能“请求一张图”，但 videoagent-image-studio 提供的是更可预测、更容易集成的输出。

使用 Midjourney 动作参数，不要靠猜

脚本用法说明里还给出了后续动作的第二种命令模式：

node tools/generate.js --model midjourney --action upscale --index 2 --job-id <id>

这一点很重要，因为有些图像工作流本来就是多步骤的。如果你的 agent 需要对某个选中的 panel 做 upscale 或 variation，就应该用这些明确的 action 参数，而不是从头重新生成。

支持时优先用参考图保证一致性

CHANGELOG.md 里记录了 nano-banana 支持 --reference-images，格式为逗号分隔的 URL。这对角色一致性、持续性风格、系列 campaign 素材特别有帮助。如果你的需求是“同一个人、同样品牌气质、换一个新场景”，这是最值得尽早验证的能力之一。

最快上手的仓库阅读路径

如果你想快速形成一份实用的 videoagent-image-studio guide，建议按这个顺序看：

SKILL.md：先看触发条件和模型选择表
tools/generate.js：确认真实可用的 CLI 参数
CHANGELOG.md：了解输出格式、异步处理等行为变化
.env.example：确认可选的环境配置项

和先去看 contributor 文档相比，这条路径更有助于你做安装和接入判断。

Hosted proxy 与本地 keys 的取舍

这个 skill 主推 hosted proxy 路径，用户无需自备 provider keys，这是最快的启动方式。不过，仓库里也包含 .env.example，以及提到 IMAGE_STUDIO_PROXY_URL、IMAGE_STUDIO_TOKEN 等变量的 contributor 指引，另外还有一些更早期的本地测试示例会使用 provider keys。对安装决策来说，可以这样理解：

最省事的路径：直接用默认的 proxy-backed workflow
更高级的路径：如果部署需要自定义路由或鉴权，再去检查 env 配置

一套实用且稳定的工作流程

一个效果很稳的 videoagent-image-studio skill 实战流程通常是：

先按输出类型归类需求
选择最可能合适的模型
用明确的视觉约束重写 prompt
先只生成一张图
观察失败模式
一次只改模型或 prompt，不要同时改两者
确认方向对了，再增加图片数量或进入 upscale / variation

这样做可以把迭代成本压低，也更容易判断 prompt 到底哪里有问题。

videoagent-image-studio skill 常见问题

videoagent-image-studio 适合新手吗？

适合，前提是你的目标是通过 agent 或终端命令尽快生成图片。它去掉了不少 provider 特有的复杂度。新手仍然需要学会如何清楚描述图像，但不需要从零搭一个多 provider 集成方案。

videoagent-image-studio 什么时候比普通 prompt 更好？

当你需要的是稳定执行、明确选模和结构化输出时，它就比普通 prompt 更好。单纯 prompt 可以让 AI “帮你做张图”，但 videoagent-image-studio 给的是可运行的执行路径，带有明确的模型控制和更适合自动化的结果格式。

什么情况下不该用 videoagent-image-studio？

如果你需要这个封装层没有暴露出来的 provider 原生高级控制，就不建议用；如果你的流程主要是图片编辑，而不是从零生成，也不算最佳匹配。另外，如果团队要求对每一次底层 provider 调用都具备直接合同级控制，这个 skill 也未必合适。

videoagent-image-studio 需要 API keys 吗？

按当前定位，正常的 hosted-proxy 路径是不需要的，这也是它非常有吸引力的一点。不过，如果你需要私有路由、鉴权或自管行为，还是应该查看 .env.example 和你的部署环境配置。

我应该先从哪个模型开始？

可以从这些起步：

flux-dev：通用生成首选
flux-pro：偏写实输出
ideogram：适合文字较多的图
recraft：适合 icon / vector 需求
midjourney：适合风格化、电影感艺术图

如果拿不准，不要按品牌熟悉度选，按输出类型选更靠谱。

videoagent-image-studio 适合用于生产级 agent 吗？

适合，而且比大多数临时拼接的 prompting 方案更适合生产，因为它把调用方式和输出格式都标准化了。真正需要验证的不是“能不能出图”，而是运行层面的可信度：例如延迟、输出一致性、鉴权配置，以及你所在环境中的 fallback 行为。

如何改进 videoagent-image-studio skill 的使用效果

通过补齐模型无法自行推断的决策来提升 prompt

想提高 videoagent-image-studio 的生成效果，最快的方法就是把模型原本会“猜”的信息直接写清楚：

精确主体
风格目标
场景语境
取景方式
光线
期望的写实程度
文字要求
排除项

模型需要脑补的内容越少，后期返工就越少。

最常见的问题往往不是 prompt，而是模型选错了

如果文字效果差，就换到 ideogram。
如果 vector / icon 风格发糊，就换到 recraft。
如果写实感太假，试试 flux-pro。
如果画面不够有戏剧性，试试 midjourney。
改 prompt 确实有帮助，但很多时候，上限是被错误的引擎卡住的。

一次只迭代一个变量

不要每次重跑都把所有东西重写一遍。保持 prompt 基本稳定，只改其中一个变量：

model
aspect ratio
negative prompt
lighting/style phrase
reference image input

这样你才能清楚知道，到底是哪一项带来了提升。

用分层结构写 prompt

一种很稳的写法是：

核心主体
场景
风格
构图
光线
排除项

示例：
premium black running shoe on reflective studio floor, minimalist luxury ad set, photorealistic product photography, low-angle three-quarter composition, dramatic rim lighting, no extra props, no text

这种分层结构几乎总是比模糊、松散的描述更有效。

把 aspect ratio 当作创意控制手段

很多人抱怨“构图不好”，本质上其实是 aspect ratio 选错了。输出比例最好一开始就定下来：

1:1：适合商品卡片、头像
16:9：适合电影感场景和缩略图
9:16：适合移动端 story 版式
4:5：适合社交媒体 feed 素材

很多时候，改一下比例就能解决画面拥挤或过空的问题，不必重写 prompt。

用参考图和 seed 提升一致性

如果你的场景是固定角色、campaign 变体或连续风格产出，就要尽量复用可用的一致性信号：

对支持的模型使用 --reference-images
想控制变化幅度时使用 --seed

一旦从一次性出图转向可重复生产，这两点往往比继续堆更多形容词更重要。

首次生成失手时，做有针对性的修改

如果第一张结果“接近了，但还不对”，可以这样改：

情绪不对：改 lighting 和 style phrases
布局不对：改 framing 和 aspect ratio
可读性不够：切换到 ideogram
太泛：补充品牌、材质、年代或镜头细节
太乱：加入针对 clutter 的 negative prompts

这种定向修正能保留已经做对的部分。

在怪 skill 之前，先看 changelog

CHANGELOG.md 记录了很多真正会影响使用体验的变化，包括 Midjourney 处理方式简化、输出统一、以及参考图支持等说明。如果你发现当前行为和旧示例不一致，最快的解释通常就在 changelog 里。

高级用户应该尽早验证什么

如果 videoagent-image-studio skill 要接入更大的自动化流水线，建议尽早验证：

各模型的 latency
失败时的返回形式
输出 JSON 是否容易解析
proxy 配置下的 auth 行为
你选定的模型是否满足一致性需求

这些检查比多跑十几组示例图更重要，因为它们直接决定了这个 skill 在规模化场景下是否可靠。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

openclaw-persona-forge

作者 affaan-m

openclaw-persona-forge 是一款以工作流驱动的技能，用于从零开始构建完整的 OpenClaw persona 套件。它会生成身份张力、SOUL.md 风格框架、边界规则、名字备选，以及可选的头像 prompt 指引。适合 OpenClaw 角色设计、roleplay agents 和偏 UI Design 的 persona 工作，不适合对现有 persona 做小幅修改。

UI 设计

收藏 0GitHub 156.2k

baoyu-imagine

作者 JimLiu

baoyu-imagine 是一款支持多家服务商的图像生成技能，提供类型化 CLI、必需的 EXTEND.md 配置、参考图支持、宽高比控制，以及可在 OpenAI、Azure OpenAI、Google、OpenRouter、DashScope、MiniMax、Jimeng、Seedream 和 Replicate 之间进行批量运行。

图像生成

收藏 0GitHub 13.2k

baoyu-comic

作者 JimLiu

baoyu-comic 是一项可将源文本转成教育类或传记风格漫画的技能，覆盖分镜规划、角色一致性、分格布局以及分阶段图像生成。它支持可安装的 CLI 用法，提供风格与版式选项，也支持 `--storyboard-only`、`--prompts-only`、`--regenerate` 等局部流程，便于更可控地完成漫画生产。

图像生成

收藏 0GitHub 13.2k

shader-dev

作者 MiniMax-AI

shader-dev 是一个面向 ShaderToy 风格实时视觉效果的实用 GLSL 着色器技能。使用 shader-dev 技能可以更少靠猜测地构建或调试 ray marching、SDF 场景、光照、粒子、流体运动、后期处理，以及用于 UI Design 的 shader-dev。

UI 设计

收藏 0GitHub 11.7k

videoagent-video-studio

作者 pexoai

videoagent-video-studio 是一款可根据文本、图片和参考素材生成短篇 AI 视频的技能。你可以用它测试 text-to-video 与 image-to-video 工作流，对比支持的模型，并在 Node 18+ 环境下使用托管代理或自托管方案运行。

视频编辑

收藏 0GitHub 456

seo-image-gen

作者 AgriciDaniel

seo-image-gen 是一个 GitHub skill，用于把 SEO 图片需求转化为可直接用于生产的 prompts 和设置，覆盖 OG images、社交预览图、hero banners、产品视觉图、信息图和 thumbnails。它通过 nanobanana-mcp 调用 Gemini，并默认已安装 banana extension，适合用作一份实用的 seo-image-gen 安装与工作流指南。

图像生成

收藏 0GitHub 0

baoyu-xhs-images

作者 JimLiu

baoyu-xhs-images 可将文章或笔记转换成小红书信息图轮播，提供预设、风格、版式与配置指引，帮助用户完成安装、选择输入内容，并运行 `/baoyu-xhs-images` 生成结构化的多页社交内容。

UI 设计

收藏 0GitHub 13.2k

baoyu-cover-image

作者 JimLiu

baoyu-cover-image 帮助 agent 按类型、配色、渲染、文字和氛围等维度，生成结构化的文章封面图提示词。它支持 2.35:1、16:9 和 1:1 格式，内置自动选择规则与兼容性说明，适合可重复执行的 editorial 和 UI Design 封面工作流。

UI 设计

收藏 0GitHub 13.2k

meme-factory

作者 softaworks

meme-factory 可帮助 agent 基于模板生成 meme，调用免费的 memegen.link API，也支持适合 Markdown 的文字类 meme。你可以用它生成可分享的 meme URL、选择合适模板、正确格式化文本，并借助随附的 Python helper 自动化输出。

图像生成

收藏 0GitHub 1.3k

logo-creator

作者 ReScienceLab

logo-creator 是一套面向 AI logo 设计的工作流，可用于生成创意方向、对比不同变体、裁剪图像、移除背景并导出 SVG 资产。它结合风格参考、示例提示词和辅助脚本，在 ReScienceLab/opc-skills 中支持 logo、icon、favicon 和品牌标记的创建。

品牌设计

收藏 0GitHub 0

scientific-schematics

作者 K-Dense-AI

scientific-schematics 可将自然语言提示转化为适合发表的科学图表，并通过智能迭代优化持续提升质量。它使用 Nano Banana 2 生成图像，并用 Gemini 3.1 Pro Preview 进行审阅；只有当输出低于你的文档类型阈值时才会重新生成。适用于神经网络架构、系统示意图、流程图、生物通路及其他复杂科学可视化内容。

图像生成

收藏 0GitHub 0

banner-creator

作者 ReScienceLab

banner-creator 提供结构化流程，帮助创建横幅、页眉和 hero 图片：先收集需求，再生成多个方案，结合反馈迭代优化，并使用自带脚本按平台比例裁切。

UI 设计

收藏 0GitHub 0

baoyu-article-illustrator

作者 JimLiu

baoyu-article-illustrator 可帮助 agent 将文章草稿转成结构化插图提示词、插入位置建议，以及统一的题材与风格决策，适用于解读型内容、教程、图解和多图文章。

图像生成

收藏 0GitHub 13.2k

nanobanana

作者 ReScienceLab

nanobanana 是一款面向 Google Gemini 3 Pro Image 的 Python CLI 技能，支持文生图、图像编辑、宽高比设置、2K/4K 输出，以及通过简单本地脚本进行批量生成。

图像生成

收藏 0GitHub 654

sound-fx

作者 NoizAI

使用 sound-fx 技能，把文本提示词转换成音效、拟音、环境底噪、怪物声音和 UI 音效。它适合用于音效编辑、快速原型验证和可下载音频素材制作。先通过 NoizAI/skills 安装，然后使用基于脚本的工作流，并准备有效的 Noiz API key。它不适用于语音、歌词、旋律或声音克隆。

音频编辑

收藏 0GitHub 498

chat-with-anyone

作者 NoizAI

chat-with-anyone 可从公开音频克隆真实人物的声音，或根据图片设计匹配的声音，再通过 TTS 生成合成回复。它支持角色扮演、旁白和语音生成等实用工作流，并提供安装、素材选择和安全使用方面的指导。

语音生成

收藏 0GitHub 498