automate-this

automate-this 可将屏幕录制转化为自动化方案和脚本草稿。它使用 ffmpeg 提取画面帧，可借助 Whisper 转写旁白，重建操作流程，并结合你机器上已有的工具，给出切实可行的自动化实现建议。

Stars0

收录时间2026年3月31日

分类工作流自动化

安装命令

npx skills add github/awesome-copilot --skill automate-this

编辑评分

该技能评分为 76/100，说明它是一个较扎实的目录收录候选：它为 agent 提供了清晰的触发场景，以及一套将屏幕录制转化为自动化方案和脚本的真实多步骤流程；但用户仍应预期在实际执行时需要自行补足部分判断，因为该仓库仅提供文档说明，并依赖机器上已安装的工具。

76/100

亮点

触发条件明确：描述清楚界定了输入是重复性手工流程的屏幕录制，输出则是可落地的自动化结果。
流程结构完善：技能包含前置检查、分阶段分析、画面/音频提取，以及多种工作流与约束信号，而不是停留在模糊提示词层面。
对 agent 的利用价值高：它不只做总结，还会从视频中重建步骤，并基于已安装工具提出不同复杂度的自动化方案。

注意点

采用门槛依赖外部组件和本地环境假设：必须具备 ffmpeg，可能还需要 Whisper，而技能本身未提供安装命令。
支撑证据更偏向指导说明而非现成产物：仓库中没有配套脚本、参考实现或打包资源，因此实际落地的实现差异可能较大。

Copilot Automation 工作流 Desktop Ffmpeg Python

概览

`automate-this` 技能概览

`automate-this` 能做什么

automate-this 技能可以把一段重复性任务的屏幕录制，转换成自动化方案和脚本草稿。你不需要手动描述每一次点击，它会先从视频中提取画面帧，在有旁白时转写音频内容，再重建整个操作流程，并基于你机器上现有的工具，给出可行的自动化建议。

谁适合使用 `automate-this`

automate-this 特别适合那些已经有真实手工流程、但还没系统梳理成文档的人。常见适用场景包括运维操作、QA 例行流程、文件处理、Web 后台管理、重复性的终端任务，以及跨应用的桌面操作流程——这些任务如果只靠纯文本提示，往往会漏掉关键细节。

用户真正要解决的问题

大多数用户并不需要一个泛泛的“自动化点子”，而是需要把一个杂乱、依赖观察的实际流程，整理成可脚本化的方案。automate-this for Workflow Automation 的核心价值在于：它从录屏证据出发，而不是依赖人的回忆来反推流程，因此更能减少漏步骤和隐含前提。

`automate-this` 和普通提示词有什么不同

普通提示词的前提，是用户能准确描述整个流程。automate-this skill 则是基于以下信息来工作：

提取出的画面帧，用于还原步骤顺序
存在时可用的音频旁白
对操作意图和决策节点的重建
不同复杂度层级的自动化方案建议

这让它在以下场景里更有价值：流程同时包含 UI 操作、终端命令，以及一些在书面总结里很容易被忽略的判断动作。

安装或调用前，哪些因素最关键

是否值得采用，主要取决于三件事：

你能提供一段可用的屏幕录制
本地安装了 ffmpeg
如果旁白内容很重要，你有可用的 Whisper 工具，或者愿意在不做转写的情况下继续

如果以上条件都满足，automate-this install 和首次使用通常都比较顺畅。反过来，只要缺其中一项，结果质量就会明显下降，因为这个技能本质上依赖录屏里的可观察证据。

什么情况下 `automate-this` 非常适合

在以下场景中可以优先考虑 automate-this：

你重复执行同一任务的频率足够高，值得做脚本化
这个流程“演示出来”比“解释清楚”更容易
你希望看到多种自动化路径，从简单脚本到更稳健的实现都有
你希望助手直接从录屏里推断流程结构，而不是从空白提示开始

什么情况下 `automate-this` 不适合

如果是下面这些情况，就不建议用它：

任务本身已经有非常清晰的文本说明
没有录屏，也没有可靠的步骤描述
流程依赖视频里看不到的业务规则
任务需要很深的应用专有 API 知识，而这些信息无法仅凭录屏观察到

如何使用 `automate-this` 技能

`automate-this` 技能的安装上下文

从仓库信息来看，这个技能的定义文件在 skills/automate-this/SKILL.md。在 GitHub Copilot skills 的使用方式里，用户通常是通过自己的 skills 工作流来添加和调用它，而不是把它当作独立包安装。如果你使用 skills manager，常见模式一般是：

npx skills add github/awesome-copilot --skill automate-this

之后就在你的 agent 环境中调用 automate-this，并在提示里带上视频路径和目标说明。

首次运行前会卡住成功率的前置条件

这个上游技能最关键的环境检查，是本地工具是否齐全：

ffmpeg 是必需项
whisper 或 whisper-cpp 是可选项，但对带旁白的录屏很有帮助

如果缺少 ffmpeg，先安装：

macOS: brew install ffmpeg

如果录屏里包含旁白，并且你希望做转写：

pip install openai-whisper
或 brew install whisper-cpp

没有 ffmpeg，automate-this skill 就无法完成提取流程；没有 Whisper，它仍然可以只基于画面做分析。

`automate-this` 需要什么输入

最低限度的有效输入包括：

一段屏幕录制文件的路径
一句简短说明你希望达成的结果
对可用工具或运行环境的任何限制条件

更高质量的输入，通常还会补充：

这个流程运行在哪台机器或哪个操作系统上
是否接受浏览器自动化
你偏好使用 shell、Python、AppleScript、PowerShell 还是其他自动化方式
这个任务更偏向快速可用，还是要达到生产可用级别

`automate-this` 在实际中是如何工作的

这个技能文档里描述的工作流，大致如下：

检查 ffmpeg，并视情况检查 Whisper 是否可用
按较粗的时间间隔从视频中提取画面帧
提取音频，并在有价值时进行转写
重建逐步操作流程
识别重复动作、分支情况和潜在意图
按不同复杂度给出自动化实现思路
尽可能使用已经安装的工具生成可工作的自动化草稿

这也意味着：录屏质量越好，最终脚本通常也越可靠。

如何写出能有效调用 `automate-this` 的提示词

一个较弱的提示是：

“Automate this video.”

一个更强的 automate-this usage 提示可以是：

“Use automate-this on ~/Desktop/invoice-upload.mp4. I’m on macOS. Please analyze the recording, reconstruct the exact workflow, identify repeated steps, and propose three automation options: a quick shell-based helper, a browser automation approach, and the most reliable long-term approach. Prefer tools already installed. If narration is missing or unclear, infer steps from frames and call out uncertainty.”

它之所以有效，是因为：

明确写出了文件
给出了操作系统上下文
先要求重建流程，再要求出代码
要求输出基于取舍的多种方案，而不只是一份脚本
告诉技能遇到歧义时该如何处理

如何把一个模糊目标补全为完整的 `automate-this` 请求

可以使用下面这个模板：

视频路径
操作系统
涉及的目标应用或网站
偏好的自动化技术栈
更重视可靠性还是速度
权限或安全限制
预期最终结果

示例：

“Run automate-this on ~/Desktop/reporting-routine.mov. Windows 11, Chrome, Excel, internal web app. I can use Python and PowerShell but not paid SaaS tools. Goal: open the report page, export CSV, rename it by date, move it to a shared folder, and notify me if export fails. Give me an MVP script and a safer version with validation.”

首次使用 `automate-this` 的最佳流程

第一次尝试时，建议按下面这个顺序要求输出：

观察到的流程摘要
不清晰或有风险的步骤
候选自动化方案
推荐方案及理由
实现草稿
配置与运行说明
验证清单

这种结构可以避免一个很常见的问题：任务还没真正理解清楚，就先急着生成代码。

仓库里应该先看哪些内容

对这个技能来说，SKILL.md 是最核心的信息源，也是当前目录树里唯一真正有参考价值的文件。建议按这个顺序读：

前置条件检查
提取阶段
画面帧提取细节
音频提取与转写说明
后面的流程重建和自动化生成部分

由于看不到额外的辅助脚本或参考目录，这个技能的价值主要体现在 SKILL.md 描述的操作方法本身，而不是现成打包好的工具链。

能提升 `automate-this` 输出质量的实用技巧

如果你想获得更好的 automate-this usage 效果，可以这样做：

从头到尾录完整个流程，不要跳步骤
旁白里说明“为什么这样做”，不要只说“我点了什么”
控制缩放和窗口切换频率，避免画面过于混乱
不要让鼠标移动得过快
让文件名、URL 和字段名清晰可见
至少录下一次完整成功的执行过程，而不是只给部分片段

这些细节能帮助技能更准确地推断意图，生成在演示之外也更能跑通的自动化方案。

需要提前知道的限制与权衡

automate-this 对可见流程很有帮助，但它的边界也很明确：

帧抽样可能会漏掉非常快、转瞬即逝的操作
无声录屏会丢失很多本可以通过旁白表达的意图
隐藏凭证、二次验证步骤和内部策略规则，无法被安全地推断出来
依赖 UI 的自动化通常会比基于 API 的方案更脆弱

更合适的用法是：先用它发现并起草自动化方案，再通过明确约束和验证，把结果加固到可用水平。

`automate-this` 技能 FAQ

`automate-this` 比我直接用文字描述流程更好吗？

通常是的，尤其是在流程很难完整描述的时候。automate-this 可以从录屏里补回被遗漏的步骤，也能把旁白和屏幕上的操作互相校验。如果你的流程本来就已经有清楚的文字文档，普通提示词可能反而更快。

`automate-this` 对新手友好吗？

友好，尤其适合那些很熟悉任务本身、但不知道怎样把需求描述清楚的用户。对新手来说，主要门槛在环境准备：ffmpeg 是硬性要求，而转写支持可能还需要额外安装。

录屏一定要有旁白吗？

不一定，但有旁白会明显更好。这个技能可以只靠视觉内容继续分析；不过旁白能更好地补充操作意图、分支判断，以及那些光看点击动作并不明显的边界情况。

`automate-this` 能建议哪些类型的自动化？

automate-this skill 的设计目标，就是给出多个复杂度层级的方案。落到实际里，可能是一段简单的辅助脚本、一套结构更清晰的本地自动化，或者一个更适合长期维护的可靠实现，具体取决于流程本身和你手头可用的工具。

`automate-this` 需要额外的仓库文件支持吗？

从当前可见内容看，除了 SKILL.md 之外，没有其他额外支持文件。这让技能本身很容易检查，但也意味着你拿到的主要是流程方法指导，而不是一整套现成封装好的工具链。

什么情况下不该把 `automate-this for Workflow Automation` 用在工作流自动化上？

如果流程主要依赖隐藏的业务规则、私有 API、审批逻辑，或者录屏无法体现的系统状态，就不适合使用 automate-this for Workflow Automation。在这些情况下，单靠录屏不足以生成可靠的自动化方案。

`automate-this` 能直接产出生产可用的脚本吗？

有时可以，尤其是简单流程；但大多数情况下，第一版输出更适合被视为质量较高的草稿。更稳妥的做法是先审查重建出的流程，在样例场景里测试，再补强错误处理和验证逻辑。

如何改进 `automate-this` 技能的使用效果

与其写更长提示，不如给 `automate-this` 更强的证据

想提升 automate-this 的结果，最快的方法通常不是加长提示词，而是改进录屏本身：

包含从触发到完成的完整路径
把决策标准直接说出来
展示预期输出结果
如果第一次录制里有失误，就把任务再完整做一遍

更好的源证据，往往比额外的提示措辞更有效。

主动要求它标出不确定性

一个常见失败模式，是对模糊 UI 步骤表现出过度自信。你可以明确要求 automate-this 标记：

猜测出来的动作
无法辨认的 UI 文本
可能存在分支的节点
需要你确认的步骤

这样输出就会从“看起来合理的脚本”，变成“可以测试验证的自动化计划”。

尽早限定自动化技术栈

如果你不说明工具偏好，技能可能会给出你无法运行或难以维护的方案。可以直接写明类似要求：

“Prefer Bash and existing CLI tools”
“Use Python, not browser RPA”
“Avoid cloud services”
“macOS only”
“Must be runnable by non-admin users”

这是提升 automate-this guide 使用体验时，投入产出比最高的做法之一。

要求输出多个层级的解决方案

一个高质量的提示，应该要求它分别给出：

最快能跑通的自动化
最容易维护的自动化
最可靠的自动化

这样可以迫使技能把取舍讲清楚，而不是过早锁定在单一路径上。

为生成的自动化明确成功标准

要直接说明“做到什么才算完成”，例如：

预期生成哪些文件
目标系统需要被更新成什么状态
命名规范是什么
通知行为应该怎样
失败时需要如何处理

如果没有明确的成功标准，automate-this install 也许很顺利，但首次运行后的验证会变得非常模糊。

在第一版结果之后继续迭代

拿到初稿后，可以继续补充和修正：

更正后的步骤顺序
漏掉的边界情况
环境限制
测试运行里出现的实际错误
看过第一版方案后产生的偏好变化

automate-this 最适合的使用方式通常是两轮：第一轮先重建流程，第二轮再把方案做扎实。

需要重点留意的常见失败模式

审核输出时，重点关注这些问题：

跳过了登录或上下文准备步骤
选择器或 UI 假设过于脆弱
没有处理时序、重试或文件缺失
把本该走 API 的流程过度做成了 UI 自动化
代码与本机已安装工具不匹配

越早识别这些问题，越能提升结果可信度，也越能避免做出脆弱的自动化。

如何让最终输出更容易落地

可以要求技能在结果里补上：

前置依赖
精确的运行命令
脚本顶部可编辑的变量
日志或状态输出
一个小型测试计划
如有需要，提供回滚或清理说明

这样拿到的就不只是原始草稿，而是别人也能直接接手运行的东西。

如何在你自己的工作流里用好 `automate-this` 技能

更合适的方式，是把 automate-this 当作前端发现工具，再配合你现有的工程审查流程一起使用。这个技能最擅长的是依据视频证据观察并结构化一个流程；而你需要补上的，是最后一公里的约束条件、维护标准，以及环境相关检查——这些才是把草稿变成可靠自动化的关键。

评分与评论

暂无评分

分享你的评价

登录后即可为这个技能评分并发表评论。

0/10000

同分类下的更多技能

playwright-interactive

作者 openai

playwright-interactive 是一项浏览器自动化技能，适用于本地 Web 和 Electron 应用中的持久 Playwright 会话。它可用于检查 UI 状态、重试交互，以及在不重启工具链的情况下执行功能或视觉 QA。非常适合需要一份实用的 playwright-interactive 迭代调试指南的场景。

浏览器自动化

收藏 0GitHub 0

huggingface-datasets

作者 huggingface

在 Hugging Face Dataset Viewer API 工作流中使用 huggingface-datasets 技能，用于校验数据集、解析 splits、预览和分页行、搜索文本、应用过滤器，以及获取 parquet 链接或统计信息。它是一份面向只读数据集探索的实用 huggingface-datasets 指南。

网页抓取

收藏 0GitHub 10.4k

iterative-retrieval

作者 affaan-m

iterative-retrieval 是一种工作流模式，用于在 agentic 工作中逐步优化上下文检索。它能帮助 subagents 避免获取过多或过少的上下文，因此适用于 iterative-retrieval 的使用场景、安装决策，以及 Workflow Automation 中的 iterative-retrieval。

工作流自动化

收藏 0GitHub 156.2k

data-scraper-agent

作者 affaan-m

data-scraper-agent 可帮助你搭建可重复使用的公开数据管道，用于网页抓取、数据丰富和存储。它面向按计划持续监控任务、价格、新闻、仓库、体育和列表信息，可结合 GitHub Actions 定时运行，并将结果输出到 Notion、Sheets 或 Supabase。更适合长期跟踪，不适合一次性提取。

网页抓取

收藏 0GitHub 156.1k

notion-meeting-intelligence

作者 openai

notion-meeting-intelligence 可将 Notion 上下文转化为可直接用于会议的议程和会前材料，并结合 Codex 研究，为决策、状态更新、规划、复盘和 1:1 准备提供支持。它尤其适合 notion-meeting-intelligence for Meeting Prep 工作流：当你需要有依据的材料、清晰的时间分配，以及面向不同参会者的输出时，这个技能会很有帮助。

会议准备

收藏 0GitHub 18.6k

multi-agent-patterns

作者 muratcankoylan

multi-agent-patterns 技能可帮助你设计和实现带有 Agent Orchestration、上下文隔离、并行工作和结构化交接的智能体系统。当你需要在单智能体与多智能体方案之间做选择，或者需要 supervisor 路由、peer 交接、共识机制或故障处理时，就适合使用它。它最适合编排密集型任务，因为这类任务更看重清晰的协同，而不是单纯增加智能体数量。

Agent 编排

收藏 0GitHub 15.6k

building-incident-response-playbook

作者 mukul975

building-incident-response-playbook 可帮助安全团队创建可复用的事件响应 playbook，涵盖分阶段步骤、决策树、升级标准、RACI 责任分配以及可直接用于 SOAR 的结构。它适用于事件响应流程文档、事件分诊工作流和便于审计的运营响应方案。

事件分诊

收藏 0GitHub 6.1k

building-patch-tuesday-response-process

作者 mukul975

building-patch-tuesday-response-process 帮助团队建立可重复的 Microsoft Patch Tuesday 流程，用于梳理公告优先级、评估风险、测试补丁、批准发布并跟踪合规性。适用于安全运营、漏洞管理，以及用于项目管理的 building-patch-tuesday-response-process。

项目管理

收藏 0GitHub 6.1k

secure-workflow-guide

作者 trailofbits

secure-workflow-guide 提供一套 5 步 Solidity 安全工作流：Slither 初筛、按功能的专项检查、可视化审查、安全属性记录，以及人工复核。它面向智能合约团队、审计人员和开发者，适合在部署或发布前使用一套可重复的 secure-workflow-guide 流程。

安全审计

收藏 0GitHub 4.9k

twitter-cli

作者 public-clis

twitter-cli 是一款以终端为核心的 Twitter/X skill，可用于查看时间线、书签、搜索结果、个人资料和推文详情；在完成认证后，还支持发帖及其他写入操作。适合用于社交媒体调研、账号监控，以及通过命令行进行轻量发布。

社交媒体

收藏 0GitHub 2.3k

azure-ai-contentunderstanding-py

作者 microsoft

azure-ai-contentunderstanding-py 是 Azure AI Content Understanding 的 Python 技能。它可从文档、图像、音频和视频中提取结构化内容，适用于 RAG 工作流和自动化场景。若你需要可靠的多模态提取、Azure 身份验证以及可重复、可直接接入流水线的输出，就适合使用它。

RAG 工作流

收藏 0GitHub 2.2k

wp-performance

作者 WordPress

使用 wp-performance 从后端排查并提升 WordPress 性能，无需浏览器界面。它支持先测量、后诊断的方式，适用于前台请求缓慢、后台页面、REST 路由和 WP-Cron 等场景，并提供关于 WP-CLI profile/doctor、通过 REST 头查看 Query Monitor、Server-Timing、数据库查询、autoloaded options、对象缓存、cron 和远程 HTTP 调用的指导。

性能优化

收藏 0GitHub 1.4k

wp-wpcli-and-ops

作者 WordPress

wp-wpcli-and-ops 技能用于 WP-CLI 下的 WordPress 运维：安全的 search-replace、db export/import、插件和主题操作、cron、缓存清理、多站点定向，以及可复用的后端开发自动化。

后端开发

收藏 0GitHub 1.4k

agents-sdk

作者 cloudflare

agents-sdk 可帮助你构建带有有状态对话、持久化执行、WebSocket 或流式聊天、MCP 集成、定时任务和浏览器自动化的 Cloudflare Workers 代理。这个 agents-sdk 技能重点面向安装决策、配置和实际使用，适用于现有或新建的 Workers 应用；只有在多代理系统确实符合 Cloudflare 运行时限制时，才会提供相应指导。

多 Agent 系统

收藏 0GitHub 1.3k

reddit-ads

作者 alinaqi

用于 Reddit Ads API 工作流的 reddit-ads 技能：广告系列创建、定向、转化跟踪和广告优化。安装 reddit-ads 指南，可更少凭经验猜测地管理账户层级、预算、受众以及基于 API 的优化。

广告优化

收藏 0GitHub 611

existing-repo

作者 alinaqi

existing-repo 帮助 agents 分析现有代码库，识别技术栈和约定，并在不破坏本地模式的前提下加入防护措施。对于 Git Workflows、首次接手仓库、维护工作以及需要先理解再修改的配置变更，这个 existing-repo skill 都很适合。

Git 工作流

收藏 0GitHub 607

automate-this

automate-this 技能概览

automate-this 能做什么

谁适合使用 automate-this

用户真正要解决的问题

automate-this 和普通提示词有什么不同

安装或调用前，哪些因素最关键

什么情况下 automate-this 非常适合

什么情况下 automate-this 不适合

如何使用 automate-this 技能

automate-this 技能的安装上下文

首次运行前会卡住成功率的前置条件

automate-this 需要什么输入

automate-this 在实际中是如何工作的

如何写出能有效调用 automate-this 的提示词

如何把一个模糊目标补全为完整的 automate-this 请求

首次使用 automate-this 的最佳流程