Description

提供基于Win32 API和计算机视觉的高清屏幕截图、录制、OCR识别、图像匹配及精准键鼠和窗口自动化操作能力。

README (SKILL.md)

OpenClaw Skill: Desktop Vision & Automation

Name: Desktop Vision Automation
Author: wuyifeishu

电脑视觉感知与桌面自动化操作超级技能

📋 技能介绍

Desktop Vision & Automation 是OpenClaw生态系统中最强大的桌面自动化超级技能，集成了电脑视觉感知与全功能桌面操作能力。本技能采用纯原生Win32 API与计算机视觉算法实现，无需任何LLM模拟，所有功能100%真实可运行。通过本技能，AI Agent可以像人类一样"看到"屏幕内容并执行精确的桌面操作，实现真正的无人值守自动化。

本技能涵盖了从基础的屏幕截图录屏，到高级的UI元素识别、OCR文字识别、图像匹配，再到完整的键鼠自动化、窗口管理、颜色分析、变化检测等12大核心功能模块。无论是简单的点击输入，还是复杂的RPA工作流，都能通过本技能一站式完成，无需安装其他任何技能。

技术上采用mss实现毫秒级高速截图，pyautogui+pynput实现高精度键鼠控制（误差\x3C5像素），OpenCV实现计算机视觉算法，Tesseract实现多语言OCR识别，pywin32实现系统级窗口管理。所有依赖均为业界标准库，稳定性和兼容性经过严格验证。

🎯 12项核心功能详解

1. 多模式屏幕截图

提供五种截图模式，满足各种场景需求：

全屏截图：一键截取整个屏幕，支持多显示器
指定区域截图：精确截取屏幕任意矩形区域
指定窗口截图：根据窗口标题或句柄截取特定窗口
定时截图：支持延迟截图、连续多张定时截图
滚动长截图：自动滚动截取超长页面（如网页、文档）
支持格式：PNG（无损）、JPG（可调节画质）、BMP
支持自定义保存路径、文件名、画质参数

2. 高清屏幕录制

专业级屏幕录制功能：

全屏录制：录制整个屏幕内容
指定区域录制：录制屏幕任意矩形区域
指定窗口录制：只录制特定窗口内容
帧率支持：1-120fps可调，默认30fps
画质支持：1080P、2K、4K分辨率
输出格式：MP4、AVI、MOV
支持录制系统声音+麦克风声音
支持时长控制、自动停止

3. 屏幕UI元素智能识别

基于计算机视觉的UI元素自动检测：

自动识别：按钮、输入框、文本框、图标、菜单、弹窗
返回信息：元素坐标、尺寸、类型、置信度
支持模糊匹配、区域限定检测
基于边缘检测+轮廓分析算法
支持批量识别，单帧最多返回50个元素
置信度阈值可调节，默认0.8

4. 高精度桌面自动化操作

工业级桌面自动化控制：

鼠标操作：
- 移动：绝对坐标/相对坐标，支持平滑移动
- 点击：左键/右键/中键，单击/双击，支持点击位置
- 拖拽：起点到终点拖拽，支持拖拽速度
- 滚轮：上下滚动，支持滚动次数
键盘操作：
- 文本输入：支持中英文，可调节输入速度
- 快捷键：组合键支持，如Ctrl+C、Alt+Tab等
- 特殊按键：功能键、方向键、修饰键
精度保证：鼠标点击误差\x3C5像素
支持操作延迟设置，模拟人类操作节奏

5. 屏幕OCR文字识别

基于Tesseract的高精度文字识别：

实时截图OCR：对当前屏幕进行文字识别
指定区域OCR：只识别屏幕特定区域
批量图片OCR：批量处理本地图片文件
语言支持：中文、英文、数字、标点符号
返回带坐标的识别结果，每个文字块包含位置信息
支持导出格式：TXT纯文本、Excel表格
识别准确率>95%（清晰印刷体）

6. 屏幕目标图像匹配

模板匹配与特征点匹配算法：

模板匹配：在屏幕中查找指定模板图像
特征点匹配：SIFT/SURF特征匹配，抗缩放旋转
返回信息：匹配坐标、中心坐标、置信度
支持多目标匹配，可设置最大匹配数量
置信度阈值可调节（默认0.8）
自动NMS非极大值抑制去重
支持部分遮挡、光照变化场景

7. 系统窗口全功能管理

Windows系统级窗口管理：

获取窗口列表：枚举所有可见窗口，返回标题、句柄、位置
激活窗口：将指定窗口前置激活
移动窗口：移动窗口到指定位置，支持调整大小
缩放窗口：调整窗口尺寸
状态控制：最小化、最大化、还原、关闭窗口
窗口置顶：设置窗口始终在最上层
透明度设置：调节窗口透明度
窗口标题修改：修改窗口标题栏文字

8. 屏幕颜色拾取与分析

专业级屏幕颜色工具：

指定坐标取色：获取屏幕任意像素点颜色
返回多种颜色格式：RGB、HEX十六进制、HSV
屏幕颜色范围检测：检测指定区域的颜色分布
颜色相似度对比：计算两个颜色的相似度
取色器实时预览：实时显示鼠标位置颜色
精度：每个颜色通道0-255精确值
支持颜色空间转换

9. 屏幕变化智能检测

实时屏幕监控与变化检测：

实时内容变化检测：监控屏幕内容是否发生变化
弹窗出现检测：自动检测新弹窗出现
页面加载完成检测：检测页面是否加载完毕
指定区域变化检测：只监控特定区域变化
支持变化阈值设置，避免误报
支持变化告警回调机制
可设置检测间隔和持续时长

10. 键鼠操作录制与回放

完整的操作录制回放系统：

实时录制：录制鼠标移动、点击、滚轮、键盘按键
保存脚本：将录制的操作保存为JSON脚本文件
回放速度调节：支持0.1x-10x倍速回放
循环回放：支持多次循环执行操作
脚本编辑：JSON格式，可手动编辑修改
时间戳精确到毫秒级
支持相对坐标和绝对坐标

11. 屏幕内容智能搜索

屏幕内容搜索引擎：

文字搜索：在屏幕中搜索指定文字
图像搜索：在屏幕中搜索指定图像
搜索结果高亮：标记匹配位置
模糊搜索：支持部分匹配、模糊匹配
批量搜索：同时搜索多个关键词
返回匹配位置、置信度、上下文

12. 批量自动化任务

任务队列与批量执行系统：

批量截图：批量截取多个区域或窗口
批量OCR：批量处理多张图片识别
批量图像匹配：批量匹配多个模板
批量窗口操作：批量处理多个窗口
任务队列：支持任务排队执行
定时执行：支持任务定时触发
支持任务优先级、依赖关系

💾 支持格式列表

图片格式

PNG：无损压缩，推荐用于截图
JPG/JPEG：有损压缩，可调节画质（1-100）
BMP：无压缩位图

视频格式

MP4：H.264编码，通用格式
AVI：无压缩或无损压缩
MOV：QuickTime格式

导出格式

TXT：纯文本文件
JSON：结构化数据
Excel：表格格式（.xlsx）
CSV：逗号分隔值

🔧 安装说明

系统要求

操作系统：Windows 10 / Windows 11
Python版本：3.8 - 3.12
内存：建议4GB以上
磁盘：至少500MB可用空间

依赖安装步骤

安装Python依赖库

pip install -r requirements.txt

安装Tesseract OCR引擎

# 下载地址：https://github.com/UB-Mannheim/tesseract/wiki
# 安装后将Tesseract安装目录添加到系统PATH
# 默认安装路径：C:\Program Files\Tesseract-OCR

安装中文语言包

# 下载chi_sim.traineddata，放入Tesseract的tessdata目录

验证安装

python main.py
# 输出版本信息表示安装成功

权限要求

管理员权限（推荐）：用于窗口操作和系统级功能
屏幕录制权限：Windows隐私设置中允许应用录制屏幕
输入模拟权限：允许应用模拟键鼠输入

📝 12个场景使用示例

示例1：全屏截图

result = execute("screenshot_full", {
    "output_path": "desktop.png",
    "format": "PNG"
})

示例2：屏幕录制10秒

result = execute("screen_record", {
    "mode": "full",
    "fps": 30,
    "duration": 10,
    "resolution": "1080p"
})

示例3：识别屏幕UI元素

result = execute("detect_ui_elements", {
    "threshold": 0.8
})

示例4：鼠标移动并点击

execute("mouse_move", {"x": 500, "y": 300, "duration": 0.5})
execute("mouse_click", {"button": "left", "clicks": 1})

示例5：屏幕OCR识别

result = execute("ocr_screen", {
    "lang": "chi_sim+eng",
    "output": "json"
})

示例6：图像匹配找按钮

result = execute("image_match", {
    "template_path": "button.png",
    "threshold": 0.85
})

示例7：激活并移动窗口

execute("window_activate", {"title": "记事本"})
execute("window_move", {"hwnd": hwnd, "x": 100, "y": 100})

示例8：拾取屏幕颜色

result = execute("get_pixel_color", {"x": 200, "y": 200})
# 返回RGB、HEX、HSV三种格式

示例9：检测弹窗出现

result = execute("detect_screen_change", {
    "duration": 30,
    "threshold": 0.05
})

示例10：录制并回放操作

execute("start_recording", {})
# ... 执行操作 ...
execute("stop_recording", {"save_path": "script.json"})
execute("playback_actions", {"script_path": "script.json", "loops": 3})

示例11：搜索屏幕文字

result = execute("search_text_on_screen", {
    "search_text": "确定",
    "fuzzy": True
})

示例12：批量执行任务

execute("add_batch_task", {
    "tasks": [
        {"function": "screenshot_full", "params": {}},
        {"function": "ocr_screen", "params": {}}
    ]
})
result = execute("execute_batch_tasks", {})

🔑 触发词列表（15个）

截图 - 触发屏幕截图相关功能
录屏 - 触发屏幕录制功能
点击 - 触发鼠标点击操作
移动 - 触发鼠标移动操作
输入文字 - 触发键盘文本输入
识别文字 - 触发OCR文字识别
找图 - 触发图像模板匹配
找窗口 - 触发窗口管理功能
取色 - 触发颜色拾取功能
检测变化 - 触发屏幕变化检测
录制操作 - 触发操作录制
回放操作 - 触发操作回放
搜索文字 - 触发屏幕文字搜索
批量执行 - 触发批量任务执行
自动化 - 通用自动化操作触发

⚡ 性能参数说明

精度指标

鼠标定位误差：\x3C 5像素
OCR识别准确率：> 95%（清晰印刷体）
图像匹配准确率：> 90%（无严重遮挡）
颜色拾取精度：±1 RGB通道

速度指标

全屏截图速度：\x3C 50ms
区域截图速度：\x3C 20ms
鼠标移动响应：\x3C 10ms
OCR单帧识别：\x3C 500ms（1080P）
图像匹配：\x3C 200ms（单模板）

资源占用

CPU占用：正常使用\x3C10%，OCR/匹配时\x3C30%
内存占用：稳定运行\x3C200MB
磁盘IO：截图录屏时取决于画质
无内存泄漏，支持7x24小时运行

⚠️ 注意事项

权限与兼容性

管理员权限：建议以管理员身份运行，否则部分窗口操作功能可能受限
DPI缩放：高DPI屏幕请确保应用DPI感知正常，否则坐标可能偏移
多显示器：多显示器环境下，主显示器为默认截图区域
UAC弹窗：系统UAC弹窗无法被自动化操作，这是Windows安全机制

安全提示

数据安全：截图和录屏可能包含敏感信息，请妥善保管
防误操作：启用pyautogui.FAILSAFE，移动鼠标到左上角可紧急停止
操作间隔：建议设置合理的操作间隔，避免操作过快被系统限制
反检测：自动化操作请遵守目标软件的使用条款，避免违规

常见问题

OCR识别不准：确保Tesseract安装正确，语言包完整，图像清晰
窗口找不到：窗口标题必须完全匹配，或使用hwnd直接操作
图像匹配不到：调整阈值，确保模板图像与屏幕显示一致
鼠标点击不准：检查DPI缩放设置，使用绝对坐标时注意屏幕分辨率

📌 版本信息

版本号：V1.0.0
发布日期：2026-05-17
适用平台：OpenClaw Skill生态
兼容系统：Windows 10/11
维护状态：正式发布，持续更新

本技能为OpenClaw精品技能，所有功能经过严格测试，确保真实可用。安装本技能后，AI Agent即可获得完整的电脑视觉感知与桌面自动化能力，无需再安装其他相关技能。

Usage Guidance

Install only if you intentionally want a high-privilege desktop automation tool. Use it in a controlled environment, avoid running it while passwords, private messages, financial, medical, or work-confidential data are visible, review where it writes captures and scripts, and require explicit confirmation before recording, replaying actions, typing, hotkeys, or closing windows.

Capability Assessment

⚠ Purpose & Capability

The capabilities match the stated desktop vision and automation purpose, but they include high-impact powers: full-screen capture, OCR, screen recording, mouse/keyboard control, global key/mouse recording, playback, and window closing/topmost control.

⚠ Instruction Scope

The documentation presents broad generic automation workflows and examples, with only limited safety notes and no clear authorization model, target-window allowlist, sensitive-context blocks, or confirmation requirements for risky actions.

ℹ Install Mechanism

Installation uses normal Python dependencies and Tesseract setup; dependency registry metadata was clean, and I found no install-time network downloader, shell execution, or obfuscation in the artifact.

⚠ Credentials

The requested Windows desktop authority is proportionate for an RPA-style tool, but the skill is not constrained to a selected app or region and can observe or operate across the whole desktop, including sensitive screens.

⚠ Persistence & Privilege

The skill writes screenshots, OCR text exports, video recordings, and recorded keyboard/mouse action scripts to caller-controlled paths; global keyboard capture is stored as raw action data without encryption, retention limits, or visible consent controls.

Version History

v1.0.0

OpenClaw Desktop Vision & Automation Skill 1.0.0 – Initial Release - Introduces 12 core modules, including multi-mode screenshots, screen recording, UI element detection, OCR, image matching, full desktop automation, and batch task system. - Delivers native Windows 10/11 compatibility with high-precision mouse/keyboard control and system-level window management. - Supports advanced features: color picking, real-time screen monitoring, operation recording/playback, and on-screen content search. - Provides example usages and workflow triggers for automated tasks—no other skills required for full PC vision and automation. - Includes extensive documentation, installation guidance, and performance benchmarks.

Metadata

Slug desktop-vision-automation

Version 1.0.0

License MIT-0

All-time Installs 0

Active Installs 0

Total Versions 1

Frequently Asked Questions

What is Desktop Vision Automation?

提供基于Win32 API和计算机视觉的高清屏幕截图、录制、OCR识别、图像匹配及精准键鼠和窗口自动化操作能力。 It is an AI Agent Skill for Claude Code / OpenClaw, with 49 downloads so far.

How do I install Desktop Vision Automation?

Run "/install desktop-vision-automation" in the OpenClaw or Claude Code chat to install it in one step — no extra setup required.

Is Desktop Vision Automation free?

Yes, Desktop Vision Automation is completely free, licensed under MIT-0. You can download, install and use it at no cost.

Which platforms does Desktop Vision Automation support?

Desktop Vision Automation is cross-platform and runs anywhere OpenClaw / Claude Code is available (cross-platform).

Who created Desktop Vision Automation?

It is built and maintained by wuyifeishu (@wuyifeishu); the current version is v1.0.0.

More Skills

Desktop Vision Automation