← 返回 Skills 市场

PDF视觉阅读器

Name: PDF视觉阅读器
Author: itixobepafi130-ctrl

作者 itixobepafi130-ctrl · GitHub ↗ · v1.0.0 · MIT-0

cross-platform ✓ 安全检测通过

340

总下载

当前安装

版本数

在 OpenClaw 中安装

/install pdf-vision-reader

功能描述

PDF视觉阅读器 — 将PDF转换为图片，通过AI视觉模型理解PDF内容。当用户发送PDF文件或提供PDF路径，需要理解、分析、总结PDF内容时使用。能力： - 将PDF每页渲染为高清PNG图片（PyMuPDF） - 使用AI视觉模型分析图片内容（中英文均可） - 支持幻灯片型、图片型、扫描件型PDF - 自...

使用说明 (SKILL.md)

PDF视觉阅读器 (pdf-vision-reader)

工作流程

用户发送PDF
    ↓
提取PDF页面为PNG图片（PyMuPDF, 2x缩放）
    ↓
分批次用视觉AI分析（每批4-5页）
    ↓
整合视觉分析结果
    ↓
可选后续处理：
  - 整理为结构化摘要
  - 提炼关键数据/要点
  - 归档至 memory/ 目录
  - 回答用户具体问题

使用场景

用户发来 PDF 需要分析理解
图片型/幻灯片型 PDF 无法用文字提取
扫描件 PDF 识别
需要理解 PDF 中的图表、数据、布局信息

输出格式

建议输出结构：

## PDF内容概览
[总页数] 页，主题：[...]

## 分页详解
### 第X页
[视觉AI返回的详细描述]

## 关键信息提炼
[数据/要点/结论]

## 相关知识
[如果已有相关背景知识，可关联补充]

注意事项

PDF路径包含中文时，Python读取可能需处理编码
视觉分析每批4-5页，避免超出token限制
对于非常长的PDF（>50页），可先分析目录页+重点页面
分析完成后可询问用户是否需要归档到memory目录

安全使用建议

概览：此技能内部一致——它包含一个用 PyMuPDF 把 PDF 转为 PNG 的脚本，说明中要求用视觉 AI 分析图片，但未声明将使用哪个模型或外部服务。在安装/使用前请注意： - 如果处理敏感或受限内容，先确认“视觉 AI 模型”在哪里运行：本地模型与第三方云服务的隐私与合规性不同，第三方模型可能会将图片上传到外部服务器。 - 在受信任环境中通过 pip 安装依赖（pymupdf、numpy、opencv-python-headless）；最好在虚拟环境中安装并确认包来自官方 PyPI 源。 - 查看并测试 scripts/extract.py（它行为透明：只读 PDF、写入输出目录、没有网络调用），用非敏感示例先做本地测试。 - 注意“归档到 memory/ 目录”是可选行为：若启用归档，确认目标存储位置和访问策略。总体上该技能看起来是合理且一致的（benign）。若你需要更高的保证，提供平台会如何执行“视觉 AI 分析”（本地/远程、若远程需哪些凭据和终端）将有助于降低剩余风险。

功能分析

Type: OpenClaw Skill Name: pdf-vision-reader Version: 1.0.0 The skill bundle is a legitimate tool for converting PDF files into images for AI vision analysis. The core logic in `scripts/extract.py` uses the standard PyMuPDF library to render pages as PNGs and contains no network activity, obfuscation, or unauthorized file access. The instructions in `SKILL.md` are consistent with the stated purpose and do not contain any prompt-injection attacks or malicious directives.

能力评估

✓ Purpose & Capability

技能宣称将 PDF 渲染为图片并用视觉模型分析，仓库包含用于将 PDF 转为 PNG 的 scripts/extract.py，README 与 _meta.json 中列出的 Python 依赖（pymupdf、numpy、opencv-python-headless）与该功能匹配。没有看到与目的不符的环境变量、二进制或外部凭据要求。

ℹ Instruction Scope

SKILL.md 指示提取页面为 PNG 并“用视觉 AI 模型分析”，整体流程清晰且仅涉及 PDF 提取与视觉分析，但未明确说明“视觉 AI 模型”在哪里运行（本地库或外部服务）。这留有执行端选择的空间：如果平台将图片发送到第三方托管模型，可能会把敏感文档内容传输到外部。归档到 memory/ 目录也被提及，但这是可选且应由用户确认。

✓ Install Mechanism

没有 install spec（instruction-only 为主），仅包含 Python 脚本和说明，README 建议通过 pip 安装少量常见依赖。没有看到从不可信 URL 下载或解压任意二进制的高风险安装步骤。

✓ Credentials

技能不要求任何环境变量或凭据（requires.env 为空），也不声明访问系统配置路径。所需资源（Python 库）与实现功能成比例。唯一需要注意的是视觉分析步骤可能依赖平台对外的模型调用（未在技能内声明凭据），这不是技能本身直接请求的。

✓ Persistence & Privilege

flags 中没有 always:true，技能默认可由模型调用（平台默认），但不会强制常驻或修改其他技能/全局配置。脚本也仅在需要时运行并将输出写入指定输出目录。

如何使用

确保已安装 OpenClaw（本地或 Docker 部署）
在对话框中输入安装命令：/install pdf-vision-reader
安装完成后，直接呼叫该 Skill 的名称或使用 /pdf-vision-reader 触发
根据 Skill 的参数说明提供必要输入，即可获得结构化输出

版本历史

v1.0.0

首个版本：PDF转图片+AI视觉理解，支持幻灯片/图片型/扫描件PDF

元数据

Slug pdf-vision-reader

版本 1.0.0

许可证 MIT-0

累计安装 0

当前安装数 0

历史版本数 1

常见问题