← Back to Skills Marketplace

PDF视觉阅读器

Name: PDF视觉阅读器
Author: itixobepafi130-ctrl

by itixobepafi130-ctrl · GitHub ↗ · v1.0.0 · MIT-0

cross-platform ✓ Security Clean

340

Downloads

Stars

Active Installs

Versions

Install in OpenClaw

/install pdf-vision-reader

Description

PDF视觉阅读器 — 将PDF转换为图片，通过AI视觉模型理解PDF内容。当用户发送PDF文件或提供PDF路径，需要理解、分析、总结PDF内容时使用。能力： - 将PDF每页渲染为高清PNG图片（PyMuPDF） - 使用AI视觉模型分析图片内容（中英文均可） - 支持幻灯片型、图片型、扫描件型PDF - 自...

README (SKILL.md)

PDF视觉阅读器 (pdf-vision-reader)

工作流程

用户发送PDF
    ↓
提取PDF页面为PNG图片（PyMuPDF, 2x缩放）
    ↓
分批次用视觉AI分析（每批4-5页）
    ↓
整合视觉分析结果
    ↓
可选后续处理：
  - 整理为结构化摘要
  - 提炼关键数据/要点
  - 归档至 memory/ 目录
  - 回答用户具体问题

使用场景

用户发来 PDF 需要分析理解
图片型/幻灯片型 PDF 无法用文字提取
扫描件 PDF 识别
需要理解 PDF 中的图表、数据、布局信息

输出格式

建议输出结构：

## PDF内容概览
[总页数] 页，主题：[...]

## 分页详解
### 第X页
[视觉AI返回的详细描述]

## 关键信息提炼
[数据/要点/结论]

## 相关知识
[如果已有相关背景知识，可关联补充]

注意事项

PDF路径包含中文时，Python读取可能需处理编码
视觉分析每批4-5页，避免超出token限制
对于非常长的PDF（>50页），可先分析目录页+重点页面
分析完成后可询问用户是否需要归档到memory目录

Usage Guidance

概览：此技能内部一致——它包含一个用 PyMuPDF 把 PDF 转为 PNG 的脚本，说明中要求用视觉 AI 分析图片，但未声明将使用哪个模型或外部服务。在安装/使用前请注意： - 如果处理敏感或受限内容，先确认“视觉 AI 模型”在哪里运行：本地模型与第三方云服务的隐私与合规性不同，第三方模型可能会将图片上传到外部服务器。 - 在受信任环境中通过 pip 安装依赖（pymupdf、numpy、opencv-python-headless）；最好在虚拟环境中安装并确认包来自官方 PyPI 源。 - 查看并测试 scripts/extract.py（它行为透明：只读 PDF、写入输出目录、没有网络调用），用非敏感示例先做本地测试。 - 注意“归档到 memory/ 目录”是可选行为：若启用归档，确认目标存储位置和访问策略。总体上该技能看起来是合理且一致的（benign）。若你需要更高的保证，提供平台会如何执行“视觉 AI 分析”（本地/远程、若远程需哪些凭据和终端）将有助于降低剩余风险。

Capability Analysis

Type: OpenClaw Skill Name: pdf-vision-reader Version: 1.0.0 The skill bundle is a legitimate tool for converting PDF files into images for AI vision analysis. The core logic in `scripts/extract.py` uses the standard PyMuPDF library to render pages as PNGs and contains no network activity, obfuscation, or unauthorized file access. The instructions in `SKILL.md` are consistent with the stated purpose and do not contain any prompt-injection attacks or malicious directives.

Capability Assessment

✓ Purpose & Capability

技能宣称将 PDF 渲染为图片并用视觉模型分析，仓库包含用于将 PDF 转为 PNG 的 scripts/extract.py，README 与 _meta.json 中列出的 Python 依赖（pymupdf、numpy、opencv-python-headless）与该功能匹配。没有看到与目的不符的环境变量、二进制或外部凭据要求。

ℹ Instruction Scope

SKILL.md 指示提取页面为 PNG 并“用视觉 AI 模型分析”，整体流程清晰且仅涉及 PDF 提取与视觉分析，但未明确说明“视觉 AI 模型”在哪里运行（本地库或外部服务）。这留有执行端选择的空间：如果平台将图片发送到第三方托管模型，可能会把敏感文档内容传输到外部。归档到 memory/ 目录也被提及，但这是可选且应由用户确认。

✓ Install Mechanism

没有 install spec（instruction-only 为主），仅包含 Python 脚本和说明，README 建议通过 pip 安装少量常见依赖。没有看到从不可信 URL 下载或解压任意二进制的高风险安装步骤。

✓ Credentials

技能不要求任何环境变量或凭据（requires.env 为空），也不声明访问系统配置路径。所需资源（Python 库）与实现功能成比例。唯一需要注意的是视觉分析步骤可能依赖平台对外的模型调用（未在技能内声明凭据），这不是技能本身直接请求的。

✓ Persistence & Privilege

flags 中没有 always:true，技能默认可由模型调用（平台默认），但不会强制常驻或修改其他技能/全局配置。脚本也仅在需要时运行并将输出写入指定输出目录。

How to Use

Make sure OpenClaw is installed (local or Docker)
Run the install command in chat: /install pdf-vision-reader
After installation, invoke the skill by name or use /pdf-vision-reader
Provide required inputs per the skill's parameter spec and get structured output

Version History

v1.0.0

首个版本：PDF转图片+AI视觉理解，支持幻灯片/图片型/扫描件PDF

Metadata

Slug pdf-vision-reader

Version 1.0.0

License MIT-0

All-time Installs 0

Active Installs 0

Total Versions 1

Frequently Asked Questions

What is PDF视觉阅读器?

PDF视觉阅读器 — 将PDF转换为图片，通过AI视觉模型理解PDF内容。当用户发送PDF文件或提供PDF路径，需要理解、分析、总结PDF内容时使用。能力： - 将PDF每页渲染为高清PNG图片（PyMuPDF） - 使用AI视觉模型分析图片内容（中英文均可） - 支持幻灯片型、图片型、扫描件型PDF - 自... It is an AI Agent Skill for Claude Code / OpenClaw, with 340 downloads so far.

How do I install PDF视觉阅读器?

Run "/install pdf-vision-reader" in the OpenClaw or Claude Code chat to install it in one step — no extra setup required.

Is PDF视觉阅读器 free?

Yes, PDF视觉阅读器 is completely free, licensed under MIT-0. You can download, install and use it at no cost.

Which platforms does PDF视觉阅读器 support?

PDF视觉阅读器 is cross-platform and runs anywhere OpenClaw / Claude Code is available (cross-platform).

Who created PDF视觉阅读器?

It is built and maintained by itixobepafi130-ctrl (@itixobepafi130-ctrl); the current version is v1.0.0.

More Skills