← Back to Skills Marketplace
itixobepafi130-ctrl

PDF视觉阅读器

by itixobepafi130-ctrl · GitHub ↗ · v1.0.0 · MIT-0
cross-platform ✓ Security Clean
340
Downloads
0
Stars
0
Active Installs
1
Versions
Install in OpenClaw
/install pdf-vision-reader
Description
PDF视觉阅读器 — 将PDF转换为图片,通过AI视觉模型理解PDF内容。 当用户发送PDF文件或提供PDF路径,需要理解、分析、总结PDF内容时使用。 能力: - 将PDF每页渲染为高清PNG图片(PyMuPDF) - 使用AI视觉模型分析图片内容(中英文均可) - 支持幻灯片型、图片型、扫描件型PDF - 自...
README (SKILL.md)

PDF视觉阅读器 (pdf-vision-reader)

工作流程

用户发送PDF
    ↓
提取PDF页面为PNG图片(PyMuPDF, 2x缩放)
    ↓
分批次用视觉AI分析(每批4-5页)
    ↓
整合视觉分析结果
    ↓
可选后续处理:
  - 整理为结构化摘要
  - 提炼关键数据/要点
  - 归档至 memory/ 目录
  - 回答用户具体问题

使用场景

  • 用户发来 PDF 需要分析理解
  • 图片型/幻灯片型 PDF 无法用文字提取
  • 扫描件 PDF 识别
  • 需要理解 PDF 中的图表、数据、布局信息

输出格式

建议输出结构:

## PDF内容概览
[总页数] 页,主题:[...]

## 分页详解
### 第X页
[视觉AI返回的详细描述]

## 关键信息提炼
[数据/要点/结论]

## 相关知识
[如果已有相关背景知识,可关联补充]

注意事项

  • PDF路径包含中文时,Python读取可能需处理编码
  • 视觉分析每批4-5页,避免超出token限制
  • 对于非常长的PDF(>50页),可先分析目录页+重点页面
  • 分析完成后可询问用户是否需要归档到memory目录
Usage Guidance
概览:此技能内部一致——它包含一个用 PyMuPDF 把 PDF 转为 PNG 的脚本,说明中要求用视觉 AI 分析图片,但未声明将使用哪个模型或外部服务。 在安装/使用前请注意: - 如果处理敏感或受限内容,先确认“视觉 AI 模型”在哪里运行:本地模型与第三方云服务的隐私与合规性不同,第三方模型可能会将图片上传到外部服务器。 - 在受信任环境中通过 pip 安装依赖(pymupdf、numpy、opencv-python-headless);最好在虚拟环境中安装并确认包来自官方 PyPI 源。 - 查看并测试 scripts/extract.py(它行为透明:只读 PDF、写入输出目录、没有网络调用),用非敏感示例先做本地测试。 - 注意“归档到 memory/ 目录”是可选行为:若启用归档,确认目标存储位置和访问策略。 总体上该技能看起来是合理且一致的(benign)。若你需要更高的保证,提供平台会如何执行“视觉 AI 分析”(本地/远程、若远程需哪些凭据和终端)将有助于降低剩余风险。
Capability Analysis
Type: OpenClaw Skill Name: pdf-vision-reader Version: 1.0.0 The skill bundle is a legitimate tool for converting PDF files into images for AI vision analysis. The core logic in `scripts/extract.py` uses the standard PyMuPDF library to render pages as PNGs and contains no network activity, obfuscation, or unauthorized file access. The instructions in `SKILL.md` are consistent with the stated purpose and do not contain any prompt-injection attacks or malicious directives.
Capability Assessment
Purpose & Capability
技能宣称将 PDF 渲染为图片并用视觉模型分析,仓库包含用于将 PDF 转为 PNG 的 scripts/extract.py,README 与 _meta.json 中列出的 Python 依赖(pymupdf、numpy、opencv-python-headless)与该功能匹配。没有看到与目的不符的环境变量、二进制或外部凭据要求。
Instruction Scope
SKILL.md 指示提取页面为 PNG 并“用视觉 AI 模型分析”,整体流程清晰且仅涉及 PDF 提取与视觉分析,但未明确说明“视觉 AI 模型”在哪里运行(本地库或外部服务)。这留有执行端选择的空间:如果平台将图片发送到第三方托管模型,可能会把敏感文档内容传输到外部。归档到 memory/ 目录也被提及,但这是可选且应由用户确认。
Install Mechanism
没有 install spec(instruction-only 为主),仅包含 Python 脚本和说明,README 建议通过 pip 安装少量常见依赖。没有看到从不可信 URL 下载或解压任意二进制的高风险安装步骤。
Credentials
技能不要求任何环境变量或凭据(requires.env 为空),也不声明访问系统配置路径。所需资源(Python 库)与实现功能成比例。唯一需要注意的是视觉分析步骤可能依赖平台对外的模型调用(未在技能内声明凭据),这不是技能本身直接请求的。
Persistence & Privilege
flags 中没有 always:true,技能默认可由模型调用(平台默认),但不会强制常驻或修改其他技能/全局配置。脚本也仅在需要时运行并将输出写入指定输出目录。
How to Use
  1. Make sure OpenClaw is installed (local or Docker)
  2. Run the install command in chat: /install pdf-vision-reader
  3. After installation, invoke the skill by name or use /pdf-vision-reader
  4. Provide required inputs per the skill's parameter spec and get structured output
Version History
v1.0.0
首个版本:PDF转图片+AI视觉理解,支持幻灯片/图片型/扫描件PDF
Metadata
Slug pdf-vision-reader
Version 1.0.0
License MIT-0
All-time Installs 0
Active Installs 0
Total Versions 1
Frequently Asked Questions

What is PDF视觉阅读器?

PDF视觉阅读器 — 将PDF转换为图片,通过AI视觉模型理解PDF内容。 当用户发送PDF文件或提供PDF路径,需要理解、分析、总结PDF内容时使用。 能力: - 将PDF每页渲染为高清PNG图片(PyMuPDF) - 使用AI视觉模型分析图片内容(中英文均可) - 支持幻灯片型、图片型、扫描件型PDF - 自... It is an AI Agent Skill for Claude Code / OpenClaw, with 340 downloads so far.

How do I install PDF视觉阅读器?

Run "/install pdf-vision-reader" in the OpenClaw or Claude Code chat to install it in one step — no extra setup required.

Is PDF视觉阅读器 free?

Yes, PDF视觉阅读器 is completely free, licensed under MIT-0. You can download, install and use it at no cost.

Which platforms does PDF视觉阅读器 support?

PDF视觉阅读器 is cross-platform and runs anywhere OpenClaw / Claude Code is available (cross-platform).

Who created PDF视觉阅读器?

It is built and maintained by itixobepafi130-ctrl (@itixobepafi130-ctrl); the current version is v1.0.0.

💬 Comments