← 返回 Skills 市场
PDF视觉阅读器
作者
itixobepafi130-ctrl
· GitHub ↗
· v1.0.0
· MIT-0
340
总下载
0
收藏
0
当前安装
1
版本数
在 OpenClaw 中安装
/install pdf-vision-reader
功能描述
PDF视觉阅读器 — 将PDF转换为图片,通过AI视觉模型理解PDF内容。 当用户发送PDF文件或提供PDF路径,需要理解、分析、总结PDF内容时使用。 能力: - 将PDF每页渲染为高清PNG图片(PyMuPDF) - 使用AI视觉模型分析图片内容(中英文均可) - 支持幻灯片型、图片型、扫描件型PDF - 自...
使用说明 (SKILL.md)
PDF视觉阅读器 (pdf-vision-reader)
工作流程
用户发送PDF
↓
提取PDF页面为PNG图片(PyMuPDF, 2x缩放)
↓
分批次用视觉AI分析(每批4-5页)
↓
整合视觉分析结果
↓
可选后续处理:
- 整理为结构化摘要
- 提炼关键数据/要点
- 归档至 memory/ 目录
- 回答用户具体问题
使用场景
- 用户发来 PDF 需要分析理解
- 图片型/幻灯片型 PDF 无法用文字提取
- 扫描件 PDF 识别
- 需要理解 PDF 中的图表、数据、布局信息
输出格式
建议输出结构:
## PDF内容概览
[总页数] 页,主题:[...]
## 分页详解
### 第X页
[视觉AI返回的详细描述]
## 关键信息提炼
[数据/要点/结论]
## 相关知识
[如果已有相关背景知识,可关联补充]
注意事项
- PDF路径包含中文时,Python读取可能需处理编码
- 视觉分析每批4-5页,避免超出token限制
- 对于非常长的PDF(>50页),可先分析目录页+重点页面
- 分析完成后可询问用户是否需要归档到memory目录
安全使用建议
概览:此技能内部一致——它包含一个用 PyMuPDF 把 PDF 转为 PNG 的脚本,说明中要求用视觉 AI 分析图片,但未声明将使用哪个模型或外部服务。 在安装/使用前请注意:
- 如果处理敏感或受限内容,先确认“视觉 AI 模型”在哪里运行:本地模型与第三方云服务的隐私与合规性不同,第三方模型可能会将图片上传到外部服务器。
- 在受信任环境中通过 pip 安装依赖(pymupdf、numpy、opencv-python-headless);最好在虚拟环境中安装并确认包来自官方 PyPI 源。
- 查看并测试 scripts/extract.py(它行为透明:只读 PDF、写入输出目录、没有网络调用),用非敏感示例先做本地测试。
- 注意“归档到 memory/ 目录”是可选行为:若启用归档,确认目标存储位置和访问策略。
总体上该技能看起来是合理且一致的(benign)。若你需要更高的保证,提供平台会如何执行“视觉 AI 分析”(本地/远程、若远程需哪些凭据和终端)将有助于降低剩余风险。
功能分析
Type: OpenClaw Skill
Name: pdf-vision-reader
Version: 1.0.0
The skill bundle is a legitimate tool for converting PDF files into images for AI vision analysis. The core logic in `scripts/extract.py` uses the standard PyMuPDF library to render pages as PNGs and contains no network activity, obfuscation, or unauthorized file access. The instructions in `SKILL.md` are consistent with the stated purpose and do not contain any prompt-injection attacks or malicious directives.
能力评估
Purpose & Capability
技能宣称将 PDF 渲染为图片并用视觉模型分析,仓库包含用于将 PDF 转为 PNG 的 scripts/extract.py,README 与 _meta.json 中列出的 Python 依赖(pymupdf、numpy、opencv-python-headless)与该功能匹配。没有看到与目的不符的环境变量、二进制或外部凭据要求。
Instruction Scope
SKILL.md 指示提取页面为 PNG 并“用视觉 AI 模型分析”,整体流程清晰且仅涉及 PDF 提取与视觉分析,但未明确说明“视觉 AI 模型”在哪里运行(本地库或外部服务)。这留有执行端选择的空间:如果平台将图片发送到第三方托管模型,可能会把敏感文档内容传输到外部。归档到 memory/ 目录也被提及,但这是可选且应由用户确认。
Install Mechanism
没有 install spec(instruction-only 为主),仅包含 Python 脚本和说明,README 建议通过 pip 安装少量常见依赖。没有看到从不可信 URL 下载或解压任意二进制的高风险安装步骤。
Credentials
技能不要求任何环境变量或凭据(requires.env 为空),也不声明访问系统配置路径。所需资源(Python 库)与实现功能成比例。唯一需要注意的是视觉分析步骤可能依赖平台对外的模型调用(未在技能内声明凭据),这不是技能本身直接请求的。
Persistence & Privilege
flags 中没有 always:true,技能默认可由模型调用(平台默认),但不会强制常驻或修改其他技能/全局配置。脚本也仅在需要时运行并将输出写入指定输出目录。
如何使用
- 确保已安装 OpenClaw(本地或 Docker 部署)
- 在对话框中输入安装命令:
/install pdf-vision-reader - 安装完成后,直接呼叫该 Skill 的名称或使用
/pdf-vision-reader触发 - 根据 Skill 的参数说明提供必要输入,即可获得结构化输出
版本历史
v1.0.0
首个版本:PDF转图片+AI视觉理解,支持幻灯片/图片型/扫描件PDF
元数据
常见问题
PDF视觉阅读器 是什么?
PDF视觉阅读器 — 将PDF转换为图片,通过AI视觉模型理解PDF内容。 当用户发送PDF文件或提供PDF路径,需要理解、分析、总结PDF内容时使用。 能力: - 将PDF每页渲染为高清PNG图片(PyMuPDF) - 使用AI视觉模型分析图片内容(中英文均可) - 支持幻灯片型、图片型、扫描件型PDF - 自... 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件,目前累计下载 340 次。
如何安装 PDF视觉阅读器?
在 OpenClaw 或 Claude Code 对话框中运行命令「/install pdf-vision-reader」即可一键安装,无需额外配置。
PDF视觉阅读器 是免费的吗?
是的,PDF视觉阅读器 完全免费,采用 MIT-0 许可证,可自由下载、安装和使用。
PDF视觉阅读器 支持哪些平台?
PDF视觉阅读器 跨平台运行,可在任意部署了 OpenClaw / Claude Code 的环境中使用(cross-platform)。
谁开发了 PDF视觉阅读器?
由 itixobepafi130-ctrl(@itixobepafi130-ctrl)开发并维护,当前版本 v1.0.0。
推荐 Skills