/install document-management
\r \r
文件分析器\r
\r 当用户提供一个包含多个文档的本地目录,并希望:\r
- 对文档进行管理\r
- 批量提取文档文本\r
- 对文档进行主题分类\r
- 基于固定模板输出一份总报告\r
- 自动将文档移动到分类后的文件夹\r \r ---\r
Token Extraction\r
\r
From user input 管理 D:\测试路径下的文档 → file_path = D:\测试\r
\r
技能目标\r
\r 本技能的目标是处理一个本地文件夹,并输出一份完整报告。\r \r 整个流程必须分为三个阶段:\r \r
- 提取文本\r
- 文档分类 + 文件整理\r
- 写报告\r \r 其中:\r
- 第一阶段由脚本完成\r
- 第二阶段完成分类 + 文件移动\r
- 第三阶段写报告时,必须参考用户提供的报告模板或技能内预设模板\r ---\r \r
输入\r
\r
用户会提供一个本地目录路径,例如:\r
\r
D:\papers\r
\r
目录中应包含一个或多个 .pdf 文件。\r
\r
如果用户提供的是单个文件而不是目录,不要假装支持目录分析。 \r
应明确说明该输入不符合本技能预期。\r
\r
---\r
\r
第一部分:提取文本\r
\r 这一阶段只负责从目录中的 PDF 提取原始文本。\r \r
脚本职责\r
\r 运行脚本,遍历目标目录中的全部 PDF,并提取每篇文档的纯文本。\r \r 脚本只负责:\r
- 校验目录是否存在\r
- 遍历目录中的 PDF 文件\r
- 提取 PDF 文本\r
- 返回结构化结果\r \r 不要把以下逻辑写进 Python:\r
- 分类任务\r
- 摘要生成\r
- 报告写作\r
- 模板填充\r \r 这些工作都应交给模型完成。\r \r
脚本调用\r
\r 运行脚本:\r \r
run {baseDir}/scripts/extract_pdf_folder.py "\x3Cfolder_path>"\r
```\r
\r
# 第二部分:文档分类\r
\r
## 分类数量要求\r
主题数量应根据文档数量动态调整,建议:\r
- 文档数量 3-6 篇:3-4 个主题\r
- 文档数量 7-12 篇:4-6 个主题\r
- 文档数量 12 篇以上:6-8 个主题\r
\r
分类时应考虑:\r
- **研究领域**(如机器学习、交通工程、气候科学等)\r
- **应用场景**(如预测、检测、建模、分析等)\r
- **数据类型**(如 GPS 轨迹、时序数据、遥感数据等)\r
- **方法论**(如深度学习、统计方法、混合方法等)\r
\r
优先按研究领域细分,同一领域内可按应用场景或方法论进一步区分。\r
\r
## 第二部分输入\r
输入为第一阶段返回的 `documents` 列表。\r
\r
## 第二部分执行\r
逐篇读取 `text`,判断其最核心主题。\r
将其加入到对应的文件夹。\r
\r
## 文件整理(移动文档到分类文件夹)\r
\r
### 执行要求\r
在完成文档分类后,必须将每篇 PDF 文件移动到对应的分类文件夹中。\r
\r
### 操作步骤\r
1. 在目标目录(PDF 所在目录)下创建以主题命名的子文件夹\r
2. 将每篇 PDF 移动到对应主题的子文件夹中\r
3. 文件夹名称应简洁明了,建议使用中文命名(如"电动汽车出行模式"、"城市货运物流"等)\r
\r
### 注意事项\r
- 如果目标文件夹已存在同名子文件夹,直接使用\r
- 移动前确保原文件没有被占用\r
- 报告中的"各主题下的文档归应与实际文件夹结构一致\r
\r
## 第二部分输出\r
至少形成两类内部结果:\r
1. 文档到主题的映射\r
2. 主题到文档集合的映射(根据文档数量动态调整)\r
\r
# 第三部分:写报告\r
\r
这一阶段根据以下输入生成最终报告:\r
\r
1. 第一阶段提取出的文本\r
2. 第二阶段生成的分类结果\r
3. 用户提供的模板或默认模板\r
\r
## 第三部分目标\r
\r
生成一份完整总报告。 \r
报告应先呈现整体内容,再呈现单篇文档卡片。 \r
不要把单篇卡片单独作为第一结果输出。\r
\r
## 模板位置\r
\r
默认报告模板文件位于:\r
\r
`references/report-template.md`\r
\r
写报告时,必须先读取并遵循该模板。\r
\r
如果用户在当前对话中提供了自己的模板,则优先使用用户模板。 \r
如果用户没有提供模板,则使用默认模板。\r
\r
## 第三部分执行顺序\r
\r
1. 读取并理解报告模板\r
2. 根据第一阶段文本和第二阶段分类结果整理报告内容\r
3. 先写文件夹概览\r
4. 再写主题分类结果\r
5. 再写各主题下的文档归并\r
6. 再写总体结论\r
7. 最后写单篇文档卡片\r
8. 若存在失败文件,则在末尾列出\r
\r
## 第三部分输出\r
\r
最终只输出一份完整报告,并保存。\r
\r
报告中至少应包含:\r
- 文件夹概览\r
- 主题分类结果\r
- 各主题下的文档归并\r
- 总体结论\r
- 单篇文档卡片\r
- 处理失败的文件(如有)\r
\r
## 模板遵循要求\r
\r
不要脱离模板自由生成章节结构。 \r
不要擅自增加“文档对比”“差异分析”“优劣比较”等内容,除非用户明确要求。 \r
如果模板中的某个字段无法从文本中得到明确支持,写:\r
\r
`未明确提及`\r
\r
不要为了填满模板而编造内容。
- 确保已安装 OpenClaw(本地或 Docker 部署)
- 在对话框中输入安装命令:
/install document-management - 安装完成后,直接呼叫该 Skill 的名称或使用
/document-management触发 - 根据 Skill 的参数说明提供必要输入,即可获得结构化输出
document-management 是什么?
Analyze, classify, organize, summarize, and report on PDFs within a given local folder, including batch processing and auto-sorting by topic. 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件,目前累计下载 291 次。
如何安装 document-management?
在 OpenClaw 或 Claude Code 对话框中运行命令「/install document-management」即可一键安装,无需额外配置。
document-management 是免费的吗?
是的,document-management 完全免费,采用 MIT-0 许可证,可自由下载、安装和使用。
document-management 支持哪些平台?
document-management 跨平台运行,可在任意部署了 OpenClaw / Claude Code 的环境中使用(cross-platform)。
谁开发了 document-management?
由 wyj0124(@wyj0124)开发并维护,当前版本 v1.0.0。