← 返回 Skills 市场
91
总下载
0
收藏
0
当前安装
3
版本数
在 OpenClaw 中安装
/install tiny-scraper
功能描述
简单静态网站镜像爬虫。给定 URL 下载整个域名下的 HTML、JS、CSS 和静态资源到本地,支持离线浏览。
安全使用建议
TinyScraper 看起来是一个自包含的本地静态网站镜像工具:
- 它不会要求 API keys 或外部凭证;网络操作仅用于抓取目标网站。
- 注意它默认忽略 robots.txt 且 MAX_DEPTH 默认为 -1(无限深度),可能导致大规模或不合规抓取;在使用前建议在 conf/.tinyscraper.conf 中设置合适的 DELAY 与 MAX_DEPTH 并先运行 --dry-run。
- 默认保存位置基于 OPENCLAW_WORKSPACE(默认为 ~/.openclaw/workspace/tmp/mirrors),如果你期望输出到当前目录请修改配置或环境变量。
- 如果担心安全或隐藏行为,可在受控环境(沙箱或容器)中先运行 test_crawler.py 和一个小型目标站点的 dry-run,并审阅完整 crawler.py(提供的文件在示例中被截断,若你需要更高置信度,要求完整未截断源码以便进一步审查)。
功能分析
Type: OpenClaw Skill
Name: tiny-scraper
Version: 1.0.2
The TinyScraper skill is a functional website mirroring tool, but it contains a potential path traversal vulnerability in `lib/crawler.py`. The `url_to_filepath` function uses `os.path.normpath` and `os.path.join` on components derived directly from crawled URLs without sufficient sanitization against directory traversal sequences (e.g., `../`). This could allow a malicious website to influence the local file path and potentially write files outside the intended `tmp/mirrors/` directory. While this is a significant security flaw, there is no clear evidence of intentional malice, data exfiltration, or hardcoded backdoors, warranting a 'suspicious' rather than 'malicious' classification.
能力评估
Purpose & Capability
名称与描述(镜像静态网站)与包含的代码和测试一致:库使用 urllib/html.parser 等标准库抓取并重写静态资源、将文件写入本地镜像目录。没有请求与目的无关的外部凭据或二进制依赖。
Instruction Scope
SKILL.md 指示的行为(下载域内 HTML/静态资源、重写同域链接、提供 --dry-run)与 crawler.py 中的解析与重写逻辑一致。需要注意:SKILL.md / SPEC.md 明确写明 robots.txt 会被忽略(伦理/合法性注意),并且默认 MAX_DEPTH=-1(无限深度),可能导致大规模抓取。SKILL.md 中示例路径使用 tmp/mirrors,但实际路径会被解析到 OPENCLAW_WORKSPACE 下(见下文),这点对用户期望需要明确。
Install Mechanism
无安装规范(instruction-only / 包含纯 Python 源文件),不从外部 URL 下载或执行不明安装脚本,风险较低。源码为纯标准库实现,没有绑定到第三方包管理器或远程二进制下载。
Credentials
不要求任何显式环境变量或凭据。代码会读取可选环境变量 OPENCLAW_WORKSPACE(有默认值)并基于 conf/.tinyscraper.conf 配置 DELAY、MAX_DEPTH、TIMEOUT、MIRRORS_DIR、USER_AGENT。这些是与功能相关且比例合理,但用户应知悉输出目录默认在 OPENCLAW_WORKSPACE 下(~/.openclaw/workspace/tmp/mirrors/...),不是当前工作目录。
Persistence & Privilege
技能没有设置 always: true,也不修改其他技能或系统范围配置。它会在磁盘上创建镜像文件与日志(在 MIRRORS_DIR);这是工具正常行为且范围有限。
如何使用
- 确保已安装 OpenClaw(本地或 Docker 部署)
- 在对话框中输入安装命令:
/install tiny-scraper - 安装完成后,直接呼叫该 Skill 的名称或使用
/tiny-scraper触发 - 根据 Skill 的参数说明提供必要输入,即可获得结构化输出
版本历史
v1.0.2
Fix: downloaded/visited deduplication logic, fix stats double-counting, CSS sub-resource extraction, environment-based workspace path
v1.0.1
Fix: remove hardcoded workspace path, use OPENCLAW_WORKSPACE env var
v1.0.0
Initial release: static website mirror crawler with Python3
元数据
常见问题
TinyScraper 是什么?
简单静态网站镜像爬虫。给定 URL 下载整个域名下的 HTML、JS、CSS 和静态资源到本地,支持离线浏览。 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件,目前累计下载 91 次。
如何安装 TinyScraper?
在 OpenClaw 或 Claude Code 对话框中运行命令「/install tiny-scraper」即可一键安装,无需额外配置。
TinyScraper 是免费的吗?
是的,TinyScraper 完全免费,采用 MIT-0 许可证,可自由下载、安装和使用。
TinyScraper 支持哪些平台?
TinyScraper 跨平台运行,可在任意部署了 OpenClaw / Claude Code 的环境中使用(cross-platform)。
谁开发了 TinyScraper?
由 林捷(@alukardo)开发并维护,当前版本 v1.0.2。
推荐 Skills