← 返回 Skills 市场

TinyScraper

Name: TinyScraper
Author: alukardo

作者林捷 · GitHub ↗ · v1.0.2 · MIT-0

cross-platform ⚠ suspicious

总下载

当前安装

版本数

在 OpenClaw 中安装

/install tiny-scraper

功能描述

简单静态网站镜像爬虫。给定 URL 下载整个域名下的 HTML、JS、CSS 和静态资源到本地，支持离线浏览。

安全使用建议

TinyScraper 看起来是一个自包含的本地静态网站镜像工具： - 它不会要求 API keys 或外部凭证；网络操作仅用于抓取目标网站。 - 注意它默认忽略 robots.txt 且 MAX_DEPTH 默认为 -1（无限深度），可能导致大规模或不合规抓取；在使用前建议在 conf/.tinyscraper.conf 中设置合适的 DELAY 与 MAX_DEPTH 并先运行 --dry-run。 - 默认保存位置基于 OPENCLAW_WORKSPACE（默认为 ~/.openclaw/workspace/tmp/mirrors），如果你期望输出到当前目录请修改配置或环境变量。 - 如果担心安全或隐藏行为，可在受控环境（沙箱或容器）中先运行 test_crawler.py 和一个小型目标站点的 dry-run，并审阅完整 crawler.py（提供的文件在示例中被截断，若你需要更高置信度，要求完整未截断源码以便进一步审查）。

功能分析

Type: OpenClaw Skill Name: tiny-scraper Version: 1.0.2 The TinyScraper skill is a functional website mirroring tool, but it contains a potential path traversal vulnerability in `lib/crawler.py`. The `url_to_filepath` function uses `os.path.normpath` and `os.path.join` on components derived directly from crawled URLs without sufficient sanitization against directory traversal sequences (e.g., `../`). This could allow a malicious website to influence the local file path and potentially write files outside the intended `tmp/mirrors/` directory. While this is a significant security flaw, there is no clear evidence of intentional malice, data exfiltration, or hardcoded backdoors, warranting a 'suspicious' rather than 'malicious' classification.

能力评估

✓ Purpose & Capability

名称与描述（镜像静态网站）与包含的代码和测试一致：库使用 urllib/html.parser 等标准库抓取并重写静态资源、将文件写入本地镜像目录。没有请求与目的无关的外部凭据或二进制依赖。

ℹ Instruction Scope

SKILL.md 指示的行为（下载域内 HTML/静态资源、重写同域链接、提供 --dry-run）与 crawler.py 中的解析与重写逻辑一致。需要注意：SKILL.md / SPEC.md 明确写明 robots.txt 会被忽略（伦理/合法性注意），并且默认 MAX_DEPTH=-1（无限深度），可能导致大规模抓取。SKILL.md 中示例路径使用 tmp/mirrors，但实际路径会被解析到 OPENCLAW_WORKSPACE 下（见下文），这点对用户期望需要明确。

✓ Install Mechanism

无安装规范（instruction-only / 包含纯 Python 源文件），不从外部 URL 下载或执行不明安装脚本，风险较低。源码为纯标准库实现，没有绑定到第三方包管理器或远程二进制下载。

ℹ Credentials

不要求任何显式环境变量或凭据。代码会读取可选环境变量 OPENCLAW_WORKSPACE（有默认值）并基于 conf/.tinyscraper.conf 配置 DELAY、MAX_DEPTH、TIMEOUT、MIRRORS_DIR、USER_AGENT。这些是与功能相关且比例合理，但用户应知悉输出目录默认在 OPENCLAW_WORKSPACE 下（~/.openclaw/workspace/tmp/mirrors/...），不是当前工作目录。

✓ Persistence & Privilege

技能没有设置 always: true，也不修改其他技能或系统范围配置。它会在磁盘上创建镜像文件与日志（在 MIRRORS_DIR）；这是工具正常行为且范围有限。

如何使用

确保已安装 OpenClaw（本地或 Docker 部署）
在对话框中输入安装命令：/install tiny-scraper
安装完成后，直接呼叫该 Skill 的名称或使用 /tiny-scraper 触发
根据 Skill 的参数说明提供必要输入，即可获得结构化输出

版本历史

v1.0.2

Fix: downloaded/visited deduplication logic, fix stats double-counting, CSS sub-resource extraction, environment-based workspace path

v1.0.1

Fix: remove hardcoded workspace path, use OPENCLAW_WORKSPACE env var

v1.0.0

Initial release: static website mirror crawler with Python3

元数据

Slug tiny-scraper

版本 1.0.2

许可证 MIT-0

累计安装 0

当前安装数 0

历史版本数 3

常见问题

TinyScraper 是什么？

简单静态网站镜像爬虫。给定 URL 下载整个域名下的 HTML、JS、CSS 和静态资源到本地，支持离线浏览。它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件，目前累计下载 91 次。

如何安装 TinyScraper？

在 OpenClaw 或 Claude Code 对话框中运行命令「/install tiny-scraper」即可一键安装，无需额外配置。

TinyScraper 是免费的吗？

是的，TinyScraper 完全免费，采用 MIT-0 许可证，可自由下载、安装和使用。

TinyScraper 支持哪些平台？

TinyScraper 跨平台运行，可在任意部署了 OpenClaw / Claude Code 的环境中使用（cross-platform）。

谁开发了 TinyScraper？

由林捷（@alukardo）开发并维护，当前版本 v1.0.2。