← 返回 Skills 市场
126
总下载
0
收藏
0
当前安装
3
版本数
在 OpenClaw 中安装
/install mama-crawler
功能描述
妈妈网育儿知识爬虫(PC端)。爬取妈妈网(www.mama.cn)育儿文章,输出 Markdown 格式并存入御知库(~/.yuzhi/crawls/mama_cn/)。默认使用PC端User-Agent,按分类或关键词搜索爬取。帝说"爬取妈妈网"、"/爬虫"或需要采集育儿知识时触发。
使用说明 (SKILL.md)
妈妈网育儿知识爬虫(PC端)
命令
python3 scripts/mama_crawler.py --category \x3C分类> --max-pages \x3C页数> --max-articles \x3C数量>
按分类爬取妈妈网文章(PC端)。
分类选项:
baby— 亲子yingyang— 营养disease— 疾病lady— 女性yongpin— 用品life— 生活
python3 scripts/mama_crawler.py --search \x3C关键词> --max-articles \x3C数量>
通过PC端搜索爬取相关文章。
python3 scripts/mama_crawler.py --all --max-pages 3 --max-articles 30
爬取所有分类(慎用,会花较长时间)。
输出
文章保存到 ~/.yuzhi/crawls/mama_cn/\x3C分类名>/ 目录下,每个文章一个 .md 文件,包含标题、来源、日期和正文。
反爬机制
- 每次请求间隔 2-5 秒随机延迟
- 使用桌面浏览器 User-Agent
- 不验证 SSL 证书
技术说明
- 默认 PC 端(www.mama.cn),结构稳定
- 文章 URL 格式:
https://www.mama.cn/z/art/\x3Cid>/ - PC 端分类页面文章较少,建议使用
--search关键词搜索模式获取更多内容
安全使用建议
要点与建议(非技术性):
- 这项技能基本做它声称的事:从 mama.cn 抓文章并存成 Markdown 到你的 ~/.yuzhi 目录。
- 注意它调用系统上的 curl(脚本用 subprocess 执行),但 registry 描述中没有声明需要 curl;安装前请确保你的环境有 curl,或手动查看并修改脚本以使用 Python 的 requests 等库。
- 脚本使用 curl 的 -k 选项禁用 SSL 证书验证,这会让抓取对中间人攻击更脆弱;如果你在不受信任网络上运行,慎用或修改去掉 -k。
- 脚本没有检查或声明遵守 robots.txt 或网站抓取政策;在大量抓取(--all、较大页数或频繁运行)前,请确认目标网站的使用条款和 robots.txt,避免法律/道德问题,并考虑降低速率或加上更严格的限速。
- 如果你对安全或合规有顾虑,可以先在隔离环境(容器或临时账户)中运行,检查输出文件是否符合预期,再决定是否长期使用。
- 概括:功能一致且无明显恶意,但实现上有可改进点(依赖声明、SSL 验证、抓取礼貌性),请权衡合规与安全后再安装/运行。
功能分析
Type: OpenClaw Skill
Name: mama-crawler
Version: 1.1.0
The mama-crawler skill is a functional web scraper for the parenting site mama.cn, but it contains a security vulnerability and uses risky execution methods. Specifically, in scripts/mama_crawler.py, the script uses subprocess to execute curl and explicitly disables SSL certificate verification (using the -k flag), which exposes the agent to potential man-in-the-middle attacks. While these behaviors are plausibly needed for the stated purpose and no evidence of intentional malice or data exfiltration was found, the combination of system-level execution and intentional security bypasses meets the threshold for a suspicious classification.
能力评估
Purpose & Capability
技能名/描述与脚本功能一致:按分类或关键词抓取妈妈网文章、转换为 Markdown 并存入 ~/.yuzhi/crawls/mama_cn/。未请求额外凭据或不相关权限。唯一不一致点是脚本通过 subprocess 调用 curl,但 registry metadata 未声明需要 curl。
Instruction Scope
SKILL.md 指示运行脚本,脚本只访问 mama.cn 域并将结果写入用户主目录下的 ~/.yuzhi 路径;没有将数据上报到其他网络端点或访问系统范围配置。不过脚本和说明都明确“不验证 SSL 证书”,并未提及遵守 robots.txt 或站点使用条款,这涉及合规/礼貌抓取问题(以及中间人风险)。
Install Mechanism
无安装规范(instruction-only),不会在安装阶段下载或写入额外代码,这降低了安装风险。但脚本依赖系统 curl(二进制)用于 HTTP 请求,且 metadata 未声明该依赖;如果系统未安装 curl,脚本会失败。
Credentials
技能不请求任何环境变量、凭据或配置路径。写入仅限于用户主目录下的 ~/.yuzhi 子目录,与技能目的相符,未见多余或不相关的凭据访问请求。
Persistence & Privilege
flags 显示默认行为(always: false,agent 可调用但非强制包含)。代码不会修改其他技能或系统范围设置,仅在运行时写入其自己的目录,权限范围合适。
如何使用
- 确保已安装 OpenClaw(本地或 Docker 部署)
- 在对话框中输入安装命令:
/install mama-crawler - 安装完成后,直接呼叫该 Skill 的名称或使用
/mama-crawler触发 - 根据 Skill 的参数说明提供必要输入,即可获得结构化输出
版本历史
v1.1.0
- 切换爬取目标至妈妈网 PC 端(www.mama.cn),使用桌面 User-Agent。
- 新增技术说明,强调 PC 端结构特点和建议的爬取方式。
- 用词统一为“PC端”,不再使用移动客户端入口。
- 细化命令与使用说明,反映 PC 端适配更新。
- 更新安全和反爬虫措施说明。
v1.0.1
- Minor update to mama-crawler (v1.0.1).
- Updated scripts/mama_crawler.py (details not specified).
- No changes to documentation or user-facing features.
v1.0.0
Initial release of mama-crawler: a web crawler for collecting parenting articles from mama.cn.
- Supports category and keyword-based crawling via command line.
- Saves articles as Markdown files in ~/.yuzhi/crawls/mama_cn/.
- Implements randomized delays and user-agent spoofing to avoid anti-crawling.
- Designed for small-scale, robots.txt-compliant usage.
- Triggered by requests to collect parenting knowledge from mama.cn.
元数据
常见问题
妈妈网爬虫 是什么?
妈妈网育儿知识爬虫(PC端)。爬取妈妈网(www.mama.cn)育儿文章,输出 Markdown 格式并存入御知库(~/.yuzhi/crawls/mama_cn/)。默认使用PC端User-Agent,按分类或关键词搜索爬取。帝说"爬取妈妈网"、"/爬虫"或需要采集育儿知识时触发。 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件,目前累计下载 126 次。
如何安装 妈妈网爬虫?
在 OpenClaw 或 Claude Code 对话框中运行命令「/install mama-crawler」即可一键安装,无需额外配置。
妈妈网爬虫 是免费的吗?
是的,妈妈网爬虫 完全免费,采用 MIT-0 许可证,可自由下载、安装和使用。
妈妈网爬虫 支持哪些平台?
妈妈网爬虫 跨平台运行,可在任意部署了 OpenClaw / Claude Code 的环境中使用(cross-platform)。
谁开发了 妈妈网爬虫?
由 zton100(@zton100)开发并维护,当前版本 v1.1.0。
推荐 Skills