← Back to Skills Marketplace
126
Downloads
0
Stars
0
Active Installs
3
Versions
Install in OpenClaw
/install mama-crawler
Description
妈妈网育儿知识爬虫(PC端)。爬取妈妈网(www.mama.cn)育儿文章,输出 Markdown 格式并存入御知库(~/.yuzhi/crawls/mama_cn/)。默认使用PC端User-Agent,按分类或关键词搜索爬取。帝说"爬取妈妈网"、"/爬虫"或需要采集育儿知识时触发。
README (SKILL.md)
妈妈网育儿知识爬虫(PC端)
命令
python3 scripts/mama_crawler.py --category \x3C分类> --max-pages \x3C页数> --max-articles \x3C数量>
按分类爬取妈妈网文章(PC端)。
分类选项:
baby— 亲子yingyang— 营养disease— 疾病lady— 女性yongpin— 用品life— 生活
python3 scripts/mama_crawler.py --search \x3C关键词> --max-articles \x3C数量>
通过PC端搜索爬取相关文章。
python3 scripts/mama_crawler.py --all --max-pages 3 --max-articles 30
爬取所有分类(慎用,会花较长时间)。
输出
文章保存到 ~/.yuzhi/crawls/mama_cn/\x3C分类名>/ 目录下,每个文章一个 .md 文件,包含标题、来源、日期和正文。
反爬机制
- 每次请求间隔 2-5 秒随机延迟
- 使用桌面浏览器 User-Agent
- 不验证 SSL 证书
技术说明
- 默认 PC 端(www.mama.cn),结构稳定
- 文章 URL 格式:
https://www.mama.cn/z/art/\x3Cid>/ - PC 端分类页面文章较少,建议使用
--search关键词搜索模式获取更多内容
Usage Guidance
要点与建议(非技术性):
- 这项技能基本做它声称的事:从 mama.cn 抓文章并存成 Markdown 到你的 ~/.yuzhi 目录。
- 注意它调用系统上的 curl(脚本用 subprocess 执行),但 registry 描述中没有声明需要 curl;安装前请确保你的环境有 curl,或手动查看并修改脚本以使用 Python 的 requests 等库。
- 脚本使用 curl 的 -k 选项禁用 SSL 证书验证,这会让抓取对中间人攻击更脆弱;如果你在不受信任网络上运行,慎用或修改去掉 -k。
- 脚本没有检查或声明遵守 robots.txt 或网站抓取政策;在大量抓取(--all、较大页数或频繁运行)前,请确认目标网站的使用条款和 robots.txt,避免法律/道德问题,并考虑降低速率或加上更严格的限速。
- 如果你对安全或合规有顾虑,可以先在隔离环境(容器或临时账户)中运行,检查输出文件是否符合预期,再决定是否长期使用。
- 概括:功能一致且无明显恶意,但实现上有可改进点(依赖声明、SSL 验证、抓取礼貌性),请权衡合规与安全后再安装/运行。
Capability Analysis
Type: OpenClaw Skill
Name: mama-crawler
Version: 1.1.0
The mama-crawler skill is a functional web scraper for the parenting site mama.cn, but it contains a security vulnerability and uses risky execution methods. Specifically, in scripts/mama_crawler.py, the script uses subprocess to execute curl and explicitly disables SSL certificate verification (using the -k flag), which exposes the agent to potential man-in-the-middle attacks. While these behaviors are plausibly needed for the stated purpose and no evidence of intentional malice or data exfiltration was found, the combination of system-level execution and intentional security bypasses meets the threshold for a suspicious classification.
Capability Assessment
Purpose & Capability
技能名/描述与脚本功能一致:按分类或关键词抓取妈妈网文章、转换为 Markdown 并存入 ~/.yuzhi/crawls/mama_cn/。未请求额外凭据或不相关权限。唯一不一致点是脚本通过 subprocess 调用 curl,但 registry metadata 未声明需要 curl。
Instruction Scope
SKILL.md 指示运行脚本,脚本只访问 mama.cn 域并将结果写入用户主目录下的 ~/.yuzhi 路径;没有将数据上报到其他网络端点或访问系统范围配置。不过脚本和说明都明确“不验证 SSL 证书”,并未提及遵守 robots.txt 或站点使用条款,这涉及合规/礼貌抓取问题(以及中间人风险)。
Install Mechanism
无安装规范(instruction-only),不会在安装阶段下载或写入额外代码,这降低了安装风险。但脚本依赖系统 curl(二进制)用于 HTTP 请求,且 metadata 未声明该依赖;如果系统未安装 curl,脚本会失败。
Credentials
技能不请求任何环境变量、凭据或配置路径。写入仅限于用户主目录下的 ~/.yuzhi 子目录,与技能目的相符,未见多余或不相关的凭据访问请求。
Persistence & Privilege
flags 显示默认行为(always: false,agent 可调用但非强制包含)。代码不会修改其他技能或系统范围设置,仅在运行时写入其自己的目录,权限范围合适。
How to Use
- Make sure OpenClaw is installed (local or Docker)
- Run the install command in chat:
/install mama-crawler - After installation, invoke the skill by name or use
/mama-crawler - Provide required inputs per the skill's parameter spec and get structured output
Version History
v1.1.0
- 切换爬取目标至妈妈网 PC 端(www.mama.cn),使用桌面 User-Agent。
- 新增技术说明,强调 PC 端结构特点和建议的爬取方式。
- 用词统一为“PC端”,不再使用移动客户端入口。
- 细化命令与使用说明,反映 PC 端适配更新。
- 更新安全和反爬虫措施说明。
v1.0.1
- Minor update to mama-crawler (v1.0.1).
- Updated scripts/mama_crawler.py (details not specified).
- No changes to documentation or user-facing features.
v1.0.0
Initial release of mama-crawler: a web crawler for collecting parenting articles from mama.cn.
- Supports category and keyword-based crawling via command line.
- Saves articles as Markdown files in ~/.yuzhi/crawls/mama_cn/.
- Implements randomized delays and user-agent spoofing to avoid anti-crawling.
- Designed for small-scale, robots.txt-compliant usage.
- Triggered by requests to collect parenting knowledge from mama.cn.
Metadata
Frequently Asked Questions
What is 妈妈网爬虫?
妈妈网育儿知识爬虫(PC端)。爬取妈妈网(www.mama.cn)育儿文章,输出 Markdown 格式并存入御知库(~/.yuzhi/crawls/mama_cn/)。默认使用PC端User-Agent,按分类或关键词搜索爬取。帝说"爬取妈妈网"、"/爬虫"或需要采集育儿知识时触发。 It is an AI Agent Skill for Claude Code / OpenClaw, with 126 downloads so far.
How do I install 妈妈网爬虫?
Run "/install mama-crawler" in the OpenClaw or Claude Code chat to install it in one step — no extra setup required.
Is 妈妈网爬虫 free?
Yes, 妈妈网爬虫 is completely free, licensed under MIT-0. You can download, install and use it at no cost.
Which platforms does 妈妈网爬虫 support?
妈妈网爬虫 is cross-platform and runs anywhere OpenClaw / Claude Code is available (cross-platform).
Who created 妈妈网爬虫?
It is built and maintained by zton100 (@zton100); the current version is v1.1.0.
More Skills