Web Scraping Tool Selection Strategy
/install web-scraping-tool-selection-strategy
网页抓取工具选型策略
建立高效的网页数据采集策略,通过合理选择工具最大化抓取成功率和数据质量。
When to use this skill
- 当你需要从不同网站抓取数据但不确定使用哪种工具时
- 面对反爬机制需要绕过的复杂网站抓取场景
- 需要结构化数据输出或快速API级访问时
- 要复用已登录浏览器状态抓取私有数据时
Steps
-
优先使用opencli进行有适配器的平台抓取
- 对于小红书、知乎、微博、B站等有官方适配器的平台,使用
opencli \x3Cplatform> \x3Caction> --limit \x3Cnumber> -f json - 例如:
opencli xiaohongshu search "关键词" --limit 3 -f json - 为什么:提供结构化JSON输出,速度快,稳定性高,包含作者、标题、点赞数、发布时间等完整字段
- 对于小红书、知乎、微博、B站等有官方适配器的平台,使用
-
使用playwright-cli作为兜底方案
- 对于京东、淘宝、1688、抖音、拼多多等复杂电商网站,使用
playwright-cli goto "\x3CURL>" - 例如:
playwright-cli goto "https://item.jd.com/44541018110.html#comment" - 为什么:能够复用已登录的Chrome浏览器状态,绕过反爬机制,支持动态加载内容和登录后可见数据
- 对于京东、淘宝、1688、抖音、拼多多等复杂电商网站,使用
-
根据平台特性选择工具
- 社交媒体平台(小红书/知乎/微博/B站)→ 优先使用opencli
- 电商平台(京东/淘宝/1688/抖音/拼多多)→ 使用playwright-cli
- 为什么:opencli针对特定平台有优化适配器,playwright-cli提供通用浏览器级解决方案
-
验证工具连通性和状态
- 在正式抓取前测试工具是否正常运行
- 检查Chrome浏览器是否已正确连接
- 为什么:避免在演示或生产环境中出现连接失败的问题
Pitfalls and solutions
❌ 盲目使用单一工具 → 无法适应不同网站的反爬机制和结构差异 → ✅ 根据平台特性选择合适工具 ❌ 忽略已登录浏览器状态 → 错过登录后数据和增加登录验证步骤 → ✅ 优先复用已登录Chrome标签页 ❌ 不区分API级和浏览器级抓取 → 效率低下或数据不准确 → ✅ 结构化数据用opencli,复杂页面用playwright-cli ❌ 缺乏工具状态检查 → 演示时出现意外故障 → ✅ 演示前进行最小检查验证
Key code and configuration
# opencli小红书搜索示例
opencli xiaohongshu search "宠物猫" --limit 3 -f json
# opencli知乎热榜示例
opencli zhihu hot --limit 5 -f json
# playwright-cli京东评论抓取示例
playwright-cli goto "https://item.jd.com/44541018110.html#comment"
# playwright-cli 1688供应链抓取示例
playwright-cli goto "https://s.1688.com/selloffer/offer_search.htm?keywords=静脉曲张袜"
Environment and prerequisites
- opencli工具已安装并配置
- playwright-cli工具已安装并配置
- Chrome浏览器已安装且可被工具访问
- 网络连接稳定,能够访问目标网站
- 目标网站账号已登录(用于playwright-cli复用登录态)
Companion files
scripts/web_scraping_validator— 工具连通性验证脚本references/platform_mapping_table— 平台与工具对应关系参考表
- 确保已安装 OpenClaw(本地或 Docker 部署)
- 在对话框中输入安装命令:
/install web-scraping-tool-selection-strategy - 安装完成后,直接呼叫该 Skill 的名称或使用
/web-scraping-tool-selection-strategy触发 - 根据 Skill 的参数说明提供必要输入,即可获得结构化输出
Web Scraping Tool Selection Strategy 是什么?
如何选择合适的网页抓取工具进行数据采集。当用户提到网页抓取、数据采集、爬虫、自动化测试、浏览器自动化、网站监控、竞品分析、价格监控、评论抓取、社交媒体数据分析、电商数据采集、小红书/知乎/京东/淘宝/1688抓取、结构化数据提取、反爬绕过、浏览器复用、API抓取、实时数据监控等场景时使用此技能。包含opencli... 它是一个面向 Claude Code / OpenClaw 的 AI Agent Skill 插件,目前累计下载 220 次。
如何安装 Web Scraping Tool Selection Strategy?
在 OpenClaw 或 Claude Code 对话框中运行命令「/install web-scraping-tool-selection-strategy」即可一键安装,无需额外配置。
Web Scraping Tool Selection Strategy 是免费的吗?
是的,Web Scraping Tool Selection Strategy 完全免费,采用 MIT-0 许可证,可自由下载、安装和使用。
Web Scraping Tool Selection Strategy 支持哪些平台?
Web Scraping Tool Selection Strategy 跨平台运行,可在任意部署了 OpenClaw / Claude Code 的环境中使用(cross-platform)。
谁开发了 Web Scraping Tool Selection Strategy?
由 wenbozhao279-code(@wenbozhao279-code)开发并维护,当前版本 v1.0.0。