get-set, Fetch! web scraper
截图:
简介:
具有 csv 和 zip 导出功能的开源数据抓取工具。
通过模块化架构,此扩展提供了一系列带有预定义默认值的抓取场景,以实现快速、最小的配置抓取。
二进制数据(图像、pdf 文件...)可以导出为 zip 档案。基于文本的数据可以导出为 csv 文件。
查看扩展中的“示例”部分以了解可能的情况。
创建一个新项目
• 填写项目名称、启动 URL、抓取场景和各种插件选项。
• 有两个内置场景:scrape-static-content 和scrape-dynamic-content 分别负责抓取常规和基于javascript 的html 页面。
• 您可以从场景列表页面安装其他基于社区的场景。
开始刮
• 单击项目列表中相应的“抓取”按钮。
• 要抓取的 URL 将在新选项卡中依次打开,并在项目创建时定义延迟。
• 您可以随时通过关闭新打开的选项卡来结束抓取过程。下次开始抓取时,该过程将从中断处恢复。
导出结果
• 根据项目设置,您可以将文本数据导出为 csv,将二进制数据导出为 zip。
故障排除
• 在日志页面中查找警告或错误条目。
• 您可以从设置页面调整日志级别。
• 如果您发现错误,请在 https://github.com/get-set-fetch/extension/issues/ 打开一个问题,并在评论中附上任何相关的日志条目。