Wild Spider
0.0.3
截图:
简介:
通过使用多个选项卡并行加载到浏览器中来抓取网页
注意:使用的选项卡越多,将使用更多的计算机资源(CPU、内存),并且每个页面都会花费一点磁盘来保存内容(在 IndexedDb 中,可从扩展 -> 检查视图:后台页面访问)。
“蜘蛛”是这样工作的:
1) 以当前 url 作为起点,并在新选项卡中再次加载。
2)该页面加载后,获取该页面上的所有链接。
3)获取页面上的所有链接,包括相对url。
4) 在所有使用的选项卡中并行打开提取的链接(默认为 3 个,在 eventPage 中设置)。
5) 重复2-4
所有源代码位于:https://github.com/nobodxbodon/ChromeCrawlerWildSpider