- 官网:docs.pyspider.org
- 别名:introduction-pyspider
- 特性: 🇨🇦CA加拿大
- 分类: 开源推荐
- 热度:341
- 更新:2022-05-20 02:00:01
- 注意:国外网站,有时会打不开或者很慢
详细介绍
由国人 binux 大神开发,GitHub Star 数超过 15 K,足以证明它的知名度。可以说,学习爬虫不能不会使用这个框架。
网上关于这个框架的介绍和实操案例非常多,这里仅简单介绍一下。
我们之前的爬虫都是在 Sublime 、PyCharm 这种 IDE 窗口中执行的,整个爬取过程可以说是处在黑箱中,内部运行的些细节并不太清楚。而 pyspider 一大亮点就在于提供了一个可视化的 WebUI 界面,能够清楚地查看爬虫的运行情况。
点击查看大图
pyspider 的架构主要分为 Scheduler(调度器)、Fetcher(抓取器)、Processer(处理器)三个部分。Monitor(监控器)对整个爬取过程进行监控,Result Worker(结果处理器)处理最后抓取的结果。
该框架比较容易上手,网页右边是代码区,先定义类(Class)然后在里面添加爬虫的各种方法(也可以称为函数),运行的过程会在左上方显示,左下方则是输出结果的区域。
Python中强大的蜘蛛(网络爬虫)系统。
A Powerful Spider(Web Crawler) System in Python.
非特殊说明,本文版权归原作者所有,转载请注明出处
本文地址:http://code.meibp.com/367.html