python爬虫万能代码 网络爬虫软件有哪些


在上一篇文章《神器!五分钟完成大型爬虫项目!》,我们介绍了一个类似于 Scrapy 的开源爬虫框架——feapder,并着重介绍了该框架的一种应用——AirSpider,它是一个轻量级的爬虫 。
接下来我们再来介绍另一种爬虫应用——Spider,它是是一款基于 redis 的分布式爬虫,适用于海量数据采集,支持断点续爬、爬虫报警、数据自动入库等功能 。
安装 和 AirSpider 一样,我们也是通过命令行安装 。
由于 Spider 是分布式爬虫,可能涉及到多个爬虫,所以最好以项目的方式来创建 。
创建项目 我们首先来创建项目:

feapder create -p spider-project
创建的项目目录是这样的:
创建好项目后,开发时我们需要将项目设置为工作区间,否则引入非同级目录下的文件时,编译器会报错 。
设置工作区间方式(以pycharm为例):项目->右键->Mark Directory as -> Sources Root 。
创建爬虫 创建爬虫的命令行语句为:
feapder create -s
AirSpider 对应的 spider_type 值为 1Spider 对应的 spider_type 值为 2BatchSpider 对应的 spider_type 值为 3默认 spider_type 值为 1 。
所以创建 Spider 的语句为:
feapder create -s spider_test 2
运行语句后,我们可以看到在 spiders 目录下生成了 spider_test.py 文件 。
对应的文件内容为:
im

    推荐阅读