在上一篇文章《神器!五分钟完成大型爬虫项目!》,我们介绍了一个类似于 Scrapy 的开源爬虫框架——feapder,并着重介绍了该框架的一种应用——AirSpider,它是一个轻量级的爬虫 。
接下来我们再来介绍另一种爬虫应用——Spider,它是是一款基于 redis 的分布式爬虫,适用于海量数据采集,支持断点续爬、爬虫报警、数据自动入库等功能 。
安装 和 AirSpider 一样,我们也是通过命令行安装 。
由于 Spider 是分布式爬虫,可能涉及到多个爬虫,所以最好以项目的方式来创建 。
创建项目 我们首先来创建项目:
feapder create -p spider-project创建的项目目录是这样的:
创建好项目后,开发时我们需要将项目设置为工作区间,否则引入非同级目录下的文件时,编译器会报错 。
设置工作区间方式(以pycharm为例):项目->右键->Mark Directory as -> Sources Root 。
创建爬虫 创建爬虫的命令行语句为:
feapder create -sAirSpider 对应的 spider_type 值为 1Spider 对应的 spider_type 值为 2BatchSpider 对应的 spider_type 值为 3默认 spider_type 值为 1 。
所以创建 Spider 的语句为:
feapder create -s spider_test 2运行语句后,我们可以看到在 spiders 目录下生成了 spider_test.py 文件 。
对应的文件内容为:
im
推荐阅读
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- 为什么Python的受欢迎程度可能超过Java
- 手机万能工具箱软件推荐 超级文件粉碎机怎么样
- 平安智悦人生买三年退保 平安万能险怎么退保最合算
- 万能的小学英语chant 英语chant
- 语文作文万能套路 写作文的技巧和方法
- 万能条形码生成器使用方法 条形码生成工具有哪些
- 万能检讨书模板 检讨书500字反省自己
- 手机上文件修改器软件使用方法 万能软件修改器
- atompython运行插件 atom常用插件vue
- 支付宝蚂蚁庄园小鸡问答 支付宝必出万能福方法 2021支付宝压岁钱万能福获取方式-游侠手游