【Python爬虫框架scrapy是如何运行的?爬虫框架Scrapy执行流程详解】很多学习python爬虫的小伙伴都知道Scrapy这个框架并且使用它,但其实很多人都只是会使用集成开发工具创建出这个框架搭建的任务然后编写代码而已,对于它背后的具体执行过程却不是很了解 。这篇文章要来介绍的就是python爬虫框架Scrapy详细执行流程,往下看看吧 。
文章插图
一、Scrapy框架结构
那么要学习Scrapy框架的执行流程,首先就是得知道它是由哪些结构所组成的 。该框架由引擎、调度器、下载器、爬虫、管道下载中间件以及爬虫中间件这六个部分结构所组成的 。而整个框架的运作就从就是在这六个结构之间流转,丛而得到结果返回到程序中 。
二、Scrapy框架执行流程
既然知道该框架有哪些部分结构组成之后,也就能够来学习它的执行流程了,开始需要明白python爬虫整个的运行过程都是在请求以及返回之间来完成的 。
那么引擎作为整个Scrapy框架的核心点,它所负责的工作是各个组件间的通讯 。引擎接收到网页访问requests请求之后将其发送给调度器,而进行队列排序处理完成自后由会返回到引擎 。此时引擎会在有需要时将其交给下载器,下载器就是会从网页上获取到数据并且返回response响应 。
然后响应又会回到引擎中,引擎再将其交给爬虫,而爬虫所执行的工作就是对响应数据进行分析处理得到实际所需的数据 。之后进入到管道中来将数据进行更加细致的分类和处理,最后将其给保存在文件或者数据库中 。
以上就是Scrapy爬虫框架完整的执行流程了,在其中中间件的作用就是需要开发者自行根据需求去设定,它们分别是在请求和响应过程中起作用的 。
推荐阅读
- Python如何使用第三方库xpath?Python爬虫怎么实现网页节点解析
- Python怎么设置表格整体样式?Python如何用pandas更改表格样式
- Python怎么判断IP是否有效?Python爬虫如何检测IP地址符合规范
- Python函数可以赋值给变量吗?Python怎么用变量接收函数
- python安装路径怎么找?查看python安装路径的方法有哪些?
- Python编程界面是什么样的?如何打开Python编程的代码界面?
- Python怎么获取电脑ip?Linux系统如何获取本机ip
- Python运行的按钮在哪?Python代码输入完之后如何运行?
- pycharm怎么设置python执行环境?在pycharm中设置python执行环境的教程
- 如何设置Python开发环境IDLE的字符缩进量? IDLE编辑器设置Tab键缩进为四个空格