python爬虫的基本流程是什么?爬虫的四个基本流程

python爬虫的作用多到你想不到,之前学过爬虫的一些基本原理,今天一起来学习有关“python爬虫的基本流程是什么?爬虫的四个基本流程”,希望对大家有所帮助 。

python爬虫的基本流程是什么?爬虫的四个基本流程

文章插图
一 、用户获取网络数据的方式:
方式1:向浏览器提交请求--->获取网页代码--->解析成页面
方式2:模拟浏览器发送请求(获取网页代码)->提取需要的数据->存放于数据库或文件中
爬虫需要做的工作就是方式2 。
1、发起请求
使用http库向目标站点发起请求,就相当于是发送有关Request
Request包含请求头、请求体等
Request模块有一个缺陷就是不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应,就会得到一个Response
Response包含:html、json、图片、视频等
3、解析内容
解析html数据:利用正则表达式(RE模块)和第三方解析库
解析二进制数据:以wb的方式写入文件
解析json数据:使用json模块
4、保存数据
使用数据库(MySQL,Mongdb、Redis)对数据进行保存 。
二、http协议 请求与响应
Request:用户将自己的信息通过浏览器(客户端)发送给服务器(服务端)
Response:服务器接收到请求后,分析用户发来的请求信息,然后返回数据,返回的数据可能会包含图片视频等 。爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据 。
三、 request
1、请求方式:
常见的请求方式:GET / POST
2、请求的URL
url全球统一资源定位符,用来定义互联网上一个唯一的资源,一张照片,一份文件都可以用来定义 。
3、请求头
User-agent:请求头中需要有user-agent客户端配置,如果没有服务端可能将你当做一个非法用户host
cookies:cookie用来保存登录信息
需要注意的地方爬虫一般都会加上请求头
4、请求体
请求体
如果是get方式,请求体没有内容,url参数在get后面可直接看见
如果是post方式,请求体是format data
需要注意的是
1、登录窗口,文件上传等,信息都会被附加到请求体内
2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
四、 常见的响应状态码
200:代表成功
301:代表跳转
404:文件不存在
403:无权限访问
502:服务器错误
【python爬虫的基本流程是什么?爬虫的四个基本流程】 以上就是关于“python爬虫的基本流程是什么?爬虫的四个基本流程”的简单介绍,感兴趣的同学可以继续关注哦,我会给大家继续更新有关python爬虫的内容 。

    推荐阅读