python爬虫的基本流程是什么？爬虫的四个基本流程 _python爬虫

python爬虫的作用多到你想不到，之前学过爬虫的一些基本原理，今天一起来学习有关“python爬虫的基本流程是什么？爬虫的四个基本流程”，希望对大家有所帮助。

文章插图
一、用户获取网络数据的方式：
方式1：向浏览器提交请求--->获取网页代码--->解析成页面
方式2：模拟浏览器发送请求(获取网页代码)->提取需要的数据->存放于数据库或文件中
爬虫需要做的工作就是方式2 。
1、发起请求
使用http库向目标站点发起请求，就相当于是发送有关Request
Request包含请求头、请求体等
Request模块有一个缺陷就是不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应，就会得到一个Response
Response包含：html、json、图片、视频等
3、解析内容
解析html数据：利用正则表达式（RE模块）和第三方解析库
解析二进制数据:以wb的方式写入文件
解析json数据：使用json模块
4、保存数据
使用数据库（MySQL，Mongdb、Redis）对数据进行保存。
二、http协议请求与响应
Request：用户将自己的信息通过浏览器（客户端）发送给服务器（服务端）
Response：服务器接收到请求后，分析用户发来的请求信息，然后返回数据，返回的数据可能会包含图片视频等。爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。
三、 request
1、请求方式：
常见的请求方式：GET / POST
2、请求的URL
url全球统一资源定位符，用来定义互联网上一个唯一的资源，一张照片，一份文件都可以用来定义。
3、请求头
User-agent：请求头中需要有user-agent客户端配置，如果没有服务端可能将你当做一个非法用户host
cookies：cookie用来保存登录信息
需要注意的地方爬虫一般都会加上请求头
4、请求体
请求体
如果是get方式，请求体没有内容，url参数在get后面可直接看见
如果是post方式，请求体是format data
需要注意的是
1、登录窗口，文件上传等，信息都会被附加到请求体内
2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post
四、常见的响应状态码
200：代表成功
301：代表跳转
404：文件不存在
403：无权限访问
502：服务器错误
【python爬虫的基本流程是什么？爬虫的四个基本流程】 以上就是关于“python爬虫的基本流程是什么？爬虫的四个基本流程”的简单介绍，感兴趣的同学可以继续关注哦，我会给大家继续更新有关python爬虫的内容。

python爬虫的基本流程是什么？爬虫的四个基本流程

推荐阅读

你为何会叹气？

一句话调动群里人说话什么话能调动群积极性

主角的意思是什么

鳕鱼胶的功效与作用及食用方法（鳕鱼胶的功效与作用及食用方法是怎样）

家里进蝙蝠打死有什么影响么（家里进蝙蝠一定得打死吗）

给大学的元旦祝福语简短适合元旦的祝福语

2017 《路西法第三季》百度网盘无删减完整版在线观来自看，汤姆·艾利斯主演的

装扮少女第47关酷帅女孩通关攻略

百香果连壳一起泡白酒好不好百香果连壳一起泡白酒的做法

表示的示可以组什么词示的精选组词

和字由来

奥特是什么意思

唯美伤感网名女生简短简短唯美伤感网名女生大全

曹圭贤是谁

华为麒麟芯片真的是国产的吗？

购房按揭贷款流程是什么样的

冬天卤水怎么样保存冬天卤水保存方法

colmo与卡萨帝哪个好

砂仁糕做法砂仁糕怎么做

喝茶真的可以防老年痴呆吗？