python爬虫原理是什么?爬虫原理介绍来了

很多小伙伴想知道python爬虫的原理是什么,那么今天小编就通过这篇文章来给大家详细讲解一下python爬虫的原理介绍,感兴趣的小伙伴可以认真阅读一下这篇文章 。

python爬虫原理是什么?爬虫原理介绍来了

文章插图
(一)首先我们来了解一下什么是爬虫?
【python爬虫原理是什么?爬虫原理介绍来了】什么是爬虫呢?就好比我们把互联网当成一个蜘蛛网,那么数据就是存放于蜘蛛网的各个节点,而我们的爬虫就可以看成是一个小蜘蛛,沿着网络抓取自己的数据,从知识方面来说爬虫就是:像网站发起请求,获取资源后分析并提取有用数据的程序 。
(二)爬虫的基本流程
用户获取网络数据的方式:
方式1:浏览器提交请求,然后下载网页代码,最后解析成页面
方式2:模拟浏览器发送请求(获取网页代码),然后提取有用的数据,最后存放于数据库或文件中(爬虫要做的就是方式2) 。
(1)发起请求
我们使用http库向站点发起请求,其实也就是发送一个request模块,它包含了请求头、请求体等 。它的缺陷是不能够执行JS和CCS代码 。
(2)获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
(3)解析内容
解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以wb的方式写入文件
(4)保存数据
数据库(MySQL,Mongdb、Redis)
文件
(三)http协议 请求与响应
Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)
Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)
ps:浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据 。
(四)request
(1)请求方式:
常见的请求方式:GET / POST
(2)请求的URL
一张图片、一个文件、一段视频都可以用url确定
(3)请求头
User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户host;
cookies:cookie用来保存登录信息
注意:一般做爬虫都会加上请求头
(4)请求体
请求体如果是get方式,请求体没有内容 (get请求的请求体放在 url后面参数中,直接能看到)如果是post方式,请求体是format dataps:1、登录窗口,文件上传等,信息都会被附加到请求体内2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post
以上就是小编给大家带来的python爬虫的原理介绍,希望大家通过阅读小编的文章之后能够有所收获!如果大家觉得小编的文章不错的话,可以多多分享给有需要的人 。

    推荐阅读