Python爬虫安装什么包?Python爬虫要用到什么库

在python之中想要去开发爬虫程序的话 , 一般是要通过多个库和模块共同组成使用来实现的 。而且python爬虫要用到的一些库是需要去额外安装的 , 这一篇文章就会从python爬虫整个开发流程的顺序来讲解一下需要安装什么包 , 要学习的小伙伴就往下看看吧 。

Python爬虫安装什么包?Python爬虫要用到什么库

文章插图
一、网络请求
python爬虫的第一步就是要模拟浏览器向一个URL链接发送请求 , 如果是写原生代码的话不仅非常麻烦 , 而且还会涉及到C语言的知识 。所以都会去使用urllib和requests这两个模块来作为网络请求的库使用 , 它们都是python内置模块 , 不需要下载安装 。
二、数据处理
python爬虫程序抓取回来的数据是直接将整个网页源码都拉回来 , 那么在整个网页源代码之中可能只需要文本信息或者是其中的图片之类的 。那么要将这些数据进行分类处理 , 就要用到能够解析HTML格式数据的库了 。
常用的有lxml、BeautifulSoup以及pyquery这三个库 , 它们都是python开源第三方库 , 通过pip工具就能下载安装 。
三、保存数据
python爬虫数据处理完毕之后得到就是需要的实际数据了 , 那么这个时候就要将数据保存在文件或者数据库里 。保存在文件里的话可以用xlwt模块以及python-word模块 , 它们是将数据保存在word文档以及Excel表格中 。
但是在实际python爬虫程序中 , 是将数据保存在数据库中的 。针对不同的数据库要用不同的python包 , 常用的基本上就是pymysql、redis、pymongo这几个了 。
【Python爬虫安装什么包?Python爬虫要用到什么库】以上就是关于“Python爬虫安装什么包?Python爬虫要用到什么库”的全部内容了 , 希望对你有所帮助 。

    推荐阅读