python网络爬虫技术 爬虫入门教程


今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点 , 文章内容由公众号读者 Peter 创作 。
欢迎各位童鞋向公众号投稿 , 点击下面图片了解详情!
爬虫 , 是学习Python的一个有用的分支 , 互联网时代 , 信息浩瀚如海 , 如果能够便捷的获取有用的信息 , 我们便有可能领先一步 , 而爬虫正是这样的一个工具 。
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 。由于 BeautifulSoup 是基于 Python , 所以相对来说速度会比另一个 Xpath 会慢点 , 但是其功能也是非常的强大 , 本文会介绍该库的基本使用方法 , 帮助读者快速入门 。
网上有很多的学习资料 , 但是超详细学习内容还是非官网莫属 , 资料传送门:
英文官网:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
中文官网:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
本文的主要内容如下:
安装和使用 安装
安装过程非常简单 , 直接使用pip即可:
pip install beautifulsoup4 上面安装库最后的4是不能省略的 , 因为还有另一个库叫作 beautifulsoup , 但是这个库已经停止开发了 。
因为BS4在解析数据的时候是需要依赖一定的解析器 , 所以还需要安装解析器 , 我们安装强大的lxml:
pip install lxml 在python交互式环境中导入库 , 没有报错的话 , 表示安装成功 。
使用
使用过程直接导入库:
from bs4 im

    推荐阅读