Python怎么获取网页标签中的内容?Python如何获取网页某个标签

在python爬虫脚本之中通过requests库以及urllib库抓取回来的数据都是一整个网页的源代码,而有些时候可能只是需要这些html代码中某一个标签内的数据 。所以本篇文章会来给大家详细的介绍一下python处理html网页代码并且获取标签内容的方法,一起往下看看吧 。

Python怎么获取网页标签中的内容?Python如何获取网页某个标签

文章插图
【Python怎么获取网页标签中的内容?Python如何获取网页某个标签】1.爬虫抓取数据的模块requests是不需要去下载安装,导入之后直接调用里面的get()以及post()方法就可以从指定网页上抓取数据会来 。但是处理html网页标签则要用到第三方模块BeautifulSoup了,调用pip工具在命令行把它下载安装好再导入程序中,示例如下:
import requestsfrom bs4 import BeautifulSoupreq=requests.get('https://www.cgo.cc/ier.html?page=1')2.req就是从网页上面抓取回来的数据,虽然是html格式的,但是以字符串类型保存 。第二步是将其编码格式设置为支持中文的utf-8,然后使用Soup方法通过parser解析器将html网页数据之中的文本进行解析并且返回,示例如下:
req.encoding = "utf-8"req = BeautifulSoup(html.text, 'html.parser')3.上面这一步已经将整个req都转为了可以去进行解析和处理的html格式数据,接下来得要使用find_all()来通过标签名以及类名、name值、id名等属性来寻找到指定的标签 。然后才可以使用text属性将标签内容给取出来,这里的标签类名等需要自己打开F12查看源代码,代码示例如下所示:
company_item = soup.find("div",class_="detail_head")dd = company_item.text.strip()print(dd)以上就是关于“Python怎么获取网页标签中的内容?Python如何获取网页某个标签”的全部内容了,希望对你有所帮助 。

    推荐阅读