Python定位网页标签怎么做?Python爬虫找到网页标签使用什么方法

基本上所有的python爬虫程序都是通过访问网页然后将整个网站源代码直接抓取回来返回的,但并不是需要该网页之中的所有数据,在只需要某个数据的情况下就需要用到网页标签定位了 。下文会介绍python爬虫定位网页标签的几个方法,一起往下看看吧 。
【Python定位网页标签怎么做?Python爬虫找到网页标签使用什么方法】

Python定位网页标签怎么做?Python爬虫找到网页标签使用什么方法

文章插图


一、实现原理
网页标签定位的实现原理就是因为HTML文档之中所有的内容都是放在标签之中的,而标签除了它本身的名字之外,还可以通过自定义添加属性来保存值 。而定位网页标签就是根据标签名称、属性名称以及它子节点和父节点这些元素来定位的 。
二、定位方法
常用的网页标签定位方法有不少,但是基本上只有根据name、id、xpath这些属性来定位是比较好的,因为它们大多数都具备有唯一性和不重复性,可以一次性就找到所需要获取数据的标签 。
那么总体的实现需要依赖于selenium这个第三方库,导入它以及所需要使用到的模块之后,先使用webdriver模块打开一个浏览器并访问指定的网站,代码如下所示:
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.chrome.service import Servicedriver = webdriver.Chrome()driver.get(url="https://www.jd.com/")然后再通过节点获取方法find_element()并传入对应的参数即可找到该网页标签,节点就是网页标签的另外一个名称 。该方法内参数by所传递的值就决定了是以哪个元素来定位网页标签的,传入ID就是以id值来定位标签,代码如下所示:
driver.find_element(by=By.ID,value=https://www.ycpai.cn/python/"key").send_keys("yoga")以上代码的作用定位到了id值为key的标签,因为此标签是输入框,所以给它传入了一个值 。以上就是关于“Python定位网页标签怎么做?Python爬虫找到网页标签使用什么方法”的全部内容了,希望对你有所帮助 。

    推荐阅读