基本上所有的python爬虫程序都是通过访问网页然后将整个网站源代码直接抓取回来返回的,但并不是需要该网页之中的所有数据,在只需要某个数据的情况下就需要用到网页标签定位了 。下文会介绍python爬虫定位网页标签的几个方法,一起往下看看吧 。
【Python定位网页标签怎么做?Python爬虫找到网页标签使用什么方法】
文章插图
一、实现原理
网页标签定位的实现原理就是因为HTML文档之中所有的内容都是放在标签之中的,而标签除了它本身的名字之外,还可以通过自定义添加属性来保存值 。而定位网页标签就是根据标签名称、属性名称以及它子节点和父节点这些元素来定位的 。
二、定位方法
常用的网页标签定位方法有不少,但是基本上只有根据name、id、xpath这些属性来定位是比较好的,因为它们大多数都具备有唯一性和不重复性,可以一次性就找到所需要获取数据的标签 。
那么总体的实现需要依赖于selenium这个第三方库,导入它以及所需要使用到的模块之后,先使用webdriver模块打开一个浏览器并访问指定的网站,代码如下所示:
from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.chrome.service import Servicedriver = webdriver.Chrome()driver.get(url="https://www.jd.com/")然后再通过节点获取方法find_element()并传入对应的参数即可找到该网页标签,节点就是网页标签的另外一个名称 。该方法内参数by所传递的值就决定了是以哪个元素来定位网页标签的,传入ID就是以id值来定位标签,代码如下所示:
driver.find_element(by=By.ID,value=https://www.ycpai.cn/python/"key").send_keys("yoga")以上代码的作用定位到了id值为key的标签,因为此标签是输入框,所以给它传入了一个值 。以上就是关于“Python定位网页标签怎么做?Python爬虫找到网页标签使用什么方法”的全部内容了,希望对你有所帮助 。
推荐阅读
- Python循环画图如何实现?怎么用Python库matplotlib循环画图
- sublime怎么注释Python代码?sublime代码添加注释的方法
- Python中Vscode编辑器如何安装?Vscode详细的安装教程
- 如何修改定位 修改APP的定位方法
- 有和DNF差不多的网页游戏么
- gwjccbcom打开时显示定位失败 导致打不开的原因是什么
- 骶管裂孔的定位 如何定位
- 微信网页版可以用账号登入吗?要怎么登入
- 微博桌面2015登录时显示“网络异常,请重新登录”,网络环境非常好,qq跟网页都正常开,为什么呢
- 支付宝登陆网页