python爬虫爬网页时遇到网页重定向怎么办?爬虫网页重定向解决方法都有哪几种呢?

本篇文章主要关于“python爬虫爬网页时遇到网页重定向怎么办?爬虫网页重定向解决方法都有哪几种呢?”的相关内容 , 详细介绍了相对应的分析和解答 , 希望对大家的学习有所帮助 , 下面让我们一起来学习吧!

python爬虫爬网页时遇到网页重定向怎么办?爬虫网页重定向解决方法都有哪几种呢?

文章插图
当我们的爬虫程序 , 在后台调起搜索引擎抓取页面时 , 会碰到需要重新跳转至新网页中去获取我们需要的数据 , 那么所谓的重定向其实 , 就像我们平时浏览网页的时候 , 在右侧或底部会有其他相关的链接网页在里面 , 常常网页内容过多或是为了文章排版更好 , 便于数据的网格化管理 , 保护数据等原因 , 即遇到301 , 302即重定向的问题 , 为了避免错失数据或数据不准确时 , 我们就需要关闭重定向 , 操作方法:
1.使用requests请求数据时 , 可以在参数中设置allow_redirects为True , 意思就是允许当前请求的网页 , 可以重定向到当前网页中其他的接口的网页中去 。
2.使用scrapy请求数据时 , 需要我们在scrapy模块中的yield里面 , 手动加上dont_filter=True 。
yield scrapy.Request(url,meta={                    …               …                },callback=self.parse_item, dont_filter=True)意思是抓爬过的url在没有出现问题的情况下 , 遇到自然而然的url会直接将其传递下去 , 不再对网页中嵌入的url进行重定向获取数据了 , 也就解决了爬到很多不需要的数据 , 或错失数据的问题了!
【python爬虫爬网页时遇到网页重定向怎么办?爬虫网页重定向解决方法都有哪几种呢?】以上就是有关“python爬虫爬网页时遇到网页重定向怎么办?爬虫网页重定向解决方法都有哪几种呢?”的全部内容啦 , 希望以上的两种方法能解决你在做爬虫的时候遇到的网络重定向问题 。

    推荐阅读