3 java爬虫系列:怎么用jsoup进行爬虫开发?

jsoup时优秀的java爬虫框架, 上一篇已经分享了怎么添加代理, 头部, 和参数, 这篇分享用jsoup进行模拟登陆
需要这些哦
eclipse/idea
jsoup
需要爬取的网站
方式/
1第一步:找到需要登岸的网站的接口, 即登岸挪用的接口, 按F12, 点击登岸, 在network一栏看到请求的接口, 如图:

3 java爬虫系列:怎么用jsoup进行爬虫开发?

文章插图

2第二步:点击接口, 查看登岸信息的参数, 在Header最下面可以看到 form data, 这就时请求参数, 如图:
3 java爬虫系列:怎么用jsoup进行爬虫开发?

文章插图

3第三步:用上面的请求参数进行构建, jsoup代码如下:
Map<String, String> data = https://vvvtt.com/article/new HashMap<>();
data.put("username", "ss");
data.put("password", "ss");

Document doc = Jsoup.connect("")
       .data(data)
       .post();
System.out.println(doc.toString());
成果如图:
3 java爬虫系列:怎么用jsoup进行爬虫开发?

文章插图

4第四步:上面输出成果提醒登岸掉败, 必定是用户名或暗码错误, 下面输入准确的用户名和暗码, 看成果是否能当作功, 如图:


可以看到登岸当作功
3 java爬虫系列:怎么用jsoup进行爬虫开发?

文章插图

5第五步:登岸后的cookies提取和保留 。 登岸完当作之后, 鄙人次请求的就不需要登岸, 只要把把cookies带入即可, 代码如下:
Map<String, String> data = https://vvvtt.com/article/new HashMap<>();
data.put("username", "xxx");
data.put("password", "xxx");
Connection.Response res = Jsoup.connect("http://127.0.0.1:8080/login").data(data)
       .method(Connection.Method.POST).execute();
// res.cookies() 提取cookies 进行下一次请求
Document doc = Jsoup.connect("http://localhost:8080/index").cookies(res.cookies()).post();
3 java爬虫系列:怎么用jsoup进行爬虫开发?

文章插图

6【3 java爬虫系列:怎么用jsoup进行爬虫开发?】第六步:这篇是简单的登岸模拟请求, 下一篇将对请求的dom进行解析

注重事项网站通顺

以上内容就是3 java爬虫系列:怎么用jsoup进行爬虫开发?的内容啦, 希望对你有所帮助哦!

    推荐阅读