jsoup时优秀的java爬虫框架, 上一篇已经分享了怎么添加代理, 头部, 和参数, 这篇分享用jsoup进行模拟登陆
需要这些哦
eclipse/idea
jsoup
需要爬取的网站
方式/
1第一步:找到需要登岸的网站的接口, 即登岸挪用的接口, 按F12, 点击登岸, 在network一栏看到请求的接口, 如图:
文章插图
2第二步:点击接口, 查看登岸信息的参数, 在Header最下面可以看到 form data, 这就时请求参数, 如图:
文章插图
3第三步:用上面的请求参数进行构建, jsoup代码如下:
Map<String, String> data = https://vvvtt.com/article/new HashMap<>();
data.put("username", "ss");
data.put("password", "ss");
Document doc = Jsoup.connect("")
.data(data)
.post();
System.out.println(doc.toString());
成果如图:
文章插图
4第四步:上面输出成果提醒登岸掉败, 必定是用户名或暗码错误, 下面输入准确的用户名和暗码, 看成果是否能当作功, 如图:
可以看到登岸当作功
文章插图
5第五步:登岸后的cookies提取和保留 。 登岸完当作之后, 鄙人次请求的就不需要登岸, 只要把把cookies带入即可, 代码如下:
Map<String, String> data = https://vvvtt.com/article/new HashMap<>();
data.put("username", "xxx");
data.put("password", "xxx");
Connection.Response res = Jsoup.connect("http://127.0.0.1:8080/login").data(data)
.method(Connection.Method.POST).execute();
// res.cookies() 提取cookies 进行下一次请求
Document doc = Jsoup.connect("http://localhost:8080/index").cookies(res.cookies()).post();
文章插图
6【3 java爬虫系列:怎么用jsoup进行爬虫开发?】第六步:这篇是简单的登岸模拟请求, 下一篇将对请求的dom进行解析
注重事项网站通顺
以上内容就是3 java爬虫系列:怎么用jsoup进行爬虫开发?的内容啦, 希望对你有所帮助哦!
推荐阅读
- 彻底删除Windows 7 操作系统中的华文系列字体
- 三国志10如何募私兵
- 如何使用java条件语句
- 如何使用Java的if条件语句
- 怎样访问类名的元素
- 如何安装eclipse
- eclipse rcp插件学习【摄影管理系统1】java事例
- java 怎么将键盘getUnicodeChar转换为字母
- 绘画系列之教你如何画简易小辣椒
- 龙井系列1 龙井茶来源