本文介绍如何使用采集器采集新浪新闻文章的方法 。
采集的内容包括:新闻标题 , 新闻正文
文章插图
工具/原料使用功能点: ? 列表及详细信息采集 ? Ajax点击加载 ? Xpath修改 ? 自定义数据字段
方法/步骤1步骤1:创建新浪新闻采集任务
1)进入主界面 , 选择“自定义采集”
文章插图
22)将要采集的网址URL复制粘贴到网站输入框中 , 点击“保存网址”
文章插图
3步骤2:创建列表循环
1)打开网页之后 , 鼠标选中第一个新闻列表的标题 , 系统会自动识别出其他相似的链接 , 然后在右面的提示框中选择“选中全部”
文章插图
4【如何使用八爪鱼采集新浪新闻文章】2)接着选择“采集以下链接文本”
文章插图
5然后选择“点击该链接” 。
文章插图
6步骤3:提取详细信息
1)进入列表详情页面 , 鼠标选中文章内容第一段 , 系统会自动识别出其他相似的链接 , 然后在右面的提示框中选择“选中全部” ,
文章插图
7 之后选择“采集以下元素文本”
文章插图
8 2)选完需要的数据以后 , 可以打开右上角的流程按钮 , 对字段进行修改 。
文章插图
93)选中提取数据的步骤 , 鼠标点击“自定义数据字段”
文章插图
10之后选择“自定义数据合并方式
文章插图
11勾选第二个选项 , 同一字段合并为同一行
文章插图
12步骤4:修改Xpath及高级选项设置
1)选中整个“循环步骤” , 打开“高级选项” , 可以看到 , 八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章 , 所以需要修改
文章插图
132)在火狐浏览器中打开要采集的网页并观察源码 。 观察网页源码 , 修改此条Xpath为:“//p”, 将修改后的Xpath , 复制粘贴到八爪鱼中所示位置 , 然后点击“确定” 。
文章插图
14 由于网站涉及到Ajax
文章插图
15步骤5:新浪新闻数据采集及导出
1)点击左上角的“保存” , 然后点击“开始采集” , 选择“启动本地采集”
推荐阅读
- 手机QQ中如何设置喜欢的字体
- js中如何截取字符串
- 如何使用百度识图以图搜图
- 宠物兔饮水量如何控制
- 如何判断宠物兔干草的质量
- 如何选择一只健康的兔子
- 如何将文件加密打包成一个压缩包
- wlan和wifi的区别
- 如何利用微信隐藏功能恢复聊天记录
- 如何正确设置电脑定时关机