如何使用八爪鱼采集新浪新闻文章

本文介绍如何使用采集器采集新浪新闻文章的方法 。
采集的内容包括:新闻标题 , 新闻正文

如何使用八爪鱼采集新浪新闻文章

文章插图
工具/原料使用功能点: ? 列表及详细信息采集 ? Ajax点击加载 ? Xpath修改 ? 自定义数据字段
方法/步骤1步骤1:创建新浪新闻采集任务
1)进入主界面 , 选择“自定义采集”

如何使用八爪鱼采集新浪新闻文章

文章插图

22)将要采集的网址URL复制粘贴到网站输入框中 , 点击“保存网址”

如何使用八爪鱼采集新浪新闻文章

文章插图

3步骤2:创建列表循环
1)打开网页之后 , 鼠标选中第一个新闻列表的标题 , 系统会自动识别出其他相似的链接 , 然后在右面的提示框中选择“选中全部”

如何使用八爪鱼采集新浪新闻文章

文章插图

4【如何使用八爪鱼采集新浪新闻文章】2)接着选择“采集以下链接文本”

如何使用八爪鱼采集新浪新闻文章

文章插图

5然后选择“点击该链接” 。

如何使用八爪鱼采集新浪新闻文章

文章插图

6步骤3:提取详细信息
1)进入列表详情页面 , 鼠标选中文章内容第一段 , 系统会自动识别出其他相似的链接 , 然后在右面的提示框中选择“选中全部” , 

如何使用八爪鱼采集新浪新闻文章

文章插图

7 之后选择“采集以下元素文本”

如何使用八爪鱼采集新浪新闻文章

文章插图

8 2)选完需要的数据以后 , 可以打开右上角的流程按钮 , 对字段进行修改 。

如何使用八爪鱼采集新浪新闻文章

文章插图

93)选中提取数据的步骤 , 鼠标点击“自定义数据字段”

如何使用八爪鱼采集新浪新闻文章

文章插图

10之后选择“自定义数据合并方式

如何使用八爪鱼采集新浪新闻文章

文章插图

11勾选第二个选项 , 同一字段合并为同一行

如何使用八爪鱼采集新浪新闻文章

文章插图

12步骤4:修改Xpath及高级选项设置
1)选中整个“循环步骤” , 打开“高级选项” , 可以看到 , 八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章 , 所以需要修改

如何使用八爪鱼采集新浪新闻文章

文章插图

132)在火狐浏览器中打开要采集的网页并观察源码 。 观察网页源码 , 修改此条Xpath为:“//p”, 将修改后的Xpath , 复制粘贴到八爪鱼中所示位置 , 然后点击“确定” 。

如何使用八爪鱼采集新浪新闻文章

文章插图

14 由于网站涉及到Ajax

如何使用八爪鱼采集新浪新闻文章

文章插图

15步骤5:新浪新闻数据采集及导出
1)点击左上角的“保存” , 然后点击“开始采集” , 选择“启动本地采集”

推荐阅读