资讯内容采集系统(本文介绍使用优采云7.0采集网易新闻数据的方法采集 )
优采云 发布时间: 2021-10-03 09:25资讯内容采集系统(本文介绍使用优采云7.0采集网易新闻数据的方法采集
)
本文介绍了优采云7.0采集网易新闻数据采集网站的使用方法: 使用功能点:
lAjax滚动加载设置
l 列表内容提取
网易新闻:网易新闻提供了网易独有的新闻阅读、跟进建设、图片浏览、话题投票、新闻推送、网易新闻图片、离线阅读、路况提醒等功能,比看新闻更方便一台电脑。体验完全满足1亿多网易网民对手机新闻、娱乐、体育、金融、科技等信息内容的需求。
网易新闻数据采集 说明:本文进行了网易新闻数据采集。本文仅以“网易新闻数据采集”为例。您可以在实际操作中根据自己的需求进行操作。, 替换网易新闻其他内容为数据采集。
网易新闻数据采集 详细说明:网易新闻标题、网易新闻标签、新闻发布时间、新闻发帖数。
第一步:创建采集任务进入主界面选择,选择自定义模式
将上述网址的网址复制粘贴到网站输入框中,点击“保存网址”
保存URL后,页面会在优采云采集器中打开,红框中的信息就是本次演示的内容。
第二步:设置ajax页面的加载时间
l 设置打开网页步骤的ajax滚动加载时间
页面打开后,下拉页面,会发现页面有新数据加载
所以需要做如下设置:打开流程图,点击“打开网页”这一步,在右边的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔,一般设置2秒,本页的滚动方式,选择“直接滚动到底部”;最后点击确定
注意:这里的滚动次数和间隔需要为网站设置,测试方法可以参考优采云7.0教程-AJAX滚动教程
第三步:采集 列出内容
l 选择列表中需要采集的新闻框创建数据提取列表
如图,移动鼠标选中列表中的标题名称,右击,需要采集的内容会变成绿色,在提示中选择“selected sub-element”右边的盒子
注:点击右上角“处理”按钮,显示可视化流程图。
列表中的所有适配内容都会被选中,在右侧的操作提示框中,点击“全选”
注意:当鼠标放在该字段上时,会出现一个删除标记,单击可删除该字段。
点击“采集以下数据”
修改采集字段名,点击下方红框中的“保存并启动采集”
第四步:数据采集并导出
根据采集的情况,选择合适的采集方法,这里选择“启动本地采集”
注意:本地采集占用采集的当前计算机资源,如果采集有时间要求或当前计算机长时间不能执行采集你可以使用云采集功能,云采集在网络采集中进行,不需要当前电脑支持,可以关闭电脑,可以设置多个云节点共享任务。10个节点相当于10台电脑分配任务帮你采集,速度降低到原来的十分之一;采集收到的数据可以在云端存储三个月,随时可以导出。
采集完成后,选择合适的导出方式,导出采集好的数据