内容采集(介绍采集使用优采云7.0采集论坛数据的方法采集网站 )
优采云 发布时间: 2021-10-17 23:04内容采集(介绍采集使用优采云7.0采集论坛数据的方法采集网站
)
介绍一下采集优采云7.0采集论坛数据采集网站的使用方法:
使用功能点:
l 翻页设置
l 分页信息抽取
新浪体育频道:新浪体育频道是全球最大的中文体育资讯频道,涵盖全球体育赛事、多媒体,全方位再现*敏*感*词*体育赛事。新浪体育包括国内足球、国际足球、NBA、综合体育等重大节目,跟踪报道来自世界各地的体育明星和热门运动队,在*敏*感*词*业界享有盛誉。
新浪体育论坛采集 资料说明:本文来自新浪体育论坛信息采集。本文仅以“新浪体育论坛资讯采集”为例。在实际操作过程中,您可以根据自己的需要更改新浪论坛其他内容的数据。
新浪体育论坛采集字段详情:帖子标题、帖子作者、帖子发布时间、帖子回复、帖子浏览量、帖子最后发帖时间、帖子最后回复人。
第一步:创建采集task1)进入主界面选择,选择自定义模式
2) 将上述网址的网址复制粘贴到网站输入框,点击“保存网址”
3) 保存URL后,页面会在优采云采集器中打开。红框内的评测信息为本次演示的内容。
第 2 步:创建翻页循环
l 找到翻页按钮,设置翻页周期
l 设置ajax翻页时间
1) 将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧的操作提示框中选择“更多操作”
2)选择“循环点击单个链接”
第三步:分页表单信息采集
l 选择需要采集的字段信息,创建采集列表
l编辑采集字段名
1) 移动鼠标选中表格中的任意空白信息,右键单击,如图,方框中的数据将被选中并变为绿色,点击上方提示中的“TR”对
2)选中数据当前行的数据将全部选中,点击“选择子元素”
3) 在右侧操作提示框中勾选提取的字段,删除不需要的字段,点击“全选”
4)点击“采集以下数据”
注意:提示框中的字段会出现一个“X”,点击删除该字段。
5) 修改采集任务名称和字段名称,在下方提示中点击“保存并启动采集”
6)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”
注意:本地采集占用采集的当前计算机资源,如果采集有时间要求或当前计算机长时间无法执行采集你可以使用云采集功能,云采集在网络采集中进行,不需要当前电脑支持,可以关闭电脑,可以设置多个云节点共享任务。10个节点相当于10台电脑分配任务帮你采集,速度降低到原来的十分之一;采集收到的数据可以在云端存储三个月,随时可以导出。第四步:数据采集并导出
1)采集 完成后,选择合适的导出方式,导出采集的好数据