免费获取:Dedecms织梦模板下载采集方法的教程:不含分页的普通文章的采集(3)
优采云 发布时间: 2022-11-04 17:23免费获取:Dedecms织梦模板下载采集方法的教程:不含分页的普通文章的采集(3)
前言:本文是“如何在不分页的情况下采集普通文章”的第三部分,在前两部分的基础上,将详细介绍“如何采集指定节点”和“如何导出采集内容”。为了与上一篇文章保持一致,本文将继续使用上一篇文章中的章节标记。
从第二部分继续。
3.1采集 指定节点
单击“保存并启动采集”后,您将进入“采集指定节点”界面,如图 34 所示。
图34 - 采集 指定节点
每页采集
:设置每页采集数,根据网站是否具有防刷新功能设置采集间隔。
特殊选项:设置是否检测重复图片,默认为“检测”。
附加选项:有3种采集模式可供选择:第一种是“监控采集模式(检测当前或所有节点上是否有新内容)”,选择后,系统只会采集指定节点中的更新内容;二是“重新下载所有内容”,选择后,系统会采集指定节点中的所有内容;第三个是“洪流网站的未下载内容”,选择后,将仅采集指定节点中尚未下载的内容,包括以前未下载和更新的内容。
设置好并确定正确无误后,您可以单击“开始采集页面”或“查看*敏*感*词*网址”。此时,如果单击“查看*敏*感*词* URL”,您将看到列表为空,因为新创建的 采集 节点从未采集,如图 35 所示。
原创文章,作者:坦默,如转载,请注明出处:
解密:免费且极简易用的网页采集器:爬一爬数据采集实战教程2_拉勾网
2、点击浏览器插件栏中的“爬升”图标,启动插件。单击以依次选择要捕获的元素。如果彩盒中没有收录所有任务数据,点击“转换”按钮切换算法,直到选中所有任务数据。
#注意:本例中使用的采集模式为点击模式,下载器为js-engine。
采集第一步:依次抓取需要采集的数据
3、如果要抓取多页信息,如下图,点击分页设置箭头,选择“下一步”,设置点击次数。
#注意:点击模式与选择“分页设置”时的自动模式不同,只能选择“下一页”按钮,不能选择所有页码。
采集第二步:选择页码所在区域
4、确认颜色框中的数据全部选中后,先点击“完成”按钮,再点击“测试”按钮,测试数据采集是否是你想要的。
采集第三步:测试数据
4、确认测试成功后,点击“确定”按钮关闭测试窗口。填写任务名称(长度4-32个字符,必填),根据个人需要修改列名
5.点击“提交”按钮,任务创建成功。您可以在官网的“任务”页面下运行和管理任务
采集第四步:运行任务
6、任务完成后,点击“任务”页面的数据选项,即可查看和下载数据。这个例子的数据可以从官网论坛的数据中心下载。
采集第 5 步:查看和下载数据
希望本次分享能够对一些需要采集数据的工作者或者需要数据支持的企业有所帮助!
如果您对数据的任何方面感兴趣,可以在评论区留言,日后与您分享!如果你想知道如何安装 Climb 采集器,请阅读第一个教程。