不用采集规则就可以采集(【知识点】采集器如何设置内容过滤字采集的结果 )

优采云发布时间: 2022-01-19 23:06

　　不用采集规则就可以采集(【知识点】采集器如何设置内容过滤字采集的结果

)

　　1.是否检查URL是否重复，重复多少个URL停止采集在第一步中设置如下图

　　检查重复URL的检查，采集器会采集解释这个URL是否已经是采集，默认情况下采集器已经是采集不会再采集

　　下面是 URL 连续重复次数后的“停止采集 URL”。顾名思义，大家还是能看懂中文的，这里就不解释了。

　　2. 采集最大页数，每个任务最大采集数，抽取标签忽略大小写

　　规则第二步，设置采集内容规则如下图

　　3.对于必须收录和不能收录在标签中的记录，是否删除或标记为不采集

　　在第四步“文件保存和一些高级设置”中设置如下图

　　4.发布内容的间隔时间，采集内容时间间隔

　　，在第四步“文件保存和一些高级设置”中设置如下图

　　这里解释一下，这里1000等于1秒

　　线程数是指同时采集消息的数量

　　5.将下载地址保存为文件

　　有的时候采集到的图片和文件，先不下载，先存起来放到迅雷里。有一个选项可以将这些文件的下载地址保存到一个文件中，并且在采集器中不会被下载，设置如下：

　　这个生成的“task id.htm”保存到你这里设置的文件夹中，文件下载设置=“所有文件保存文件夹”，找到文件后，用浏览器打开文件，添加到迅雷下载。

　　5、如何设置内容过滤

　　点击内容过滤四个字

　　设置采集的结果中必须或不能收录哪些单词

　　对于此处不符合要求的数据的处理，请参考以上第三点。

　　6、发布后的数据处理

0

2022-01-19

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册