不用采集规则就可以采集(【知识点】采集器如何设置内容过滤字采集的结果 )

优采云 发布时间: 2022-01-19 23:06

  不用采集规则就可以采集(【知识点】采集器如何设置内容过滤字采集的结果

)

  1.是否检查URL是否重复,重复多少个URL停止采集在第一步中设置如下图

  

  检查重复URL的检查,采集器会采集解释这个URL是否已经是采集,默认情况下采集器已经是采集不会再采集

  下面是 URL 连续重复次数后的“停止 采集 URL”。顾名思义,大家还是能看懂中文的,这里就不解释了。

  2. 采集 最大页数,每个任务最大采集 数,抽取标签忽略大小写

  规则第二步,设置采集内容规则如下图

  

  3.对于必须收录和不能收录在标签中的记录,是否删除或标记为不采集

  在第四步“文件保存和一些高级设置”中设置如下图

  

  4.发布内容的间隔时间,采集内容时间间隔

  ,在第四步“文件保存和一些高级设置”中设置如下图

  

  这里解释一下,这里1000等于1秒

  线程数是指同时采集消息的数量

  5.将下载地址保存为文件

  有的时候采集到的图片和文件,先不下载,先存起来放到迅雷里。有一个选项可以将这些文件的下载地址保存到一个文件中,并且在采集器中不会被下载,设置如下:

  

  这个生成的“task id.htm”保存到你这里设置的文件夹中,文件下载设置=“所有文件保存文件夹”,找到文件后,用浏览器打开文件,添加到迅雷下载。

  5、如何设置内容过滤

  点击内容过滤四个字

  

  设置 采集 的结果中必须或不能收录哪些单词

  对于此处不符合要求的数据的处理,请参考以上第三点。

  6、发布后的数据处理

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线