如何编写Little Cyclone Spider Pool的采集规则?

优采云 发布时间: 2020-08-05 20:10

  本文是一整套有关编写Little Cyclone Spider Pool的背景采集规则的教程. 如果要使用Youcai Cloud Collector或Youcai Cloud Collector,请跳过本教程,并且易于使用.

  本文仅以X6版本的Little Cyclone Spider Pool为例. 如果您听不懂,可以在文章末尾留言.

  1. 如何从小旋风蜘蛛池中采集标题

  标题库的采集仍然非常简单,只需设置采集源的地址即可.

  首先添加采集规则,然后选择文章标题.

  

  如何编写分页:

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml

  {p,1,5,1}表示分页参数: p后面的数字表示开始,结束,增量/减量值,即{p,开始,结束,增量/减量}

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml

  测试规则时,可以从URL匹配中看到它. 添加后,进行测试以查看效果:

  

  2. 如何在小旋风蜘蛛池中采集句子和文章

  添加规则: 选择整个内容或句子段落

  例如,如果要采集新浪新闻,地址为: ,只需在列表配置选项的匹配URL中填写以上地址即可.

  

  打开采集源的地址,然后选择其中一篇新闻文章. 复制其链接地址.

  

  这里的地址是:

  然后,内容匹配规则可以这样写

  https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml

  内容拦截规则:

  打开内容地址. 右键单击以查看源代码并找到内容区域.

  

  然后内容拦截规则可以这样写:

  

  诸如新浪之类的大型网站具有不同的内容页面. 我们可以编写更多匹配项.

  保存后,检查效果.

  

  注意: 当您采集句子和文章时,您将自动采集图像链接,因此不必担心内容库中没有图像!

  目录导航

  1. 如何从小旋风蜘蛛池中采集标题

  2. 如何在小旋风蜘蛛池中采集句子和文章

  标签: 蜘蛛池教程,蜘蛛池程序

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线