如何编写Little Cyclone Spider Pool的采集规则?
优采云 发布时间: 2020-08-05 20:10本文是一整套有关编写Little Cyclone Spider Pool的背景采集规则的教程. 如果要使用Youcai Cloud Collector或Youcai Cloud Collector,请跳过本教程,并且易于使用.
本文仅以X6版本的Little Cyclone Spider Pool为例. 如果您听不懂,可以在文章末尾留言.
1. 如何从小旋风蜘蛛池中采集标题
标题库的采集仍然非常简单,只需设置采集源的地址即可.
首先添加采集规则,然后选择文章标题.
如何编写分页:
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml
{p,1,5,1}表示分页参数: p后面的数字表示开始,结束,增量/减量值,即{p,开始,结束,增量/减量}
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml
测试规则时,可以从URL匹配中看到它. 添加后,进行测试以查看效果:
2. 如何在小旋风蜘蛛池中采集句子和文章
添加规则: 选择整个内容或句子段落
例如,如果要采集新浪新闻,地址为: ,只需在列表配置选项的匹配URL中填写以上地址即可.
打开采集源的地址,然后选择其中一篇新闻文章. 复制其链接地址.
这里的地址是:
然后,内容匹配规则可以这样写
https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml
内容拦截规则:
打开内容地址. 右键单击以查看源代码并找到内容区域.
然后内容拦截规则可以这样写:
诸如新浪之类的大型网站具有不同的内容页面. 我们可以编写更多匹配项.
保存后,检查效果.
注意: 当您采集句子和文章时,您将自动采集图像链接,因此不必担心内容库中没有图像!
目录导航
1. 如何从小旋风蜘蛛池中采集标题
2. 如何在小旋风蜘蛛池中采集句子和文章
标签: 蜘蛛池教程,蜘蛛池程序