文章采集规则(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)
优采云 发布时间: 2022-03-28 00:01文章采集规则(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)
本文是小旋风蜘蛛池编写后台采集规则的一套完整教程。如果您可以使用 优采云采集器 或 优采云采集器,请跳过本教程。简单易用。
本文仅以X6版小旋风蜘蛛池为例。有任何问题可以在文末留言。
一、小旋风蜘蛛池怎么弄采集标题
题库采集还是很简单的,只需要设置源采集的地址即可。
首先添加 采集 规则,选择 文章 标题。
分页书写:
标记
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml
{p,1,5,1}表示分页,参数:p后面的数字代表开始、结束、递增/递减值,即{p,start,end,递增/递减值}
标记
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml
http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml
测试规则时可以从 URL 匹配中看到。添加后,测试看看效果:
二、小旋风蜘蛛池怎么样采集句子和文章
添加规则:选择整个内容或句子段落
比如我们要采集新浪新闻,地址是:,只需在列表配置选项的匹配URL中填写上述地址即可。
打开 采集 来源的地址并选择一条新闻。复制其链接地址。
这是地址:
那么,内容匹配规则可以这样写
标记
https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml
内容拦截规则:
打开内容地址。右键查看源代码,找到内容区。
那么内容拦截规则可以这样写:
对于像新浪这样的大型网站,它的内容页面有些不同,我们可以写更多的匹配。
保存后,看看效果。
注意:您的 采集 句子和 文章 将自动 采集 链接到图片,所以不用担心您的内容库中没有图片!
本文由网友投稿或由“牛牛源码网”整理自互联网。如需转载,请注明出处:
如果本站发布的内容侵犯了您的权益,请联系zhangqy2022#删除,我们会及时处理!