文章采集规则(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)

优采云 发布时间: 2022-03-28 00:01

  文章采集规则(小旋风蜘蛛池如何采集句子及文章添加规则的全套教程)

  本文是小旋风蜘蛛池编写后台采集规则的一套完整教程。如果您可以使用 优采云采集器 或 优采云采集器,请跳过本教程。简单易用。

  本文仅以X6版小旋风蜘蛛池为例。有任何问题可以在文末留言。

  一、小旋风蜘蛛池怎么弄采集标题

  题库采集还是很简单的,只需要设置源采集的地址即可。

  首先添加 采集 规则,选择 文章 标题。

  

  分页书写:

  标记

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_{p,1,9,1}.shtml

  {p,1,5,1}表示分页,参数:p后面的数字代表开始、结束、递增/递减值,即{p,start,end,递增/递减值}

  标记

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_2.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_3.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_4.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_5.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_6.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_7.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_8.shtml

http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_9.shtml

  测试规则时可以从 URL 匹配中看到。添加后,测试看看效果:

  

  二、小旋风蜘蛛池怎么样采集句子和文章

  添加规则:选择整个内容或句子段落

  比如我们要采集新浪新闻,地址是:,只需在列表配置选项的匹配URL中填写上述地址即可。

  

  打开 采集 来源的地址并选择一条新闻。复制其链接地址。

  

  这是地址:

  那么,内容匹配规则可以这样写

  标记

  https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml

  内容拦截规则:

  打开内容地址。右键查看源代码,找到内容区。

  

  那么内容拦截规则可以这样写:

  

  对于像新浪这样的大型网站,它的内容页面有些不同,我们可以写更多的匹配。

  保存后,看看效果。

  

  注意:您的 采集 句子和 文章 将自动 采集 链接到图片,所以不用担心您的内容库中没有图片!

  本文由网友投稿或由“牛牛源码网”整理自互联网。如需转载,请注明出处:

  如果本站发布的内容侵犯了您的权益,请联系zhangqy2022#删除,我们会及时处理!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线