网站内容抓取(搜外问答:文章里面都设置了内链,但是蜘蛛还是不抓取)
优采云 发布时间: 2021-10-26 17:16网站内容抓取(搜外问答:文章里面都设置了内链,但是蜘蛛还是不抓取)
搜外 Q&A 有人提过这个问题:每一个文章都有内链,但是蜘蛛还是不抓取!言外之意是文章中的内链并没有有效增加爬取的蜘蛛数量。其实爬取的蜘蛛数量与内链没有直接关系!
正常情况下,每个网站的每一页都可以被蜘蛛抓取,因为网站中通常有分类页面、网站地图等,足以提供一个链接入口。
那为什么在文章里面设置了内链,蜘蛛还是不抓取呢?原因不是文章有没有内链,而是网站更新的频率,网站的更新次数,网站的权重。理论上,当网站服务器稳定时,网站的权重越高,更新频率越大,更新越多,爬虫越频繁,爬取越多.
当然,合理设置内部链接也可以起到提供链接入口的作用,让蜘蛛可以更多的收入目标页面的链接到被抓取的链接库。只是这里需要注意一下。提取链接并不意味着所有链接都会被抓取。是否抓取需要抓取的链接库的链接以及何时抓取取决于搜索引擎的抓取策略。
总之,爬取的蜘蛛数量与内链没有直接关系!在网站页面有链接入口的情况下,内链的作用更多的是权重循环,尤其是文章主要内容中的相关锚文本内链,可以有效传递重量。所以在设置文章内链的时候,需要更多的考虑用户体验,关注链接的相关性,而不是考虑增加蜘蛛爬取的量。