网页新闻抓取(网站降权的收录和索引反而比以前好了!怎么回事?)
优采云 发布时间: 2021-12-26 12:12网页新闻抓取(网站降权的收录和索引反而比以前好了!怎么回事?)
昨天,朋友和我交换了一个经典问题。他说他的网站排名下降很久了,100%肯定是中了迅雷算法(快速队列作弊),但是收录和爬行都是正常的。最可怕的是收录和索引都比以前好多了!
他有个问题,说网站降权的问题解决了?
我问他排名和流量有没有回升?他的回答并不意外,排名和流量还是一样,没有任何提升!这就是为什么他想知道为什么网站降级了,收录、索引和爬行都在增加。
首先要知道,搜索引擎至少有三大系统相互配合才能完成这一系列的任务。这三个系统都是独立运行的,不能说一个环节出了问题,三大系统都会出问题。
系统之一:爬虫爬行系统
搜索引擎的爬虫系统主要完成爬回互联网上更多的网页,中间有一些内置的算法来控制爬虫不重复爬取,爬取更重要的页面,捕捉最新的新闻信息。
如果我们希望我们的网站被排名并收录
在搜索引擎中。这个爬虫爬行是前提。相信很多人也知道,不爬取怎么收录?
如果你的网站降级了,但抓取还是正常的,甚至抓取量增加了,就不用质疑了。想象一下,惩罚可能是上演的,搜索引擎因为某个细节暂时惩罚你,但你仍然可能产出高质量的内容。搜索引擎爬虫怎么可能放弃找到任何高质量内容的可能性?
系统二:索引系统
抓取的网页进入索引系统后,索引系统的相关模块会对抓取的网页信息进行去重、分词、存储等一系列处理。
在这个链接中,搜索引擎会对网页进行处理,按照一定的数据格式存储需要的信息,并建立索引。
索引本身可以理解为一套辅助检索系统更好地检索相关信息的内容处理系统。
同样,您的网站也会被特定的反作弊算法降级或惩罚。索引系统不会将您的内容放入索引库吗?那是不同的,因为爬虫爬取的信息在索引系统不同模块的处理环节有自己的判断标准。
但我猜,只是我的猜想:进入索引系统后,会有一套反作弊模块来索引库,以域名或目录的形式进行检查。如果你发现你网站的内容被索引了,那么我会给你这个。索引信息被临时标记为无效索引。处罚期结束后,将恢复正常判断。
这一层也解释了为什么你的内容被收录和排名,但是搜索不到关键词,也搜索不到完整的标题,但是搜索到的网址或者站点出来了(站点出来的概率)也很低)。
系统三:检索系统
检索系统是从用户端发起的。即用户输入关键词后点击搜索按钮。一些查询是由搜索引擎发起的。查询的数据源是我们的索引库。这时候搜索引擎获取的数据基本不可能获取无效的索引数据。如果有,它应该是 100。
但是一组影响中间排序的链接算法模块也会有所作为。有的链接算法是在线实时的,有的算法是离线的(所谓离线是指不会实时更新,在本地计算并在线同步,比如pagerank)。
假设你打了某些链接算法,那么最有可能的结果是:你的网页被百度收录,你可以搜索完整的标题,但搜索关键词不会。我们可以推断的一点是,搜索引擎从索引系统获取信息后,会通过反作弊算法进行链接计算。结果,我的内容在此链接中被过滤掉了。但是,没有排名。