搜索引擎优化案例分析(搜索引擎中的页面主要分为四种页面(一)_搜索引擎)
优采云 发布时间: 2022-01-31 18:06搜索引擎优化案例分析(搜索引擎中的页面主要分为四种页面(一)_搜索引擎)
从搜索引擎的角度来看,互联网上的页面主要分为四种页面,即爬取页面、待爬取页面、可爬取页面和暗网。
四类网页的讲解,熟悉网站页面分类
顾名思义,被爬取的网页就是蜘蛛已经爬取的内容网站,待爬取的页面就是没有被爬取但已进入等待列表的页面,可以爬取的页面是没有找到但已经存在的页面,而暗网是搜索引擎通过自爬链接找不到的页面,需要手动提交。
通常我们分析的页面爬取主要是非暗网中的页面爬取。暗网爬行中的每个搜索引擎都有自己独特的算法。我们不做太多分析。
搜索引擎的爬取策略主要有两种策略,即广度优先策略和深度优先策略。
广度优先策略的解释
大多数网页将有许多链接,而不是它们自己的链接。例如,详情页有相关新闻、相关案例等的链接,当搜索引擎访问一个页面时,会将页面上的所有链接依次放入,并排列在数据库中。进行遍历爬取,然后将新发现的URL入库等待爬取,按照这个逻辑依次爬取就是广度优先策略。如图:抓取顺序为1-2、3、4-5-11-6-12-3-7-13-8-14。用图片了解自己。
深度优先策略解释
按照页面上的一个链接逐层爬取,直到抓取到最后一个链接,然后返回初始位置以同样的方式爬取其余的链接,这是一种深度优先的策略。
无论是广度优先还是深度优先策略,只要有足够的时间让搜索引擎爬取所有页面,优先考虑搜索引擎的爬取能量,页面爬取的全面性无法得到保证。自身资源的限制不得不考虑爬取页面的优先级。还有另外两种爬取策略。
重要网页优先抓取策略
判断一个页面的重要性,搜索引擎主要从其自身的质量和权重来判断。另一个重要因素是传入链接的数量。比如首页的传入链接肯定来自很多页面,所以首页的优先级也比较高。
大站点链接优先策略
大站优先显然是一个对大网站有偏好的搜索群体,自身权重比较高,这里的权重不是单纯的PR,而是信任,不是说人家厉害,甚至像高权重的搜索引擎它。很多B2B网站的内容也很大,但是搜索引擎对网页内容的爬取并不是很擅长。相对来说,一些比较好的网站可以有很好的活跃度,所以发消息可以增加活跃度,发到大站首页也能秒收。
总而言之,搜索引擎的资源是有限的。在搜索引擎资源有限的情况下,尽量依靠外链引导蜘蛛,增加网站的权重,也就是网站SEO搜索引擎优化长期运营是重中之重