百度搜索引擎优化原理(解读一下的段落解读(二)解读解读)
优采云 发布时间: 2022-03-26 20:19百度搜索引擎优化原理(解读一下的段落解读(二)解读解读)
今天又看了一遍,发现还是有很多值得深思的地方。下面我将摘录和解释我更感兴趣的段落。
一、爬取文章
蜘蛛爬取系统包括链接存储系统、链接选择系统、DNS解析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统和网页存储系统。
解读:蜘蛛从链接库中选择链接,爬取链接对应的页面,将网页保存到网页库中,然后提取爬取页面中的链接,将这些链接与链接库进行比较,合并重复链接,建立到库的新链接。其中,在爬取页面时,对页面进行了简单的分析,过滤掉了垃圾页面。这是一个循环过程。
百度蜘蛛根据上述网站设定的协议爬取网站页面,但不可能对所有网站一视同仁。它会综合考虑网站的实际情况来确定一个抓取配额,每天定量抓取网站内容,也就是我们常说的抓取频率。那么百度搜索引擎是用什么索引来判断一个网站的爬取频率呢?
主要有四个指标:
1、网站更新频率:更新越频繁,更新越慢,直接影响百度蜘蛛的访问频率;
2、网站更新质量:更新频率的提高只是为了吸引百度蜘蛛的注意。百度蜘蛛对质量有严格的要求。如果被判断为低质量页面仍然没有意义;
3、连通性:网站应该安全稳定,保持百度蜘蛛畅通,保持百度蜘蛛关闭不是好事;
4、站点评价:百度搜索引擎会对每个站点进行评价,这个评价会根据站点情况不断变化,是百度搜索引擎对该站点的一个基本评分(绝不是百度权重)如外界所说),是百度内部非常机密的数据。站点评级从不单独使用,并与其他因素和阈值一起影响 网站 的爬取和排名。
解读:如果你的网站新更新的文章百度收录很慢收录,你可以从以上四点找到原因,其中影响最大的是更新频率,也就是我们常说的,要学会养蜘蛛,更新频率不仅仅指更新量,还要注意每天更新的次数不能相差太大。另外,网站注意访问的稳定性。打开速度太慢或者打不开,会影响收录的问题。
百度蜘蛛抓取的页数并不是最重要的,重要的是建了多少页到索引库中,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。高质量的网页将分配到重要的索引库,普通网页将留在普通库,较差的网页将分配到低级库作为补充资料。目前60%的检索需求只需要调用重要的索引库就可以满足,这就解释了为什么有些网站的收录的高流量并不理想。
解读:我觉得这三个层次的索引库也是相互转化的。比如普通图书馆的页面会被提升到优质图书馆。对于很多新站点或信任度较低的站点,很难直接发布新发布的页面。进入优质库,但如果后期被搜索用户查到,大量外链导入可能转化为优质库。
哪些页面可以进入优质索引库?其实总的原则是一个:对用户有价值!
包括但不仅限于:
1、时间敏感且有价值的页面:在这里,及时性和价值并列,缺一不可。一些网站为了生成时间敏感的内容页面做了很多采集的工作,导致一堆毫无价值的页面,百度不想看到;
2、内容优质的专题页面:专题页面的内容不一定是完全的原创,也就是可以很好的融合各方的内容,或者添加一些新鲜的内容,比如浏览量和评论,为用户提供更丰富、更全面的内容;
3、高价值原创内容页面:百度将原创定义为花费一定成本,积累大量经验后形成的文章。永远不要再问我们伪原创是不是原创;
4、重要的个人页面:这里只是一个例子,科比在新浪微博上开了一个账号,他需要不经常更新,但对于百度来说仍然是一个非常重要的页面。
解读:请注意这里的时效性、价值性、整合性、成本性、独立性,尤其是里面的成本,复制粘贴不花钱,头条也不花钱,所以就算你不原创,你还要让人觉得你的 文章 是用大量时间或金钱制作的。上面百度提到的四点不包括权威,但权威也是一个非常关键的因素。同一个文章,大门户复制和小站长复制,层次不同。
哪些页面不能被索引
上面提到的优质网页都进入了索引库,所以其实网上的大部分网站都没有被百度收录列出来。不是百度没找到,而是建库前的筛选过程中被过滤掉了。那么在第一个链接中过滤掉了什么样的网页:
1、 重复内容的网页:百度不需要收录 互联网上已有的内容。
2、一个空的和短的主体的网页。
① 部分内容使用了百度蜘蛛无法解析的技术,如JS、AJAX等,虽然用户可以访问丰富的内容,但还是会被搜索引擎抛弃;
② 加载速度慢的网页也可能被视为空的短页。注意广告加载时间计入网页总加载时间;
③ 很多主体无关紧要的网页即使被抓取回来也会被丢弃在这个链接中。
3、作弊页面的一部分。
解读:了解搜索引擎的工作原理对于从事SEO非常重要。有时候,我们并不需要刻意去研究如何获得好的排名,只要站在搜索引擎的角度,了解它们的基本工作原理,如果整个爬取排序系统让你开发你会怎么做? 换位思考后,不要再考虑站长的利益,而更多地考虑搜索用户喜欢什么,想要什么。