seo优化搜索引擎工作原理(搜索引擎蜘蛛(baiduspider)是怎样网页的呢的程序?)
优采云 发布时间: 2021-09-14 10:15seo优化搜索引擎工作原理(搜索引擎蜘蛛(baiduspider)是怎样网页的呢的程序?)
对于百度和谷歌,搜索引擎的工作原理几乎相同。由于谷歌在中国被禁,国内搜索一般都是百度。
一个搜索引擎的工作原理其实很简单,无非就是四个部分,如下图:
什么是搜索引擎蜘蛛(baiduspider),什么是爬虫程序?
搜索引擎蜘蛛其实就是百度用来浏览用户在网上发布的信息,然后抓取这些信息到搜索引擎的服务器,然后建立索引库等等,我们可以对待搜索引擎蜘蛛作为用户,然后这个用户访问我们的网站,认为我们更好的内容保存在他的电脑上。
搜索引擎蜘蛛如何抓取网页?
找到某个链接-下载这个网页-添加到临时库-提取网页中的链接-再次下载网页-循环
首先,搜索引擎蜘蛛需要找到链接。一种是百度蜘蛛自己找的,一种是通过百度站长提交自己的网站。当搜索引擎找到此链接时,它会下载此网页并将其存储在临时库中。同时蜘蛛会把这个页面的所有链接都提取出来,然后就是一个循环。
搜索引擎蜘蛛会定期抓取网页吗?
答案是肯定的!如果蜘蛛不分青红皂白地抓取网页,互联网上每天都会有无数的网页,蜘蛛也无法全部抓取。
蜘蛛爬取网页策略一:深度优先
简单来说就是搜索引擎蜘蛛在一个页面上找到了一个链接然后往下爬,然后在下一页找到了一个链接继续往下爬,把所有的都往下爬
蜘蛛爬取网页策略2:宽度优先
广度优先是指搜索引擎蜘蛛先抓取本页的链接,然后再抓取下一页的所有链接。其实就是大家常说的扁平化结构,网页不要太分层,否则会影响收录。
蜘蛛爬取网页策略3:权重优先
如果宽度优先优于深度优先,这不是绝对的。搜索引擎蜘蛛一般会同时使用两种爬取策略,即深度优先+广度优先,并且他们正在使用这两种策略进行爬行。到时候就要参考这个环节的权重。如果链接不错,先用深度,如果这个链接权重很低,先用广度。
搜索引擎蜘蛛如何知道这个链接的权重?
1.越来越少的层次; 2.这个链接的数量和质量
蜘蛛爬取网页策略4:重温爬取
比如昨天一个搜索引擎蜘蛛来抓取我们的网页,今天我们给这个页面添加了新的内容,然后搜索引擎蜘蛛今天来抓取新的内容,这就是重访抓取。还有两次重访:1.all revisit:指蜘蛛上次爬取的链接,然后这个月某一天全部重访和爬取。 2.单次访问:一般是针对更新频率比较快稳定的页面。如果说我们有一个页面一个月不更新一次,那么搜索引擎蜘蛛会连续几天都是这样。它不会来,每隔一段时间就会再来,比如一个月后。
数据分析系统处理搜索引擎检索到的网页
1. 删除所有html代码并提取内容
2.留下网页的主题内容,删除无用的内容
3.删除重复的页面和内容
4.提取文本的内容,然后将内容分成N个词,然后排列并存储在索引数据库中,同时计算该词在页面上出现的次数
5.Link Analysis:查询该页面的反向链接数量,导出的链接有多少收录内部链接,该页面的权重多少。
数据索引系统
执行上述步骤后,搜索引擎会将处理后的信息放入搜索引擎的索引库中。