百度搜索引擎优化原理(百度和谷歌的“拿来”和“筛选”,如何应对?)
优采云 发布时间: 2021-09-25 04:06百度搜索引擎优化原理(百度和谷歌的“拿来”和“筛选”,如何应对?)
作为一个seoer,首先要知道一个搜索引擎的工作原理,因为只要了解了它,就会知道在运行中如何处理。我们生活中最熟悉的搜索引擎是百度和谷歌。我相信每个人都非常了解他们。百度和谷歌的原理在细节上有很大的不同,比如分词技术。既然我们在国内一般都用百度,那我们就说说百度的工作原理。
我们所说的百度,其工作原理大致可以分为四步:take(蜘蛛爬取)→过滤(数据分析系统)→算法(索引系统)→展示(查询系统)。现在我们来看看百度的“带”和“过滤”
首先说一下蜘蛛抓取网页,那么蜘蛛是怎么抓取网页的呢?蜘蛛通过一个个链接进入一个网页,然后抓取该网页并保存在临时库中。同时,它还提取了该页面的所有链接,然后循环处理。说到这里,就有问题了。互联网上有如此多的网页,而且每天都在增加。它像这样爬行。是不是很麻烦?能爬过去吗?
对于这个问题,搜索引擎蜘蛛有一个规则。简单的说,蜘蛛在一个页面上找到一个链接,然后向下爬取这个链接,然后在下一个页面上找到一个链接,然后再次向下爬行,同时爬行。如图所示
然后就是所谓的“筛选”,也就是数据分析系统。而这个数据分析系统可以分为
1.提取文本
从网页内容中提取文本信息,包括meta标签中的文本、alt标签中的链接、链接使用的锚文本等。
2.卸重
去重更容易理解,就是搜索引擎寻找重复的页面和内容,如果发现重复的页面,就会被删除。
3.分词
这个分词是什么?即搜索引擎蜘蛛执行前面的步骤,然后提取文本的内容,然后将内容分成N个单词,停止单词,去噪,然后排列并存储在索引库中!它还计算该词在此页面上出现的次数。
4. 链接关系计算
这一步就是我们平时做的烦人的工作,搜索引擎会查询,这个页面有多少反向链接,多少导出链接和内部链接,应该给这个页面多少权重。
以上是我对百度搜索引擎工作原理的大致了解,希望大家多多指教。我在文君,我在进步,我在努力。