上篇文章站长从九个方面浅析搜索引擎预处理(一)
优采云 发布时间: 2021-06-22 22:01上篇文章站长从九个方面浅析搜索引擎预处理(一)
第一篇文章站长从九个方面分析搜索引擎预处理(一),分别从提取文本、中文分词、去除停用词、去噪四个方面,分享“索引”和大家一起预处理,相信这些基础的文章也会对大家有所帮助,今天继续上一篇文章,从去重、正向索引、倒排索引、链接关系计算五个方面继续,和特殊的文件处理。与大家分享。
预处理是整个搜索引擎中比较复杂的部分。本文从九个方面讲解了一些基础知识,让大家一目了然,对以后的网站设计和SEO有帮助。当然,这些只是我学到的一些知识。如果有什么不对的地方,希望大家多多指正。好,开始今天的正文。
第五、随时删除重复:随时删除重复是比较重要的部分。由于互联网上信息量巨大,大家都喜欢分享,所以导致了大量的重复内容。如果搜索引擎不进行去重处理,会造成大量重复爬取和收录。搜索引擎常用的方法是对页面进行关键词指纹计算。典型的MD5算法是选择页面关键词中最具代表性的部分进行计算,判断这些文章是否为原创。指纹计算往往精确到段落,所以一般的伪原创都会被搜索引擎发现,很容易判断你是抄袭。
六、forward 索引:前向索引也称为索引。蜘蛛对网页进行提取、分割、降噪、去重后,会得到能够反映主题的关键词。搜索引擎会将这些代表页面主题的关键词形成一个集合,并记录每个关键词在页面上的数量、格式、频率等,然后将这些集合存储在索引库中。在索引库中,每个文件对应一个ID,内容是一系列关键词组合,然后搜索引擎会不断填充自己的索引库,直接为排名铺路。
第七、倒排索引:上面提到的正向索引不能直接由用户排名,用户排名是倒排索引。试想一下,如果用户排名向前索引,当用户搜索某个关键词时,他需要搜索所有收录关键词的文件,工作量会非常大,不现实。搜索引擎经常重构正向索引库并将其转换为倒排索引。倒排索引的结构是一个关键词对应多个文件。当用户搜索一个关键词时,就会在这个关键词Go下搜索对应的文件,这样处理速度会快很多,也更容易实现。
第八、链接关系计算:链接关系的计算一直是大家最关心的问题之一。现在主流的搜索引擎都会把网页之间的链接作为一个非常重要的部分来计算,看看页面上有哪些链接可以通过。重量,则只起导向作用。尤其是谷歌PR值是根据这个链接关系计算出来的,其他搜索引擎也有类似的计算,只是不叫PR。链接关系往往非常复杂,计算时间会很长。这里就不深入分享了,只是提给大家,让大家知道预处理中有链接计算。
特殊文件的处理九、:网页上往往不仅有HTML文件,还有多种文件类型。搜索引擎也会主动抓取基于文本的PDF、word、Txt文件等,我们经常会在搜索结果中找到这样的搜索结果。但对于flash和图片,虽然搜索引擎一直在努力,但距离直接阅读它们的内容还很遥远。所以如果你想做SEO,尽量少用图片和FLASH。你应该尽量使用尽可能多的文字,让搜索引擎无障碍地爬行。
在这里,我们将通过五个方面来分享本章:随时去重、正向索引、倒排索引、链接关系计算、特殊文件的处理,加上最后一部分文章,一共九个需要站长朋友们理解,希望阅读本文对大家有所帮助。好了,这篇文章就到这里了。如果你有好的想法,欢迎与我交流。本文来自:深圳网站建筑