解决方案:搜索引擎的工作原理是什么?
优采云 发布时间: 2020-09-04 12:23搜索引擎如何工作?
因此,这些块是噪音,只能在分散页面主题方面起作用。搜索引擎需要识别并消除这些噪音,并且在排名时不使用噪音内容。消除噪音的基本方法是根据HTML标签将页面划分为块,区分页眉,导航,正文,页脚,广告和其他区域。 网站上的大量重复块通常是噪声。对页面进行去噪后,剩下的就是页面的主要内容。
重复数据删除
搜索引擎还需要对页面进行重复数据删除。同一文章文章经常重复出现在不同的网站和相同的网站的不同URL上。搜索引擎不喜欢这种重复的内容。用户搜索时,如果在前两页中从不同的网站看到相同的文章文章,则尽管它们都是与内容相关的,但用户体验仍然太差。搜索引擎希望仅返回相同文章的一篇文章,因此它需要在索引之前识别并删除重复的内容。此原理称为重复数据删除。重复数据删除的基本方法是计算页面特征关键词的指纹,即选择页面主要内容关键词中最具代表性的部分(通常是最频繁出现的关键词),然后计算这些特征关键词]数字指纹。
在关键词的选择是在分词,停止单词删除和降噪之后。实验表明,通常选择10个特征关键词可以达到较高的计算精度,选择更多的单词不会对重复数据删除精度的提高有太大贡献。了解搜索引擎的重复数据删除算法后,SEO人员应该知道,简单地添加“ de,place,de”并更改段落顺序(即所谓的伪原创)无法逃脱搜索引擎的重复数据删除算法,由于此操作,无法更改文章 关键词的特性。此外,搜索引擎的重复数据删除算法可能不仅在页面级别,而且在段落级别。混合使用不同的文章并交叉切换段落的顺序不会使重印和抄袭成为原创。
前向索引也可以简称为索引。
在文本提取,分词,去噪和重复数据删除之后,搜索引擎将获得反映页面主要内容且基于单词的独特内容。接下来,搜索引擎索引程序可以提取关键词,根据被分词程序划分的单词将页面转换为一组关键词,并记录每个关键词的频率,出现次数和频率在页面上。格式(例如标题标签,粗体字,H标签,锚文本等),位置(例如页面的第一段等)。这样,每个页面都可以记录为关键词组字符串,其中还记录了每个关键词的单词频率,格式,位置和其他权重信息。
倒排索引
前向索引不能直接用于排名。假设用户搜索关键词 2。如果只有前向索引,则排名程序需要扫描索引库中的所有文件,找到收录关键词 2的文件,然后执行相关计算。此计算量不能满足实时返回排名结果的要求。因此,搜索引擎会将前向索引数据库重建为反向索引,并将从文件到关键词的映射转换为从关键词到文件的映射。在反向索引中,关键词是主键,每个关键词对应于一系列文件,并且此关键词出现在这些文件中。这样,当用户搜索某个关键词时,排序程序便将该关键词定位在倒排索引中,并且可以立即找到收录该关键词的所有文件。
链接关系的计算
链接关系的计算也是预处理的重要部分。现在,所有主流搜索引擎排名因素都包括网页之间的链接流信息。搜索引擎抓取页面内容后,必须预先计算页面上的哪些链接指向其他哪些页面?每个页面上导入的链接是什么?链接使用什么锚文本?这些复杂的链接指向关系形成网站和页面的链接权重。 Google PR值是这种链接关系的最重要体现之一。其他搜索引擎也执行类似的计算,尽管它们没有将其称为PR。
特殊文件处理
除了HTML文件之外,搜索引擎通常还可以抓取和索引各种基于文本的文件类型,例如PDF,Word,WPS,XLS,PPT,TXT文件等。我们经常在搜索中看到这些文件类型结果。但是,当前的搜索引擎无法处理图像,视频和Flash等非文本内容,也无法执行脚本和程序。尽管搜索引擎在识别图像和从Flash提取文本内容方面取得了一些进步,但它们仍然远非通过读取图像,视频和Flash内容直接返回结果的目标。图片和视频内容的排名通常基于相关的文本内容。有关详细信息,请参阅下面的集成搜索部分。
排名
在搜索引擎蜘蛛抓取页面并且索引程序计算出反向索引之后,搜索引擎随时可以处理用户搜索。用户在搜索框中填写关键词后,排名程序将调用索引库数据,计算排名并将其显示给用户。排名原则是直接与用户互动。
搜索字词处理
搜索引擎收到用户输入的搜索词后,需要对搜索词进行一些处理才能输入排名原则。搜索字词处理包括以下几个方面:
中文分词
与页面索引一样,搜索词也必须用中文进行分段,并且查询字符串必须转换为基于单词的关键词组合。分词的原理与页面分词的原理相同。
去停词
像建立索引一样,搜索引擎还需要从搜索词中删除停用词,以最大程度地提高排名的相关性和效率。
命令处理
对查询词进行细分之后,搜索引擎的默认处理方法是在关键词之间使用“与”逻辑。也就是说,当用户搜索“减肥方法”时,节目细分为“减肥”和“方法”。搜索引擎默认认为用户正在寻找同时收录“减肥”和“方法”的页面。 。仅收录“减肥”但不收录“方法”,或仅收录“方法”但不收录“减少脂肪”的页面被认为不符合搜索条件。当然,这只是一个非常简化的陈述来说明原理。实际上,我们仍然会看到仅收录关键词一部分的搜索结果。此外,用户输入的查询词还可能收录一些高级搜索指令,例如加号,减号等,搜索引擎需要相应地标识和处理。
文件匹配
在处理了搜索词之后,搜索引擎将获得基于单词的关键词集合。文件匹配阶段是查找收录所有关键词的文件。索引部分中提到的反向索引使文件匹配得以快速完成。
初始子集的选择
找到收录所有关键词的匹配文件后,便无法执行相关计算,因为通常会找到数十万,数百万甚至数千万的文件。实时对这么多文件进行关联计算需要很长时间。实际上,用户并不需要知道所有匹配的数以亿计的页面,大多数用户仅查看前两个页面,即前20个结果。搜索引擎不需要计算这么多页面的相关性,而只需要计算页面中最重要的部分。使用搜索引擎的人会注意到,搜索结果页面通常最多只能显示一百个。当用户单击搜索结果页面底部的“下一页”链接时,他们最多只能看到一百个页面,即一千个搜索结果。百度通常会返回76页的结果。
相关性计算
选择初始子集后,计算该子集中页面的关键词相关性。计算相关性是排名原则中最重要的步骤。关联性计算是SEO搜索引擎算法中最有趣的部分。影响相关性的主要因素包括几个方面。
关键词常用级别
分词后的多个关键词对整个搜索字符串的含义有不同的贡献。较常用的词对搜索项含义的贡献较小,而较不常用的词对含义的贡献较大。例如,假设用户输入的搜索词是“ we Pluto”。 “我们”一词非常常用,它出现在许多页面上。它对搜索词“ us Pluto”的识别和意义几乎没有贡献。找到收录单词“ we”的那些页面对搜索排名的相关性影响很小,并且收录单词“ we”的页面太多。术语“冥王星”不那么常用,它对搜索词“我们的冥王星”的含义贡献更大。收录单词“ Pluto”的页面将与搜索词“我们的Pluto”更加相关。最常见的词是停用词,它们对页面的含义没有影响。
因此,搜索引擎不会对搜索词中的关键词进行同等对待,而是根据常用程度对其进行加权。罕见词的加权系数高,常用词的加权系数低。排名算法更加注意不常见的单词。我们假定在页面A和B上都出现了“我们”和“冥王星”。但是,在页面A的普通文本中出现了“我们”,而在页面A的标题标签中出现了“冥王星”。相反,在B页中,“ we”出现在标题标签中,而“ Pluto”出现在普通文本中。然后,对于搜索词“我们冥王星”,页面A会更相关。
单词频率和密度
通常认为,在没有关键词累积的情况下,搜索词在页面上的出现频率更高,并且密度更高,表明该页面与搜索词更相关。当然,这只是一般规则,实际情况可能并非如此,因此相关计算中还有其他因素。频率和密度只是这些因素的一部分,它们的重要性越来越低。 关键词位置和格式如索引部分所述,页面关键词的格式和位置记录在索引库中。 关键词出现在更重要的位置,例如标题标签,粗体,H1等,指示该页面与关键词更加相关。这是SEO页面要解决的问题。
关键词距离
拆分关键词显示为完全匹配,表明它与搜索词最相关。例如,当搜索“减肥方法”时,页面上连续且完全出现的四个单词“减肥方法”是最相关的。如果“减肥”和“方法”这两个词未在连续匹配中出现,则它们看起来更接近,并被搜索引擎认为更相关。
链接分析和页面权重
除了页面本身的因素*敏*感*词*的文本,等等。在对过滤器进行排名和调整之后,选择匹配文件的子集并计算相关性,从而确定了总体排名。之后,搜索引擎可能还会使用一些过滤算法来稍微调整排名,其中最重要的是施加惩罚。根据正常的权重和相关性计算,可以将某些怀疑作弊的页面排在第一位,但是搜索引擎的惩罚算法可能会将这些页面移到最后一步。典型的例子是百度的11位算法,谷歌的负6,负30和负950算法。
排名显示
确定所有排名后,排名程序将调用原创页面的标题标签,描述标签和快照日期,以将其显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。
搜索缓存
用户搜索的关键词的大部分重复出现。根据2/8法律,搜索词的20%占搜索总数的80%。根据长尾理论,最常见的搜索词所占比例不超过80%,但它们通常具有相对较大的头部。少数搜索词占所有搜索的很大一部分。尤其是在发生热门新闻时,每天都有成千上万的人搜索完全相同的内容关键词。可以说,每次搜索都重新处理排名是很浪费的。
搜索引擎会将最常见的搜索词存储在缓存中,并且用户在搜索时将直接从缓存中调用它们,而无需进行文件匹配和相关性计算,从而大大提高了排名效率并缩短了搜索响应时间。查询并单击日志以搜索用户的IP地址,搜索关键词,搜索时间,然后单击搜索结果页面,并记录在日志中并形成日志。这些日志文件中的数据对于搜索引擎判断搜索结果的质量,调整搜索算法并预测搜索趋势具有重要意义。
以上我们简要介绍了搜索引擎的工作原理。当然,搜索引擎的实际工作步骤和算法非常非常复杂。上面的描述非常简单,但是存在许多技术困难。搜索引擎继续优化算法并优化数据库格式。不同搜索引擎的工作步骤将有所不同。但是基本上所有主要搜索引擎的基本工作原理都是相同的,并且在过去的几年和未来的几年中不会有实质性的变化。