搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后怎么办

优采云 发布时间: 2021-06-15 02:10

  搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后怎么办

  搜索引擎蜘蛛抓取页面,索引程序计算出倒排索引后,搜索引擎随时准备处理用户搜索。用户在搜索框中输入查询词后,排名程序调用索引库数据,计算排名并显示给用户。排名过程与用户直接交互。

  

  1、搜索词处理

  搜索引擎收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程。搜索词处理包括以下几个方面:

  (1),中文分词。和页面索引一样,搜索词也必须是中文分词,查询字符串必须转换成基于词的关键词组合。分词的原理是同页面分词。

  (2),停止词。指令处理与索引相同,搜索引擎也需要去除搜索词中的停止词,以最大限度地提高排名的相关性和效率。

  (3),指令处理。查询词切分后,搜索引擎默认的处理方式是关键词之间使用“与”逻辑。比如用户搜索“减肥法”时关键词 ,程序分词为“减肥”(代码:A)和“方法”(代码:B),搜索引擎排序时,默认用户查找的页面同时收录“减肥”和“减肥” “方法”。有A但没有B或B但没有A的页面将被视为不符合搜索条件。这只是为了简化解释原则,实际上您仍然可以看到只收录@的一部分的搜索结果k5@.此外,用户输入的查询词还可能收录一些高级搜索指令(后面文章会提到),比如加号、减号等,搜索引擎需要做相应的识别和相应的处理.

  (4),拼写错误纠正。如果用户输入明显错误的单词或拼错英文单词,搜索引擎会提示用户使用正确的单词和拼写。

  拼写错误更正

  (5),集成搜索触发。某些搜索词会触发集成搜索。比如名人名字经常触发图像和视频内容。当前的热门话题很容易触发信息内容。哪个词触发哪个集成搜索,它也需要在搜索词处理阶段进行计算。

  (6),搜索框提示。当用户填写搜索框时,搜索引擎会根据热门搜索数据给出多组可能的查询词,减少用户输入时间。

  2、文件匹配

  搜索词处理后,搜索引擎根据词获取关键词的集合。文件匹配阶段是查找收录所有搜索关键词的所有文件。索引部分提到的倒排索引可以快速完成文件匹配。如下图所示:

  倒排索引以快速匹配文件

  假设用户搜索“关键词2”和“关键词7”,排名程序可以在倒排索引中找到“关键词2”和“关键词7”这两个词的所有页面分别收录这两个词。经过简单的交集,可以找到同时收录“关键词2”和“关键词7”的所有页面:文件1和文件6。

  3、初始子集的选择

  找到收录所有关键词的匹配文件后,无法进行相关性计算,因为找到的文件往往有几十万、几百万甚至几千万。实时对这么多文件进行关联计算,耗时太长。事实上,用户不会查看数十万个页面。大多数用户只查看前两页,也就是前 20 个结果。搜索引擎只需要显示页面最重要的部分。搜索结果页面通常最多显示 100 页。谷歌、雅虎! ,搜狗显示100页,百度显示76页,一般是64页,Bing好像没有固定值,根据不同的查询词会有所不同,但不会超过100页。

  但问题是,在没有计算相关性的情况下,搜索引擎如何知道哪100页结果最相关?因此,最终相关性计算的初始页面子集的选择必须依赖于其他特征而不是相关性。其中最重要的是页面权重。由于所有匹配的文件已经具有最基本的相关性(这些文件收录所有查询关键词),搜索引擎通常使用相关性的页面特征来选择初始子集。初始子集的数量是多少?成千上万?也许更多,外人不知道。但可以肯定的是,当匹配的页面数量巨大时,搜索引擎不会对这么多页面进行实时计算,而是必须选择一个页面权重较高的子集,然后计算页面中页面的相关性。子集。

  4、相关计算

  GIF 源网络

  计算相关性是排名过程中最重要的一步。相关性计算是SEO搜索引擎算法中最有趣的部分。

  影响相关性的主要因素包括以下几个部分:

  (1),关键词常用度。分词后,多个关键词对整个搜索字符串的意义贡献不同。常用词越多,对搜索意义的贡献越小term 相反,不太常用的词有助于搜索词的含义。

  例如:假设用户输入关键词 为“我们的冥王星”。 “我们”这个词使用频率很高,出现在很多页面上。它对搜索词“us Pluto”的识别和意义相关性贡献不大。找出那些收录“我们”一词的页面对搜索排名相关性几乎没有影响。收录“我们”一词的页面太多了。相反,搜索词“冥王星”“我们的冥王星”会更相关。

  最常见的词是停用词,它对页面的含义没有影响。因此,搜索引擎不会对搜索字符串中的关键词 一视同仁,而是根据常用程度进行加权。生僻词权重系数高,常用词权重系数低。排序算法更关注生僻词。

  假设“we”和“Pluto”两个词出现在A页和B页。但是“we”这个词出现在A页的普通文本中,而“Pluto”这个词出现在A页的标题标签中.在B页,相反,“我们”出现在标题标签中,“冥王星”出现在普通文本中。那么对于搜索词“我们冥王星”,页面 A 将更相关。

  (2),词频和密度。一般认为,在没有关键词积累的情况下,搜索词出现在页面上的次数越多,密度越高,页面的相关性和搜索词。当然这只是一个粗略直观的规则,实际情况要复杂得多,频率和密度只是排名因素的一小部分。

  (3),关键词位置和格式。如索引部分所述,页面关键词的格式和位置记录在索引库中。关键词出现在比较重要的位置,如标题标签、黑体字、H1等,表示该页面与关键词越有关,这部分是页面SEO应该解决的问题。

  (4)、关键词distance。拆分后,关键词出现完全匹配,说明与搜索词最相关。例如:搜索“减肥方法”时,“减肥方法”连续完整出现在页面上 这四个词最相关。如果“减肥”和“方法”这两个词没有连续出现,它们看起来更接近,被搜索引擎认为稍微更相关.

  (5),链接分析和页面权重。除了页面本身的因素,页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的是锚文本。更多页面 搜索词是带有锚文本的导入链接,表示该页面更相关。

  链接分析还包括链接源页面本身的主题、锚文本周围的文本等。

  5、ranking 过滤和调整

  选择匹配文件的子集并计算相关性后,就确定了总体排名。之后,搜索引擎也可能有一些过滤算法来稍微调整排名,其中最重要的是施加惩罚。一些疑似作弊的页面按照正常的权重和相关性计算排在第一位,但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位算法,谷歌的-6、-30和-950算法。

  6、排名显示

  所有排名确定后,排名程序调用原页面的标题标签、描述标签、快照日期显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。

  7、搜索缓存

  用户搜索的大部分查询词都是重复的。根据2/8定律,20%的搜索词占总搜索次数的80%。根据长尾理论,最常见的搜索词占不到80%,但它们通常都有一个比较大的头部。一些搜索词占所有搜索的很大一部分。特别是当热点新闻发生时,每天可能有数百万次识别搜索完全相同的词。

  如果每次搜索都重新处理排名,可以说是一大浪费。搜索引擎会将最常用的搜索词和结果存储在缓存中,用户搜索时直接从缓存中调用,无需经过文件匹配和关联计算,大大提高了排名效率,缩短了搜索时间响应时间。

  8、查询和日志

  搜索用户的IP地质,搜索查询词,搜索时间,以及点击了哪些结果页面,搜索引擎记录并形成日志。这些日志文件中的数据对于搜索引擎判断搜索结果质量、调整搜索算法、预测搜索趋势具有重要意义。

  搜索引擎工作原理后记

  在上面文章的文章中,我们简单介绍了搜索引擎的工作过程。当然,搜索引擎的实际工作步骤和算法是非常复杂的。这三篇文中的说明很简单,但是技术难点很多。此外,搜索引擎也在不断优化算法和优化数据库格式。不同的搜索引擎的工作步骤也会有所不同,但几乎所有主流搜索引擎的基本工作原理都是一样的,过去几年和未来几年都不会出现可以预期的实质性变化。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线