搜索引擎索引系统建立倒排索引及求交检索过程

优采云 发布时间: 2021-05-28 23:08

  搜索引擎索引系统建立倒排索引及求交检索过程

  搜索引擎索引系统概述

  众所周知,搜索引擎的主要工作流程包括:爬网,存储,页面分析,索引编制,检索和其他主要流程。在上一章中,我们主要介绍了爬网和存储链接中的一些内容。本章简要介绍了索引系统。

  在以1亿为单位的网页库中搜索某些特定关键词就像在大海捞针中找针。可能可以在一段时间内完成搜索,但用户无力等待。从用户体验的角度出发,必须在毫秒级内给用户满意的结果,否则用户只会流失。我们如何满足这一要求?

  如果您知道用户搜索关键词的哪些页面(查询细分后)出现在哪些页面中,则用户检索过程可以想象为收录查询细分的不同部分的页面集合。处理和检索成为页面名称之间的比较和交叉。以这种方式,以1亿毫秒为单位的检索成为可能。这就是所谓的反向索引和相交检索的过程。创建反向索引的基本过程如下:

  

  1。页面分析的过程实际上是识别并标记原创页面的不同部分,例如:标题,关键字,内容,链接,锚点,注释,其他非重要区域等;

  2,分词的过程实际上包括分词,分词,同义词转换,同义词替换等。以页面标题的分词为例,获得的数据为:术语文本,termid ,词性,词性等;

  3。在完成之前的准备之后,下一步是创建一个倒排索引以形成{termàdoc}。下图显示了索引系统中的反向索引过程。

  

  倒排索引是搜索引擎实现毫秒级检索的非常重要的链接。接下来,我们要介绍建立索引倒排索引存储和写入的重要索引系统过程。

  倒排索引存储和写入的重要过程

  在建立反向索引的最后,索引系统还需要具有存储和写入过程,并且为了提高效率,该过程还需要在文件头中保存所有项和偏移量,并且压缩数据。我不会在这里提及过多的技术知识。这是索引后的检索系统的简要介绍。

  检索系统主要由五个部分组成,如下图所示:

  

  (1)查询字符串分段是对用户的查询词进行分段,以为后续查询做准备。以“ 10号线地铁故障”为例,可能的分段如下(同义词问题暂时省略):

  100x123abc

  不。 0x13445d

  第0x234d行

  地铁0x145cf

  故障0x354df

  (2)找出收录每个术语的文档集合,即找到候选集合,如下所示:

  0x123abc123479 .....

  0x13445d25891011……

  ……

  ……

  (3)交集,上面的交集,文档2和文档9可能是我们需要查找的,整个交集过程实际上与整个系统的性能有关,其中包括使用缓存和其他方法来执行性能优化;

  (4)各种过滤,示例可能包括过滤掉无效链接,重复数据,*敏*感*词*内容,垃圾结果以及您所知道的内容;

  (5)最终排名,首先将最能满足用户需求的结果排名,其中可能收录有用的信息,例如:网站总体评估,网页质量,内容质量,资源质量,匹配度,分散程度,及时性等

  影响搜索结果排名的因素

  上面的内容似乎有些深奥,因为它涉及很多技术细节,我们只能在这里讨论。然后,我们讨论每个人最感兴趣的排序问题。用户输入关键词进行搜索。百度搜索引擎必须在排序链接中做两件事。第一种是从索引数据库中提取相关网页,第二种是根据不同维度的分数对提取的网页进行整合。种类。 “不同尺寸”包括:

  1。相关性:网页内容与用户搜索要求之间的匹配程度,例如,网页中收录的用户检查关键词的数量以及这些关键词的显示位置;外部网页用于指向页面等的锚文本。

  2。权限:用户喜欢某种程度的权限提供的内容网站。因此,百度搜索引擎也相信高质量的权威网站所提供的内容。

  3。及时性:及时性结果是指收录新内容的新网页。目前,对时间敏感的结果在搜索引擎中变得越来越重要。

  4。重要性:将网页内容与用户的检查需求相匹配的重要性或受欢迎程度

  5。丰富度:丰富度看似简单,但这是一个涵盖面很广的命题。可以理解,网页的内容丰富,可以充分满足用户的需求;它不仅可以满足用户的单一需求,而且可以满足用户的扩展需求。

  6。受欢迎程度:指该网页是否受欢迎。

  以上是百度搜索引擎在确定搜索结果排名时要考虑的六个原则。那么这六个原则的重点是什么?哪个原理在实际应用中占最大比例?实际上,这里没有确切的答案。在百度搜索引擎成立之初,这些门槛确实是相对固定的。例如,“相关性”可以占整体排名的70%。但是,随着Internet的不断发展,检索技术的进步以及网页数量的爆炸性增长,相关性不再是问题。因此,百度搜索引擎引入了一种机器学习机制,以使程序能够自动生成计算公式并推广更合理的排名策略。

  低质量网页的狙击策略-石榴算法

  我们了解到网站需要财务支持才能生存和发展,并且我们从不反对网站添加各种合法广告。不要问我们“如果我们网站添加XX联盟的广告会受到惩罚?”之类的问题? 。一些网站在百度上的排名很好,但是在页面上放置了大量广告,这些广告损害了用户体验,从而严重影响了百度搜索引擎的用户体验。为此,百度质量团队于2013年5月17日发布了一项公告:针对低质量网页启动了石榴算法,旨在对收录大量妨碍用户正常浏览的不良广告的网页进行打击弹出窗口,其中收录大量低质量的广告和令人困惑的页面。收录垃圾邮件广告的主要内容页面。

  如以下网页的屏幕快照所示,用户需要很长时间才能找到百度无法接受的真实下载地址。

  

  百度的质量团队希望网站站长可以从用户的角度出发,考虑长期发展,在不影响用户体验的情况下合理放置广告,赢得用户的长期青睐是网站开发和生长。

  外部链接的作用(2014版)

  “内容为王,超级连锁为王”这一说法已经流行了很多年。通过超链接计算分数反映了网页的相关性和重要性。它确实是搜索引擎用来评估网页的重要参考因素之一。将直接参与搜索结果排序的计算。但是,随着越来越多的SEO人员了解该技术,Hyperlink逐渐失去了其投票的意义。无论是Google还是百度,对Hyperlink数据的依赖性越来越低。那么,超链接现在扮演什么角色?

  1。吸引蜘蛛爬行:尽管百度在挖掘新的和好的站点,打开多个数据提交门户并避免社交发现渠道方面做出了巨大的努力,但超链接仍在发现收录链接中最重要的入口。

  2。向搜索引擎提供相关信息:除了通过TITLE,page 关键词,H标签等来判断网页内容之外,百度还将使用锚文本来辅助判断。使用图片作为点击入口的超链接,您还可以通过alt属性和标题标签将您的感受发送给百度。

  3。提高排名:尽管百度搜索引擎减少了对超链接的依赖,但其对超链接的识别从未减少,并且为高质量链接,普通链接,垃圾邮件链接和作弊链接制定了更严格的标准。对于作弊链接,除了对链接进行过滤和清理外,还对链接的受益站点进行一定程度的惩罚。因此,百度仍然欢迎高质量的链接。

  4。内容共享,赢得口口相传:高质量的内容得到了广泛传播,网站可能不会带来很多流量,但是如果内容做得足够,您还可以树立自己的品牌效应。

  *严格来说,这不是超链接。在百度看来,网站的品牌比Hyperlink更重要。

  买卖超链接的最前沿-Luluo算法1. 0&2. 0

  百度质量团队于2013年2月19日发布了发布Luluo算法的公告,再次强调了买卖链接的行为:一方面,买卖链接的行为会影响用户体验并干扰搜索引擎算法;另一方面,它允许投机性网站建设者从中受益并获得超额收益。连锁中介是有利可图的,而真正努力做好工作的网站管理员无法在这种严酷的Internet超链接环境中获得应有的回报。因此,在清除外部链接的买卖链接行为的基础上,以下三种网站类型将受到不同程度的影响:

  1、超链中介:超链应该是Internet上相对高质量的推荐。这是对页面内容和网站在普通用户和网站之间的值的肯定,但是现在各种超链接欺骗行为使True肯定已成为某些人寻求好处的垫脚石。用户无法根据链接建议找到他们所需的高质量资源,这严重干扰了搜索引擎对网站的评估。超链中介是在这个变形的超链市场中形成的邪恶之花。我们有义务维护超链的纯洁性,以保护用户的利益,我们还负责引导网站管理员朋友停止花费不必要的费用,因此超链中介将在我们的目标范围内。

  2、出售链接网站:有很多方法可以为网站赚钱。使用高质量的原创内容吸引常规用户,引入高质量的广告资源,甚至举办离线活动。这些获利方法是我们乐意做的。您所看到的是网站的真实价值。但是,某些网站内容采集基本上来自互联网,并通过出售超链接位置进行直播。链接中介可能会租用某些机构网站来出售链接位置,从而使超链接市场泡沫越来越多。此调整也会影响此类网站。

  3、购买链接网站:百度一直以来都在保护和培育高质量的网站。从用户需求和企业家网站管理员的角度来看,这是不可避免的结果。但是,有些网站管理员不会将精力花在提高网站的质量上,而是选择使用技巧,用钱换超链接,欺骗搜索引擎以及欺骗用户。对于没有太多资源和金钱可用于此类支出的企业家网站管理员,这也是无形的伤害。如果没有遏制措施,那么坏钱将驱逐好钱,这将不可避免地导致更糟糕的互联网环境。这些网站本身的调整也将受到影响。

  以上是百度质量团队首先推出Luluo算法(后来称为Luluo算法1. 0)时的具体情况。五个月后,百度的质量团队再次推出了Luluo算法2. 0,该算法针对明显的促销软文进行了更广泛的范围和更严格的处理。

  惩罚的重点是发布软文的新闻站点,包括软文交易平台和软文收入站点。处罚包括:

  1、将被直接屏蔽软文交易平台;

  2、将根据不同的程度与软文发行站打交道。例如,对于新闻网站,存在发布软文的现象,但情节不严重,网站在搜索系统中将降级;如果使用大量子域发布软文,则该子域将被直接阻止,并清除百度新闻源;此外,创建大量子域进行发布软文,在这种情况下,整个主域都将被阻止。

  3、对于软文受益人站点,在网站外部链接中只有少量软文外部链接,然后外部链接将从权重计算系统中过滤掉,并且受益人站点观察一段时间后,将根据情况进行进一步处理; 网站外部链接收录大量软文外部链接,则此时受益站点将降级或直接被阻止。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线