搜索引擎优化含义(搜索引擎的三个核心问题:“更全”与更快)

优采云 发布时间: 2021-10-16 07:02

  搜索引擎优化含义(搜索引擎的三个核心问题:“更全”与更快)

  内容

  搜索引擎的三个目标

  1)更全:所谓“更全”是指被它索引的网页数量。目前,任何商业搜索引擎索引网页的覆盖范围都只占互联网页面的一部分,可以通过增加网络爬虫的数量来提高。实现这一目标的相关技术

  2)更快:“更快”的目标贯穿了搜索引擎的大部分技术方向。比如直接提出索引相关技术、缓存等技术来实现这个目标。许多其他技术也间接地为此服务。甚至分布式海量云存储平台也被设计成能够处理海量的网页数据,以实现对“更完整”和“更快”两个目标的响应和支持。

  3)更准确:“更准确”是最关键的目标。无论是排序技术、链接分析技术,还是用户研究技术,最终目的都是为了让搜索结果更加准确,提升用户体验。对于一个搜索引擎来说,做到“更全”、“更快”,可以让它不落后于同类产品,但如果能“更精准”,就可以打造自己的核心竞争力。

  搜索引擎的三大核心问题:

  1)用户真正需要什么?

  搜索引擎用户输入的查询请求很短,查询的平均长度为2.7个字。如何从这么短的查询请求中知道隐藏的真实用户需求?这是搜索引擎首先需要解决的一个非常重要的问题。如果无法获得用户的真实搜索意图,就无法讨论搜索的准确性,即使后续的内容匹配算法再精妙,也无济于事。从另一个角度来看,即使是同一个查询词,不同的用户也有不同的搜索目的。如何识别这种差异?如果再进一步,即使同一个查询是同一个用户发送的,也可能是不同的,因为用户所处的场景不同,目的不同。如何识别?这些都是搜索引擎需要解决的核心问题,即用户此时和此处发出某个查询时,用户真正的搜索意图是什么。

  2)哪些信息与用户的需求真正相关?

  第一个问题是从用户的角度考虑的,这个问题是从数据服务器的角度考虑的。搜索引擎本质上是一个匹配过程,即从海量数据中寻找能够匹配用户需求的内容。因此,在达到明确用户真实意图的前提后,如何找到能够满足用户需求的信息就成为关键因素。判断内容与用户查询的相关性关键词一直是信息检索领域的核心研究课题,不断提出的信息检索模型正试图解决这个问题。相关研究历时近60年。虽然提出了新的方法,整体检索效果逐渐提升,该领域的基本指导思想仍然是基于关键词的匹配,包括当前所有搜索引擎的相关性计算。在某种程度上,基本的计算思想与几十年前没有本质区别。如何在这个核心问题上取得突破?这个问题会越来越重要,从匹配关键词到让机器真正理解信息的含义,是解决这个问题必须跨越的一道门槛。从目前来看,虽然包括人工智能在内的很多相关研究领域都在这方面取得了进展,但在短期内还没有看到明确的技术思路来解决这个问题。基本的计算思路与几十年前没有本质区别。如何在这个核心问题上取得突破?这个问题会越来越重要,从匹配关键词到让机器真正理解信息的含义,是解决这个问题必须跨越的一道门槛。从目前来看,虽然包括人工智能在内的很多相关研究领域都在这方面取得了进展,但在短期内还没有看到明确的技术思路来解决这个问题。基本的计算思路与几十年前没有本质区别。如何在这个核心问题上取得突破?这个问题会越来越重要,从匹配关键词到让机器真正理解信息的含义,是解决这个问题必须跨越的一道门槛。从目前来看,虽然包括人工智能在内的很多相关研究领域都在这方面取得了进展,但在短期内还没有看到明确的技术思路来解决这个问题。让机器真正理解信息的含义是解决这个问题必须跨越的一道门槛。从目前来看,虽然包括人工智能在内的很多相关研究领域都在这方面取得了进展,但在短期内还没有看到明确的技术思路来解决这个问题。让机器真正理解信息的含义是解决这个问题必须跨越的一道门槛。从目前来看,虽然包括人工智能在内的很多相关研究领域都在这方面取得了进展,但在短期内还没有看到明确的技术思路来解决这个问题。

  3)哪些用户可以信任?

  搜索引擎需要处理的信息对象是任何用户在互联网上发布的内容,但是对于内容发布者发布的内容是否可信,并没有明确的标准来判断。在此期间,恶意信息发布者故意歪曲事实,也存在信息发布者的偶然失误。在同一个查询的搜索结果中,可能会出现相互冲突的搜索答案。这时候,信息的可信度就成了一个突出的问题。例如,用户想在某家餐厅用餐,在做出消费决策之前,他会在互联网上搜索用户在该餐厅用餐的过往评论,以辅助决策。搜索中发现的相关内容,极有可能是餐厅为了误导消费者而故意发布的一些好评。但是如果信息发布者是用户的朋友,信息的可信度就会大大增加。

  搜索引擎的技术架构

  

  搜索引擎的信息源来自互联网网页,通过网络爬虫在本地获取整个互联网的信息。由于互联网页面上很大一部分内容是完全相同或几乎重复的,“网页去重”模块会做这个检查并去除重复的内容。之后,搜索引擎将解析网页并提取网页的主要内容,以及该网页中收录的其他页面的链接。为了加快对用户查询的响应,通过高效的“倒排索引”查询数据结构保存网页内容,同时保存网页之间的链接关系。之所以保存链接关系,是因为这个关系在网页的相关性排名阶段是可用的。通过“链接分析”可以判断页面的相对重要性,这对于为用户提供准确的搜索结果非常有帮助。由于网页数量众多,搜索引擎不仅需要保存网页的原创信息,还需要存储一些中间处理结果。使用单一或少量机器显然是不现实的。谷歌等商业搜索引擎为此开发了一套完整的云存储和云计算平台,利用数万台普通PC构建可靠的海量信息存储和计算架构作为搜索引擎和相关应用。优秀的云存储和云计算平台已成为大型商业搜索引擎的核心竞争力。以上就是搜索引擎获取和存储海量网页相关信息的方式。这些功能不需要实时计算,可以看作是搜索引擎的后端计算系统。

  搜索引擎最重要的目的是为用户提供准确、全面的搜索结果。如何实时响应用户查询并提供准确结果,构成了搜索引擎的前端计算系统。搜索引擎收到用户的查询后,首先需要对查询进行分析,希望能够将查询和用户信息结合起来,正确推断出用户的真实搜索意图。之后,首先查看缓存。搜索引擎的缓存系统存储了不同查询意图对应的搜索结果。如果在缓存系统中可以找到满足用户需求的信息,则可以直接将搜索结果返回给用户。节省重复计算的资源消耗,加快响应速度;如果缓存中存储的信息不能满足用户需求,搜索引擎需要调用“页面排序”模块功能,根据用户的查询实时计算哪些网页满足用户信息需要,排序后输出为搜索结果. 网页排名最重要的两个参考因素中,一个是内容相似度因素,即哪些网页与用户查询密切相关;另一个是网页重要性因素,即哪些网页质量好或者比较重要。这通常可以从链接分析的结果中获得。结合以上两个考虑,可以对网页进行排序并作为用户查询的搜索结果。除上述子功能模块外,“反作弊” 搜索引擎模块已经成为越来越重要的功能。搜索引擎作为网民的门户,对网络流量的引导和分流至关重要,甚至可以说起到了举足轻重的作用。于是,各种“作弊”手段逐渐流行起来,通过各种手段将网页的搜索排名提升到与其网页质量不相称的位置,严重影响用户的搜索体验。因此,如何自动发现并惩罚作弊页面成为了搜索引擎非常重要的一环。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线