搜索引擎进行信息检索的优化策略方法(搜索引擎提搜索引擎的基础技术及其评估标准(一)-八维教育)
优采云 发布时间: 2021-09-16 23:05搜索引擎进行信息检索的优化策略方法(搜索引擎提搜索引擎的基础技术及其评估标准(一)-八维教育)
目录
【1】 搜索引擎概述
【2】 搜索引擎的基本技术
< 3】搜索引擎的平台基础
【4】 搜索结果的改进与优化
__________________________________________________
【1】 搜索引擎概述
在过去的15年里,互联网信息迅速膨胀,人工筛选和获取有用信息已不再可能,于是搜索引擎应运而生。根据其发展,可分为四个时期
说到发展,我必须提到搜索引擎的三个主要目标。无论发展到哪里,以下三个目标始终是一个良好的评估标准:
【2】 搜索引擎的基本技术
本部分主要从以下四个部分介绍搜索引擎的基本技术,这四个部分也是搜索引擎的重要环节
2.1网络爬虫
网络爬虫是搜索引擎的下载系统。它的功能是获取内容。方法是通过万维网中的链接不断地抓取和采集各种网页。然而,互联网上有大量的网页,每天都会产生新的内容。根据爬虫的目标和范围,爬虫可以简单地分为以下几类:
爬虫程序在抓取网页时应该如何确定其下一个目标?主要策略如下:
接下来,我们简要介绍搜索引擎中的一个重要问题:黑网捕获。所谓暗网是指传统方式难以爬升的网页,网络中有大量这样的网络。一些网页没有外部链,一些主要内容存储在数据库中(如携程),并且没有指向这些记录的链接。暗网挖掘是商业搜索引擎的一个主要研究热点。谷歌就是这样,百度的“阿拉丁”计划也在这里
2.2索引
对于搜索引擎来说,搜索是最重要的核心技术之一。面对海量的网页内容,如何快速找到所有收录用户查询词的网页?倒排索引在其中起着关键作用
对于网页,我们将其视为文档,其中的内容由文字组成。为了快速给出用户搜索词的文档结果,我们需要建立一个word文档存储结构。倒排索引是实现word文档矩阵的一种特定存储形式。通过反向索引,您可以根据单词快速获得收录该单词的文档列表。倒排索引主要由单词词典和倒排文件两部分组成
单词词典主要以两种方式存储:hashiga链接和树结构
索引方法:
(1)两次文档遍历)
首次扫描文档集合时,此方法不会立即开始索引,而是采集一些全局统计信息。例如,文档集合n中收录的文档数量,文档集合m中收录的不同单词数量,以及每个单词出现在其中的文档数量。在获得上述三种类型的信息后,您可以知道最终索引的大小,因此,内存中分配了足够的空间来存储反向索引内容。在第二次扫描期间,实际建立每个单词的反转列表信息,即,对于单词,获得收录该单词的每个文档的文档ID以及该单词在文档中的出现次数
(2)sort方法)
改进了排序方法。在建立索引的过程中,总是在内存中分配固定大小的空间来存储字典信息和索引的中间结果。当分配的空间用完时,中间结果写入磁盘,并清除内存中中间结果占用的空间,以便在下一轮中用作索引中间结果的存储区域。此方法只需要固定大小的内存,因此,它可以索引任何大小的文档集合
(3)merge方法)
当分配的内存配额用完时,排序方法仅将中间结果写入磁盘,而字典信息始终保留在内存中。随着处理的文档越来越多,字典收录的字典项越来越多,因此它占用的内存也越来越多,导致后续中间结果的可用内存越来越少。合并方法对此进行了改进,即每次将存储的数据写入磁盘时都保存字典信息,将包括字典在内的所有中间结果信息写入磁盘,从而可以清除内存的所有内容,并且可以将所有配额内存用于后续索引
索引更新策略:
2.3内容检索
内容检索模型是搜索引擎排名的理论基础,用于计算网页与查询之间的相关性
常用检索模型
检索系统评价指标
查询相关性
查询独立
在搜索结果中
A
B
不在搜索结果中
C
D
2.4链接分析
搜索引擎在搜索满足用户要求的网页时,主要考虑两个因素:一方面,用户发送的查询与网页内容之间的内容相似度得分,即网页与查询之间的相关性;另一方面,通过链接分析方法计算得分,即网页的重要性。链接分析是通过网络链接结构获得网页重要性的一类方法
有很多链接分析算法。从模型的角度来看,主要分为两类:
常用算法:
< 3】搜索引擎的平台基础
这部分主要是关于搜索引擎的平台支持,主要是云存储和云计算模型
对于商业搜索引擎来说,需要保存大量的数据并处理这些*敏*感*词*的海量数据。云存储和云计算是这个问题的解决方案
一台服务器上不能存在大量数据,而且必须是分布式存储。当数据更新时,会导致多个服务器上的数据不一致以及如何选择服务器
让我们首先介绍一些基本原则:
(1)CAP原则
Cap是一致性、可用性和分区容差的缩写,即一致性、可用性和分区容差
对于数据系统来说,这三个原则不能结合在一起。云存储倾向于以牺牲部分一致性为代价关注Ca
(2)ACID原则
这是关系数据库采用的原则,是原子性、一致性、隔离性和持久性的缩写,即原子性、一致性、事务独立性和持久性
(3)BASE原则
与acid不同,大型和多云存储系统牺牲了强大的数据一致性来实现高可用性,因为用户可能对数据的变化以及是否能够提供服务不敏感
其三个方面是:
谷歌的云存储和云计算架构
云存储:
云计算
其他云存储系统
【4】 搜索结果的改进与优化
如前所述,搜索引擎所追求的三个目标都是更快、更完整、更准确的。然而,实现这些目标并不是一件很容易的事情,需要大量的处理。这部分主要从以下几个方面来谈如何提高搜索引擎的搜索结果、搜索质量和搜索性能
4.1作弊分析
作弊方法
反作弊的总体思路
(1)所谓信任传播模型的基本思想是:在海量的网页数据中,通过一定的技术手段或手工、半手工手段,选择一些完全可信的页面,即不会作弊的页面(可以理解为白名单),该算法以白名单中的页面为起点,给白名单中的页面节点一个较高的信任分数。其他页面是否作弊应根据其与白名单中节点的链接关系来确定。白名单中的节点通过链接关系向外传播信任分数ip。如果节点最终获得的信任分数高于某个阈值,则认为没有问题,低于该阈值的网页将被视为作弊网页
(2)不信任传播模型在框架上与信任传播模型类似,最大的区别在于初始页面子集不是可信页面节点,而是确认存在欺骗的页面集,即不可信页面集(可以理解为黑名单)该网页向黑名单中的页面节点给出不信任分数,并通过链接关系传播这种不信任关系。如果最后一个页面节点的不信任分数大于设置的阈值,将被视为作弊
(3)exception discovery model也是一个高度抽象的算法框架模型,它的基本假设是作弊网页必须具有不同于正常网页的特征,可能是内容或链接关系,制定具体算法的过程往往是先找到一些作弊网页集,然后再进行分析分析其异常特征,然后使用这些异常特征来识别作弊网页
只要操纵搜索引擎