搜索引擎主题模型优化(搜索引擎提搜索引擎的三个主要目标,无论它往何方发展)
优采云 发布时间: 2021-09-15 14:11搜索引擎主题模型优化(搜索引擎提搜索引擎的三个主要目标,无论它往何方发展)
搜索引擎基本原理目录[1]搜索引擎概述[2]搜索引擎基本技术[3]搜索引擎平台基础[4]搜索结果的改进和优化-----------------------------------------------分割线-----------------------------------------[1]搜索引擎概述在过去的15年里,互联网上的信息迅速膨胀,人们不再能够手工过滤和获取有用的信息,于是搜索引擎应运而生。根据其发展,可分为四个时期。目录雅虎就是这一时期的代表。采用纯手工采集,质量高,效率低。文本检索。经典的信息检索模型用于查询用户关键词语言网页的内容相似度,收录容量增加,但质量不是很好。例如,早期的Altavista。链接分析。谷歌的PageRank极大地扩展了网页内容,提高了质量,随之而来的是各种各样的作弊手段。以用户为中心?大多数搜索引擎现在对同一个查询返回相同的结果,但不同的用户可能会注意到不同的问题。将来,可能会更多地考虑用户的差异。说到发展,我必须提到搜索引擎的三个主要目标。无论它在哪里发展,以下三个目标始终是一个很好的评估标准:更准确:如何呈现用户最感兴趣的结果?【2】 搜索引擎的基本技术这一部分主要从以下四个部分来描述搜索引擎的基本技术,这四个部分也是搜索引擎的重要环节
链接分析2.1网络爬虫是搜索引擎的下载系统。它的功能是通过不断地在万维网的链接中爬行来获取内容,以采集各种网页。然而,互联网上有大量的网页,每天都有新的内容不断产生。根据爬虫的目标和范围,爬虫可以简单地分为以下几类:垂直爬虫:仅针对特定字段并根据主题进行过滤的爬虫。爬虫程序在抓取网页时应该如何确定其下一个目标?主要有以下策略:本地PageRank:PageRank是一个网页重要性指数。这样,在一定的时间段内,根据本地PageRank值确定下一个爬升目标opic:在下载当前网页后,将重要性均匀分布到收录的链接上,每次都选择最重要的页面,无需迭代计算。速度很快。大站第一:这个想法很简单,页面重要性是以网站单位来衡量的。接下来,我们简要介绍搜索引擎中的一个重要问题:黑网捕获。所谓暗网是指传统方式难以爬升的网页,网络中有大量这样的网络。一些网页没有外部链,一些主要内容存储在数据库中(如携程),并且没有指向这些记录的链接。暗网挖掘是商业搜索引擎的一个主要研究热点。谷歌就是这样,百度的“阿拉丁”计划也在这里2.2索引是搜索引擎最重要的核心技术之一。面对海量的网页内容,如何快速找到所有收录用户查询词的网页?倒排索引在其中起着关键作用
对于网页,我们将其视为文档,其中的内容由文字组成。为了快速给出用户搜索词的文档结果,我们需要建立一个word文档存储结构。倒排索引是实现word文档矩阵的一种特定存储形式。通过反向索引,您可以根据单词快速获得收录该单词的文档列表。倒排索引主要由单词词典和倒排文件两部分组成。单词词典主要以两种方式存储:hashiga链接和树结构。索引方法:(1)两次文档遍历)。首次扫描文档集时,此方法不会立即开始索引,而是采集一些全局统计信息。例如,文档集n中收录的文档数量、文档集M中收录的不同单词数量以及每个单词出现在其中的文档数量。在获得上述三种类型的信息后,您可以根据最终索引的大小知道,内存中分配了足够的空间来存储反向索引内容。在第二次扫描期间,每个单词的倒排列表信息被真正建立,即对于一个单词,获得收录该单词的每个文档的文档ID以及该单词在文档中的出现次数(2)sorting method)。排序方法得到了改进。在建立索引的过程中,总是在内存中分配固定大小的空间来存储字典信息和索引的中间结果。当分配的空间用完时,中间结果将写入磁盘,以清空内存中中间结果占用的空间,以便下一轮存储索引存储的中间结果
此方法只需要固定大小的内存,因此它可以索引任何大小的文档集合。(3)merge method)当消耗分配的内存配额时,排序方法仅将中间结果写入磁盘,而字典信息保留在内存中。随着处理的文档越来越多,字典收录的字典项越来越多,因此占用的内存越来越大,导致后续中间结果的可用内存越来越少。merge方法进行了改进,即每次将内存中的数据写入磁盘时,包括字典在内的所有中间结果信息都会写入磁盘,这样就可以清除内存中的所有内容,并且所有配额内存都可以用于后续索引。索引更新策略:混合策略2.3内容检索内容检索模型是搜索引擎排名的理论基础,用于计算网页和查询的相关性。常用检索模型机器学习排序检索系统评价指标:相关查询数在前10名结果中。地图索引:返回的结果按顺序加权,权重是排名的倒数。相关查询在搜索结果中不相关2.4链接分析搜索引擎在搜索能够满足用户请求的网页时,主要考虑两个因素:一方面是用户发送的查询与网页内容之间的内容相似度得分,即网页与查询之间的相关性;另一方面,它是通过链接分析方法计算的分数,即网页的重要性。链接分析是通过网络的链接结构来获取网页重要性的一种方法
有很多链接分析算法。从模型上看,它们主要分为两类:子集传播:对子集进行一定的传播,并根据具体情况将权重传递给其他网页。常用算法:搜索引擎HyLoop[ 3 ]平台基础,本部分主要针对搜索引擎的平台支持,主要是云存储和云计算模型。对于商业搜索引擎来说,需要保存大量的数据并对这些海量数据进行处理。云存储和云计算是这个问题的解决方案。大量数据不能存在于单个服务器中,它必须是分布式存储。当数据更新时,会导致多个服务器上的数据不一致以及如何选择服务器。让我们首先介绍一些基本原则:(1)CAPPrinciple cap是一致性、可用性和分区容差的缩写,即一致性、可用性和分区容差。对于数据系统来说,这三个原则是不能共享的。云存储通常以牺牲部分一致性为代价来关注Ca。(2)ACID原则这是关系数据库采用的原则。它是原子性、一致性、隔离性和持久性的缩写,即原子性、一致性、事务独立性和持久性3)BASE原则上,它被大型和多云存储系统所采用。与acid不同,它牺牲了强大的数据存储能力高可用性的一致性
因为用户可能对数据的变化以及是否能够提供服务不敏感。它的三个方面是:基本可用性:基本可用性,灵活状态:软状态,在任何时候都不需要同步。最终一致性:也就是说,如果数据一致性在一定时间内实现,谷歌的云存储和云计算架构云存储:GFS文件系统:由主服务器(master)提供,chunk服务器和GFS客户端构成了chubby lock服务:分布式系统的粗粒度锁服务。BigTable:海量数据的结构化或半结构化存储模型。本质上,它是一个三维映射表,由行主键、列主键和时间组成。Megastore:适用于实时存储交互,GFS和BigTable适合云计算的后台处理。Percolator:增量模式,作为MapReduce的补充,pregel:*敏*感*词*图形计算模型和其他云存储系统Facebook[4]搜索结果的改进和优化如前所述,搜索引擎追求的三个目标是更快、更完整和更准确。然而,实现这些目标并不是一项非常容易的工作,需要大量的处理。这部分主要讨论如何提高搜索结果、搜索质量和搜索性能f来自foll的搜索引擎