搜索引擎主题模型优化(搜索引擎提搜索引擎的基础技术及其评估标准(一)-八维教育)
优采云 发布时间: 2022-02-28 10:01搜索引擎主题模型优化(搜索引擎提搜索引擎的基础技术及其评估标准(一)-八维教育)
内容
[1] 搜索引擎概述
【2】搜索引擎的基本技术
【3】搜索引擎的平台基础
[4] 搜索结果的改进和优化
__________________________________________________
[1] 搜索引擎概述
15年来,随着互联网信息的快速膨胀,人工筛选已经无法获取有用的信息,于是搜索引擎应运而生。根据其发展,可分为四个时代。
说到发展,就不得不提搜索引擎的三大目标,无论走到哪里,以下三个目标始终是一个很好的评价标准:
【2】搜索引擎的基本技术
本部分主要从以下四个部分介绍搜索引擎的基本技术,这四个部分也是搜索引擎的重要组成部分。
2.1 网络爬虫
网络爬虫是搜索引擎的下载系统。它的功能是获取内容。方法是通过万维网中的链接不断地爬取和采集各种网页。然而,互联网上的页面如此之多,每天都在不断地产生新的内容。根据爬取的目标和范围,爬虫可以简单分为以下几类:
当爬虫爬取网页时,它应该如何确定下一个目标?主要策略如下:
接下来,简单看一下搜索引擎中的一个重要问题:暗网爬取。所谓暗网是指通过常规方法难以爬取的网页,而在互联网中,此类网页大量存在。有些网页没有外部链接,有些主要内容存储在数据库中(如携程网),没有链接指向这些记录。暗网挖掘是商业搜索引擎的主要研究重点,谷歌也是如此,百度的“阿拉丁”计划也在这里。
2.2 索引
对于搜索引擎来说,搜索是最重要的核心技术之一。面对海量的网页内容,如何快速找到所有收录用户查询词的网页?倒排索引在这里起着关键作用。
对于网页,我们将其视为一个文档,其内容由单词组成。为了给用户的搜索词快速给出文档结果,我们需要构建一个word-文档存储结构。倒排索引是实现word-document矩阵的一种特定存储形式。使用倒排索引,您可以快速获取收录基于该单词的单词的文档列表。倒排索引主要由字典和倒排文件两部分组成。
字典的存储方式主要有两种:散列和链接以及树形结构。
索引建立方法:
(1)两遍文档遍历
在第一次通过文档集合时,该方法不会立即开始索引,而是采集一些全局统计信息。例如,文档集合中收录的文档数量为N,文档集合中收录的不同单词的数量为M,每个单词出现过多少文档的信息DF。得到以上三类信息后,就可以知道最终索引的大小,所以在内存中分配了足够大的空间来存放倒排索引的内容。在第二次扫描中,实际上是建立了每个词的倒排列表信息,即对于某个词,获取收录该词的每个文档的文档ID,以及该词在文档TF中出现的次数。
(2)排序方法
排序方法得到了改进。在建立索引的过程中,该方法总是在内存中分配一个固定大小的空间来存储字典信息和索引的中间结果。当分配的空间用完后,将中间结果写入磁盘,并清空中间结果在内存中占用的空间,作为存储区域,用于存储下一次索引的中间结果圆形的。由于这种方法只需要固定大小的内存,它可以索引任意大小的文档集合。
(3)合并
当分配的内存配额被消耗时,排序方法只是将中间结果写入磁盘,而字典信息则一直保存在内存中。随着越来越多的文档被处理,字典收录越来越多的字典项。,所以占用的内存越来越大,导致后面中间结果的可用内存越来越少。而merge方法对此进行了改进,即每次将内存中的数据写入磁盘时,将包括字典在内的所有中间结果信息都写入磁盘,这样就可以清空内存中的所有内容,以及后续的索引可以使用完整的仲裁。
索引更新策略:
2.3 内容检索
内容检索模型是搜索引擎排名的理论基础,用于计算网页与查询的相关性。
常用的检索模型
检索系统评估指标
查询相关
查询无关
在搜索结果中
一种
乙
不在搜索结果中
C
D
2.4 链接分析
搜索引擎在找到能够满足用户请求的网页时,主要考虑两个因素:一方面,用户发出的查询与网页内容的内容相似度得分,即网页和查询;另一方面是通过链接分析。该方法计算得到的分数,即网页的重要性。链接分析是一种通过网络的链接结构来获取网页重要性的方法。
链接分析算法有很多。从模型来看,主要分为两类:
常用算法:
【3】搜索引擎的平台基础
这部分主要是关于搜索引擎的平台支持,主要是云存储和云计算模型。
对于商业搜索引擎来说,需要存储大量的数据,这些海量的海量数据需要进行处理。云存储和云计算是解决这个问题的方法。
大量数据不能存在于服务器上,必须以分布式方式存储。当数据更新时,这会在多个服务器之间产生不一致,以及如何选择服务器的问题。
我们先介绍一些基本原则:
(1)CAP 原则
CAP 是 Consistency、Availability、Partition Tolerance 的缩写,即 Consistency、Availability 和 Partition Tolerance。
对于一个数据系统,这三个原则不能兼得。云存储倾向于关注 CA,牺牲部分一致性。
(2)ACID 原则
这是关系数据库所采用的原则。是原子性、一致性、隔离性、持久性的缩写,即原子性、一致性、事务独立性、持久性。
(3)BASE原理
大多数云存储系统都使用它。与 ACID 不同,它为高可用性牺牲了强大的数据一致性。因为用户可能对数据变化敏感而无法提供服务。
它的三个方面是:
谷歌的云存储和云计算架构
云储存:
云计算
其他云存储系统
[4] 搜索结果的改进和优化
如前所述,搜索引擎追求的三个目标更快、更完整、更准确。但要实现这些目标并不是一件很容易的工作,需要大量的处理。这部分主要讲以下几个方面,如何改善搜索引擎的搜索结果,提高搜索质量,提高搜索性能。
4.1 作弊分析
作弊方法
反作弊总体思路
(1)所谓信任传播模型,其基本思想是:在海量网页数据中,通过一定的技术手段或人工半人工手段,筛选掉一些完全可信的页面,即,不会出现作弊的页面(可以理解为白名单),算法以白名单中的这些页面为起点,给白名单中的页面节点较高的信任分,其他页面是否作弊取决于它们链接到白名单中的节点,白名单中的节点通过链接关系向外传播信任分数,如果某个节点最终获得的信任分数高于某个阈值,则认为没有问题,低于此阈值的网页被认为没有问题。将被视为作弊页面。
(2)不信任传播模型在框架上与信任传播模型类似,最大的区别在于初始页面子集不是可信任页面节点,而是确认作弊行为的页面集。,即,一组不信任页面(可以理解为黑名单),给黑名单中的页面节点分配不信任分数,通过链接关系传播这种不信任关系,如果最后一个页面节点的不信任分数大于设置值 如果设置了阈值,将被视为作弊页面。
(3)异常发现模型也是一个高度抽象的算法框架模型,它的基本假设是作弊网页必须具有不同于正常网页的特征,可能是内容或链接,制定具体算法的过程往往是先找到一些作弊网页集合,分析其异常特征,然后利用这些异常特征识别作弊网页。
只要操纵搜索引擎搜索结果是有利可图的,就总会有作弊的动机,尤其是在网络营销在宣传中扮演着越来越重要的角色的时代。作弊与反作弊是一个相互抑制、相互促进的交互过程。“路一尺高,魔道一尺高”的故事不断重演。上述内容主要是基于反作弊的技术手段。事实上,目前单纯的技术手段并不能完全解决作弊问题。只有将人工手段与技术手段相结合,才能达到更好的防作弊效果。技术手段可以分为比较通用的手段和比较特殊的手段。比较通用的手段有一定的防止新作弊手段的能力,但是由于它们的通用性,它们的针对性不是很强,对特殊的作弊方法没有影响。不一定好。专门的反作弊方法往往是事后才想到的,即只有当作弊行为已经发生且严重时,才有可能总结作弊特征,采用事后过滤的方法。人工手段与技术手段互补性强,一旦出现新的作弊手段就可以被发现,可以作为作弊过程中的预防措施。因此,从时间维度考虑对作弊手段的抑制,一般反作弊手段侧重于预防,人工手段侧重于发现,特殊防作弊手段侧重于后处理,
4.2 分析用户意图
准确分析用户的搜索意图是当前搜索引擎的重点研究方向。
用户意图大致可以分为
搜索日志是挖掘用户意图的重要数据源
用户在搜索时可能想不出合适的搜索词,或者关键词输入错误,帮助用户明确搜索意图。
常用方法有:
4.3 网页去重
经统计,网络中相当比例的网页大致相同或完全相同,高达29%。如果一个搜索返回了很多相似的页面,它显然会降低搜索结果的质量。针对这种现象,对网页进行去重是非常有必要的。
网页去重一般是在爬虫抓取网页之后、索引之前进行的。重复数据删除算法应同时考虑准确性和操作效率。
一个典型的网页去重算法:
几种典型的去重算法:
4.4 缓存机制
缓存机制可以加快用户响应速度,节省计算资源
缓存系统的目标是最大化缓存命中率并保持缓存和索引的一致性
缓存的对象主要是网页搜索结果和查询词的倒排列表。
缓存消除策略主要包括动态策略和混合策略。
此内容转自其他网站,感觉可以让所有产品经理都知道。