4.1搜索引擎为用户提供信息检索服务,你了解多少?
优采云 发布时间: 2021-06-30 21:244.1搜索引擎为用户提供信息检索服务,你了解多少?
4.1 搜索引擎 搜索引擎为用户提供信息检索服务。作为一种辅助人们检索信息的工具,它是在Web 上发现信息的一项关键技术。借助自动搜索网页软件,是用户访问万维网的最佳搜索引擎,通过互联网上的各种链接获取大页面文档信息,并按照一定的算法和规则进行分类,形成文档索引供用户查询的数据库。 -主流搜索引擎4.1.1 搜索引擎有两个重要的部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站页面的集合,并将这些页面处理成可搜索的索引。在线部分在用户查询期间执行。根据与用户需求的相关性,使用索引选择候选文档并排序显示。搜索引擎原理 搜索引擎的原理是基于三个阶段的工作流,即采集、预处理和服务。搜索引擎的工作原理包括搜索引擎收录页面、索引和为用户提供查询服务。搜索引擎原理——三阶段工作流。定期搜索,一段时间后重新采集整个网页以替换之前的内容。缺点:成本大,两次采集的时间间隔不是很短,“新鲜度”不高。把Web看作一个有向图,采集过程从给定的起始url集合S开始,按照网页中的链接,按照一定的策略(先深/先宽/其他)遍历。
这个过程就像蜘蛛在蜘蛛网上爬行(爬行)。第一次综合网页集合后,URL系统维护相应的URL集合,后续的搜索都基于这个集合。知识库收录每个网页的 docID、长度、URL 和所有 HTML。由于网页的数量会很大,因此在将网页存储到知识库中时需要对其进行压缩。 2.网页之间的链接关系反映网页的重要性(PageRank Google) PageRank Google 中文分词 Word DocID DocID 中文分词技术 基于字符串匹配的分词方法 基于统计的分词方法 正向减法最大值匹配法(MM) 反向减最大值匹配法(RMM)结合了以上两种方法。搜索引擎为用户提供查询界面,用户可以通过浏览器提交需要查询的词组。当用户输入关键词时,搜索系统程序从索引库中查找所有与关键词匹配的相关网页,并根据网页与关键词的相关性进行排序。相关性越高,排名越高。 4.1.2 当用户输入查询字符串时,信息检索过程就开始了,查询字符串是信息需求的正式表示。在信息检索中,一个查询字符串可以识别数据库中的多个文档,这些文档的相关性可能不同。 IR布尔模型统计模型适当空间模型布尔模型:文档表示为关键词集合,查询表示为关键词的布尔表达式(And,Not),输出为文档是否相关或没有,但没有匹配或排名。
统计模型:文档表示为关键词集合(无序),采样的词相互独立,文档按照词频排序。向量空间模型:每个文档在高维空间中表示为一个向量,查询也表示为一个向量。查询与文档集合进行比较以找到最接近的文档组。大多数查询系统计算数据库中的文档与查询字符串匹配的程度并按排名顺序显示它们。计算方法包括统计方法、信息论方法和概率方法。这些方法大多是基于向量空间模型4.1.3搜索引擎排名算法分类。同样的搜索在不同的搜索引擎上会产生不同的结果。原因是,首先,检索取决于网络蜘蛛可以找到的信息。其次,并非所有搜索引擎都使用相同的排名算法。雅虎!以雅虎为代表的第一代文本搜索算法;第二代基于链接分析的搜索算法,以PageRank和HITS为代表的雅虎手动分类方法,网站directory search;第三代应具备智能化、个性化和社区化等特点。 4.1.4 谷歌的几种排名算法 首先,使用IR(InformationRetrieve)算法查找所有匹配查询关键词的网页;其次,根据页面因素(标题、关键词密度等)进行排名;该算法需要分析的另一个要素是页面链接到其他页面的方式。搜索引擎通过分析页面之间是如何相互链接的,可以确定页面的主题(如果链接页面的关键词与原创页面的关键词相似)以及该页面是否被认为是一个重要的算法基于链接分析,提供了一种衡量网页质量的方法:独立于语言,独立于内容。
PageRank算法是一种与查询无关的搜索引擎算法,基于网页的排名,是最早应用链接分析技术的算法。 PageRank 算法通过网络中的链接关系来确定页面的排名和相关性,并试图为所有可以搜索到的网页分配一个量化值,其值由所有可以搜索到的网页的值决定。指向网页。 PageRank的原理类似于科学论文中的引用机制:谁的论文被引用次数多就是权威。独立于用户查询,不能应用于特定主题获取信息;偏重旧网页,过分偏重网页外链而忽视专业网站;链接权限可以从任何页面到任何页面,而不管主题的相关性,这样那些来自完全不相关链接的网站在搜索结果中也排名靠前;在实践中,PageRank 很难抗拒人为的伎俩。提高排名的主流技术之一是依靠体力劳动。专家可以准确描述网站的信任程度,轻松识别垃圾。虽然这些垃圾很容易被人类识别,但评估所有页面成本高昂且不可行,因此提出了一种*敏*感*词*的技术方案。 Trustrank的基本思想是在对页面进行排名时考虑页面所在站点的信任指数和权限。 TrustRank的工作原理:首先人工识别出优质页面(即“*敏*感*词*”页面),然后“*敏*感*词*”页面所指向的页面也可能是优质页面,即其TrustRank也高,和“*敏*感*词*”页面 链接越远,页面的 TrustRank 越低。
高质量的页面一般不会连接到垃圾页面,垃圾页面总是尝试连接到好的页面来增加他们的声誉;*敏*感*词*页面的候选人是专业的网站,他们只根据自己的优点链接到其他页面,例如政府网站、非营利网站和严格管理的网站(DMOZ、雅虎目录、搜索引擎观察、等),他们不会链接垃圾邮件页面。最权威、最可信的网页是“*敏*感*词*”页面本身。 TrustRank 分为两个步骤,源目标的选择和分数的传递。让专家手动识别少量优质网站并赋予其信任值; TrustRank 值会随着页面的经过而降低,并且随着页面与“*敏*感*词*”页面之间的跨度增加,其 TrustRank 值会增加越低; HillTop 算法的指导思想与 PageRank 相同,但 HillTop 认为只统计具有相同主题的相关文档的链接对搜索者更有价值:即与主题相关的网页之间的链接对搜索者的贡献更大。权重计算比主题无关链接更有价值。 Bharat 将此类对主题有影响的文档称为“专家”文档,从这些专家文档页面到目标文档的链接决定了链接网页的权重。 HillToP 首先根据查询搜索“专家网页”。专家网页是关于某个主题的网页,指向许多非附属网页,并且至少有一个短语收录查询关键词。
其次,对顶级专家网页链接的目标页面进行评分。该过程将其与所有相关专家网页的链接关系整合在一起。基于“专家”文档的HillTop算法最大的难点在于“专家文档”的第一次筛选。目前,谷歌优先考虑教育(.edu)、政府(.gov)和非营利组织(.org)网站。 Hilltop 与原来的 PageRank 相比,Hilltop 是灵活的,它使用来自“权威”文档的链接来确定网页的可信度。 HillTop算法对于具有相同主题和相似PR的网页排名非常重要。这比通过购买偏离主题的链接获得高排名更难操纵。 Hilltop 已经解决了这个问题。随机链接失去了以前的作用。即使它们仍然具有一定的价值,也无法与专家网站 的链接进行比较。 Hilltop 类似于 TrustRank,但更加自动化。它依赖于专家文档和源自这些文档的链接。例如,X 链接到 Y,Y 链接到 Z。那么 X 和 Z 也是相关的。 Hiltop专家页面的搜索和确定在算法中起着关键作用;其质量和公平性难以保证。专家页面仅占整个页面的1.79%,无法充分反映民意。当 Hiltop 算法无法获得足够多的专家页面子集(少于两个专家页面)时,返回为空。这意味着 Hilltop 不适合作为独立的页面排序算法。 Hilltop也是在线运行,这必然会影响查询响应时间。随着专家页面集合的增加,算法的可扩展性不足。