搜索引擎进行信息检索的优化策略方法(集及采集器索引304201架构解析(组图))

优采云发布时间: 2022-04-01 04:20

　　集合和索引304201概述3042011采集器必须提供的功能3042012采集器应该提供的功能304202采集3052021采集器架构3052022DNS解析3082023待采集URL池309203分布式索引312205参考和补充服务器阅读 314 参考文献 331 翻译索引 356 前言研究表明，直到 1990 年代，大多数人更喜欢从他人那里获取信息，而不是使用信息检索系统。当然那么大多数人也倾向于通过旅行社安排自己的行程。然而，近十年来信息检索的不断优化，将网络搜索引擎的质量提升到了一个新的水平。对结果满意网络搜索引擎已成为用户发现和获取信息的常规和首选渠道。统计数据证明，美国皮尤研究中心 2004 年进行的一项互联网调查 Fallows2004 显示，92% 的互联网用户认为互联网是人们获取日常信息的场所。令许多人惊讶的是，信息检索也从一个以学术研究为主的领域转变为人们赖以获取日常信息的工具背后的基础学科。需求也考虑了高年级本科生的学习需求，但信息检索并不是从Web开始的。在应对各种信息获取挑战的过程中，信息检索逐渐发展成为一门为各种形式的内容搜索提供原则性方法的学科。信息检索最初侧重于科学文献和馆藏记录，但很快扩展到其他形式的内容，特别是记者、*敏*感*词*、医生等特定领域的专业人士所需的信息内容。信息检索的学术研究大多围绕这些和其他形式的内容。实际方面主要是为公司或政府部门提供非结构化信息获取服务。这些领域的研究和实践构成了本书的主要内容。然而，由于互联网上采集的大量数据，近年来信息检索创新的主要动力来自万维网。如果无法及时发现、标记和分析内容，为有需要的人提供相关和全面的信息，数以千万计的互联网用户发布的内容将毫无意义。到 1990 年代末，许多人逐渐意识到，随着 Web 的规模继续呈指数级增长，继续为整个 Web 编制索引将很快变得不可能，但科学卓越、创新、一流的工程、越来越便宜的计算机硬件和网络搜索商业化的基础不断扩大。为当今主要搜索引擎的出现和发展做出了贡献，能够在一天内完成亿万网页上亿次的搜索请求，每次搜索都在亚秒级时间内返回高质量的结果本书和课程设计书的组织结构是对一个人的教学成果的总结。我们在斯坦福大学和斯图加特大学教授的系列课程。这些课程的持续时间从一个季度半学期到一个学期不等。它主要针对计算机科学专业的初级*敏*感*词*，也已在高年级使用。教授计算机专业的本科生和具有法律、医学、信息学、统计语言学和其他工程学科背景的学生。因此，本书的主要写作原则是提供一学期的信息检索*敏*感*词*课程，并尽可能覆盖2。引言原则是尽量让每章的内容在75-90分钟左右覆盖。本书前八章介绍了信息检索的基础知识，尤其是搜索引擎的核心理论。这八章是任何信息检索课程的核心部分。第 1 章重点介绍倒排索引，并解释如何使用它们实现简单的布尔查询。第 2 章描述了在索引之前对文档的预处理，并讨论了改进具有不同功能和速度要求的倒排索引的方法。第三章主要介绍了词典搜索的数据结构，给出了查询出现拼写错误或与搜索文档中的词汇不完全匹配时的处理方法。第4章主要介绍了几种基于文本集合构建倒排索引的算法，重点介绍了高度可扩展的分布式算法，这类算法适用于*敏*感*词*文档集的索引。第 5 章介绍了字典和倒排索引的压缩技术。这些技术对于实现大型搜索引擎的亚秒级查询响应至关重要。1 第～第 5 章介绍的索引和查询仅用于布尔检索。也就是说，文档和查询要么匹配，要么不匹配。那么如何衡量查询与文档的匹配程度，或者如何根据文档与查询的匹配程度对结果进行评分呢？这个问题的答案构成了第 6 章、第 7 章、术语权重计算和评分算法的大部分内容。也就是说，给定一个查询，我们可以使用这两章介绍的技术，按照文档评分的顺序输出一个结果列表。第8章主要介绍了信息检索系统的评价技术，即根据检索系统返回结果的相关性对不同系统进行评价，以便在基准文档集和查询上比较不同系统的性能。在前八章的基础上，本书第 9 章到第 21 章涵盖了信息检索中的高级主题第 9 章介绍了相关反馈和查询扩展技术，旨在增加相关文档被返回的可能性第10章描述了XML和HTML等标记语言中的结构化文档在这种情况下，我们减少了结构化文档的检索，并使用第6章介绍的向量空间模型来解决问题。第11章和第12章介绍了基于概率论的信息检索模型。第11章介绍了传统的概率检索模型，它提供了一个相关性计算框架，可以在给定一系列查询词的情况下计算文档与查询之间的关系。

0

2022-04-01

搜索引擎进行信息检索的优化策略方法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎进行信息检索的优化策略方法(集及采集器索引304201架构解析(组图))

0 个评论

发起人

AI时代内容工厂

搜索引擎进行信息检索的优化策略方法(集及采集器索引304201架构解析(组图))

0 个评论

发起人

相关问题