网络搜索引擎背后的信息检索理论与概念的产生影响
优采云 发布时间: 2021-06-30 02:12网络搜索引擎背后的信息检索理论与概念的产生影响
本书回顾了信息检索中的重要问题,并描述了这些问题如何影响搜索引擎的设计和实现。本书并未以相同的详细程度描述每个主题。相反,我们专注于搜索引擎组件和组件背后的信息检索模型中最重要的部分。网络搜索引擎显然是一个重要的话题。我们主要介绍互联网上使用的搜索技术,但其他场合也使用搜索引擎。这就是为什么我们强调各种搜索引擎背后的信息检索理论和概念。原因。本书的目标读者主要是计算机科学或计算机工程本科生,但*敏*感*词*也会发现这本书很有用。此外,本书也适合大多数信息科学专业的学生。最后,无论读者的背景如何,阅读本书都可以帮助他们开发搜索引擎。本书涉及数学,但并不深奥。书中也有代码和编程练习,但是对于那些已经完成了基础计算机科学和编程课程的人来说,它们是可以掌握的。每章末尾的练习使用名为 Galago 的基于 Java 的开源搜索引擎。 Galago 是为本书设计的,也借鉴了 Lemur 和 Indri 的项目经验。换句话说,这是一个功能齐全的搜索引擎,可以支持真正的应用程序。许多编程练习都是针对 Galago 组件的使用、修改和扩展。内容 在第 1 章中,我们对信息检索及其与搜索引擎的关系进行了高层次的回顾。
在第 2 章中,我们描述了搜索引擎的架构。本章全面介绍了搜索引擎的各个组成部分,但不涉及细节。在第 3 章中,我们将重点介绍用于获取检索信息的爬行、文档信息源和其他技术。第 4 章描述了文本的统计特征,以及用于处理和识别重要特征以及为索引做准备的技术。第 5 章介绍如何为有效搜索构建索引以及如何使用索引来处理查询。在第 6 章中,我们描述了如何处理查询并将它们转换成更好的形式来表达用户的信息需求。第7章介绍排序算法和基于这些算法的检索模型。本章还概述了机器学习技术以及机器学习与信息检索和搜索引擎之间的关系。第八章描述了用于比较和调整搜索引擎的评价指标和性能指标。第 9 章介绍了重要的技术,例如分类、过滤、聚类和垃圾邮件处理。术语社交搜索用于描述涉及标记内容或回答问题的社区人员的搜索引擎应用程序。第 10 章描述了这些应用程序的搜索技术和 P2P 搜索。最后,在第 11 章中,我们介绍了一些高级搜索技术,可以从文档中捕获更多内容,而不是简单地基于单词进行计算,包括语言特征的使用、文档结构和非文本媒体内容,例如图像和音乐信息检索理论以及搜索引擎的设计、实现、评估和使用涉及的主题太多,一本书无法完整描述。
我们尽量专注于最重要的主题。同时,对于这些具有挑战性和非常有价值的话题,我们也考虑到每个话题的方方面面。补充材料 本书提供了一定范围的补充材料。这些材料可供参加本课程的学生以及教授本课程的教师使用,包括: • 课程影片(PDF 或 PPT 格式) • 每章末尾问题的参考答案(仅限教师)?Galago搜索引擎感谢 首先,最重要的是,没有我们丈夫(Pam Aselton、Anne-Marie Strohman 和 Shelley Wang)的支持和鼓励,这本书不可能完成。马萨诸塞大学阿默斯特分校为本书的编写提供了物质支持,并授予克罗夫特 ContiFaculty Fellowship,极大地改进了本书的编写过程。智能信息检索中心的员工(Jean Joyce、Kate Moruzzi、Glenn Stowell 和 Andre Gauthier)在很多方面为我们提供了很多帮助。中心的同事和学生提供了一个充满*敏*感*词*的环境,使我们在这个领域的工作非常好。有价值的。许多人已经阅读了本书的某些章节,我们感谢他们的建议。最后,我不得不提一下我们的孩子(Doug、Eric、Evan 和 Natalie),感谢他们带来的快乐。布鲁斯·克罗夫特唐·梅茨勒特雷弗·斯特罗曼