这就是搜索引擎-核心技术详解.pdf内容简介

优采云 发布时间: 2021-05-30 20:15

  这就是搜索引擎-核心技术详解.pdf内容简介

  这是核心技术的搜索引擎详解.pdf

  内容简介编辑搜索引擎作为互联网发展中的重要应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中少有的以核心技术为命脉的领域。搜索引擎的各个子系统是如何设计的?这已成为大多数技术人员和搜索引擎优化人员密切关注的内容。本书最大的特点是内容新颖,全面,易于理解。对实际搜索引擎中涉及的各种核心技术进行了全面详细的介绍。除了以网络爬虫、索引系统、排名系统、链接分析和用户分析为核心的搜索系统外,还包括网页反作弊、缓存管理、网页重复数据删除技术等实际搜索引擎必须具备的技术。关注,同时在相当大的篇幅中讲解了云计算和云存储的核心技术原理。此外,本书还密切关注搜索引擎开发的前沿技术:谷歌的*敏*感*词*系统和Megastore等新的云计算技术、百度的暗网爬虫技术阿拉丁计划、内容农场作弊、机器学习排序等。许多新技术在相关章节中有详细的讲解,同时对社交搜索、实时搜索、上下文搜索等搜索引擎未来的发展方向给出了技术展望。为了加深读者的理解,书中引入了大量生动的图片来讲解算法的原理。相信读者会发现,原来搜索引擎的核心技术比原先想象的要容易理解得多。 [1-2] 目录编辑目录 第 1 章搜索引擎及其技术架构 1 1. 1 为什么搜索引擎很重要 1 1. 1. 1 互联网发展 1 1. 1. 2 商业搜索引擎公司发展3 1. 1. 3搜索引擎的重要地位3 1. 2搜索引擎技术发展的历史4 1. 2. 1史前时代:目录4 1. 2. 2的产生第一代:文本检索的一代 51.2.3 第二代:链接分析的一代 51.2.4 第三代:以用户为中心的一代 51.3 3搜索引擎的目标 61.4 3 搜索引擎的核心问题 71.4.1 3 核心问题 71.4.2 与技术发展的关系 81.5 搜索引擎的技术架构 9 章2 网络爬虫 122.1 通用爬虫框架 122.2 优秀爬虫特性 152.3 爬虫质量评价标准 182.4 抓取 s策略 192.4.1 广度优先遍历策略(Breath First) 202.4.2 Partial PageRank 策略(Partial PageRank) 212.4.3 OCIP 策略(Online Page Importance Computation) 23 2.4.4 大网站优先) 232.5 网页更新策略 232.5.1 历史参考策略 242.5.2 用户体验策略 242.5.3聚类抽样策略24

  立即下载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线