搜索引擎优化宝典 pdf(比较务实的一本书,也是我2014年推荐的第一本书)
优采云 发布时间: 2022-02-26 09:10搜索引擎优化宝典 pdf(比较务实的一本书,也是我2014年推荐的第一本书)
比较务实的一本书,也是我2014年推荐的第一本书,《这就是搜索引擎:核心技术详解》,这本书看了半年多,受益匪浅。虽然是对核心技术的详细讲解,但其实这并不是一本专为专业人士准备的书。站长朋友看完之后,会更加理性,少被搜索引擎滥用。这本书看起来很简单。
本书通俗易懂,内容广而不深。对搜索引擎的技术进行了全面的介绍,包括搜索引擎的总体框架、爬虫、爬取策略、暗网爬取、分布式爬虫等。
搜索引擎作为互联网用户的切入点,对流量的引导和分流起到了至关重要的作用,甚至可以说起到了举足轻重的作用。1991年,蒂姆·伯纳斯-李将超文本的概念引入互联网,同时推出了万维网的雏形、支持的HTTP传输协议和相应的Web服务器技术。1993年,第一款图形浏览器Mosaic诞生,网页浏览客户端更加成熟。这些技术和产品为互联网的迅速普及和发展做了技术准备。网民从军队和高校等科研机构开始普及。对于普通个人用户来说,它为互联网商业化的*敏*感*词*发展奠定了基础。
互联网信息量在过去15年呈爆炸式增长,目前信息过载问题非常严重。随着互联网个性化的逐步发展,普通用户发布信息的成本越来越低,这个问题也会越来越严重。. 这是搜索引擎相关引用日益重要的基本背景。搜索是目前解决信息过载的一种比较有效的方法。在没有有效的替代解决方案之前,搜索引擎作为互联网网站和应用入口的重要地位和行业制高点只会逐渐加强。
搜索引擎发展史:分类(网站导航)是史前时代,文本检索是第一代,链接分析是第二代,以用户为中心是第三代,
搜索引擎的3个目标:更完整、更快、更准确。
搜索引擎的三个核心问题:1.用户真正的需求是什么,2.什么信息与用户需求真正相关,3.用户可以信任什么信息。
一个搜索引擎的架构,一张图可以说明情况:
除了上述子功能模块外,“防作弊”模块也越来越重要。
网页分为五个部分:1.已下载网页集合、2.过期网页集合、3.待下载网页集合、4.已知网页集合,5.不可知的网页集合。
网络爬虫分为:批量爬虫、增量爬虫、垂直爬虫。
爬虫策略:1.广度优先遍历,2.不完整的PageRank,3.OPIC(在线页面重要性计算),4.大站点优先。
网页更新策略:1.历史参考策略、2.用户体验策略、3.集群采样策略。
写在最后:
结合以上信息,我们大致可以理解:爬虫的种类很多,这就是爬虫来了不一定要抓的原因。另外,爬虫是否爬取(recrawls)你的网页也有很多参考因素。我们通常保证网站持续更新是历史参考策略。在这篇文章中,我列出了网页和爬虫的部分。有兴趣的朋友可以买本书阅读。
很多时候,如果你不仔细阅读,你的问题的答案就在这里!
标题:《这就是搜索引擎:核心技术详解》