搜索引擎主题模型优化( 域名已死论:好记的域名不再重要,至少是其中之一)
优采云 发布时间: 2021-10-17 23:12搜索引擎主题模型优化(
域名已死论:好记的域名不再重要,至少是其中之一)
下载链接:
互联网产品多种多样,以产品为导向,以营销为导向,以技术为导向。但是,擅长技术的互联网产品占比相对较小。搜索引擎是目前互联网产品中技术含量最高的产品,如果不是唯一的,至少也是其中之一。
经过十多年的发展,搜索引擎已经成为互联网的重要门户之一。Twitter联合创始人埃文·威廉姆斯提出“域名已死理论”:好记的域名不再重要,因为人们会搜索回车网站。搜索引擎排名对于中小网站流量非常重要。了解搜索引擎简单界面背后的技术原理,其实对很多人来说都是非常重要的。
为什么会有这本书
写搜索引擎技术书的最初想法是两年前诞生的。当时的场景是对团队成员进行搜索技术培训,但是我搜索了相关书籍,却没有找到一本非常合适的搜索技术入门书籍。当时市场上的书籍,要么是信息检索理论的专着,理论性太强,不易理解,真正讲搜索引擎技术的章节也不多;或者它们是太实用的书,比如 Lucene 代码分析,比如搜索引擎。这种充满算法的应用直接分析开源系统代码并不是一种非常高效的学习方式。所以当时就诞生了写一本通俗易懂的搜索引擎书籍,适合没有相关技术背景的人,并且更全面,并融合了最新技术。但我开始写作是一年前。
在写这本书之前,我为自己设定了几个目标。首先,内容要全面,即全面覆盖搜索引擎相关技术的主要方面。不仅要收录倒排索引、检索模型、爬虫等常见内容,还要详细讲解链接分析、网页反作弊、用户搜索意图分析、云存储、网页去重甚至搜索引擎缓存等。一个完整搜索引擎的所有有机组成部分,但详细介绍其原理的书籍并不多。我希望尽可能全面。
第二个目标很容易理解。我希望没有任何相关技术背景的人可以从阅读本书中学到一些东西,最好是不了解技术的学生能够大致了解。这个目标看似简单,但实际上实现起来并不容易。我不敢说这本书达到了这个目标,但我已经尽力了。具体措施包括以下三个方面。
第三个目标是强调新现象和新技术,比如谷歌的caffeine系统和Megastore等云存储系统、Pregel云图计算模型、暗网爬取技术、Web2.0网页作弊、机器学习排序、上下文搜索、社交搜索等在相关章节中有解释。
第四个目标是强调原理,不纠结技术细节。对于新手来说,一个容易解决的问题是他们喜欢挖掘细节,只见树木不见森林,懂一个公式却不懂背后的基本思想和出发点。我接触过很多技术人员,他们七八点就会有这个特点。有一个问题“道家哪个好?” “道”是什么?什么是“*敏*感*词*”?比如《孙子兵法》就是道,《三十六计》就是战术。“道”是宏观的、有原则的、经久不衰的基本原则,而“技术”是遵循基本原则的具体方法和措施,是变化无常的。技术也是如此。算法本身的细节就是“技巧”,算法所体现的基本思想就是“道”。知“道”、学“技”,虽然两者不能偏,但如果要择优,毫无疑问我会先选择“道”再选择“术”。
以上四点是写本书之前设定的目标。现在写完了,很多地方可能达不到原先的期待,但是尽力而为就好了。写书的过程很辛苦,至少比我想象的要难。因为工作忙,每天只能早起,加上周末和节假日。也许书中有这样的缺点,但我可以说我是真诚地写这本书的。
这本书是给谁的
如果您是以下人士之一,那么本书适合您。
对搜索引擎核心算法感兴趣的技术人员对云计算和云存储感兴趣的技术人员
从事搜索引擎优化的网络营销人员和中小网站站长作者本人