搜索引擎各个子系统是如何设计的?-八维教育
优采云 发布时间: 2021-06-21 18:14搜索引擎各个子系统是如何设计的?-八维教育
搜索引擎作为互联网发展中至关重要的应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中少有的以核心技术为命脉的领域。搜索引擎的各个子系统是如何设计的?这已成为广大技术人员和搜索引擎优化者关注的内容。
因为对网上搜索的过程不太了解,偶然在实验室看到了《这是一个搜索引擎:核心技术详解》一书,于是走上了搜索的学习之路引擎。
本书最大的特点是内容新颖、全面、通俗易懂。对实际搜索引擎中涉及的各种核心技术进行了全面详细的介绍。除了以网络爬虫、索引系统、排名系统、链接分析和用户分析为核心的搜索系统外,还包括网页反作弊、缓存管理、网页重复数据删除技术等实际搜索引擎必须具备的技术。关注,同时用相当篇幅讲解云计算和云存储的核心技术原理。同时也密切关注搜索引擎开发的前沿技术:谷歌的*敏*感*词*系统和Megastore等新的云计算技术、百度的暗网爬虫技术阿拉丁计划、内容农场作弊、机器学习排序等.
接下来,我简单的告诉大家整个信息检索的过程。 . .
搜索引擎的基本工作原理包括以下三个过程:首先发现并采集互联网上的网页信息;同时,对信息进行提取整理,建立索引数据库;快速检出库中的文档,评估文档与查询的相关性,对输出结果进行排序,将查询结果返回给用户。
1、 抓取网络。每个独立的搜索引擎都有自己的网络爬虫蜘蛛。蜘蛛蜘蛛跟踪网页中的超链接,从这个网站爬到另一个网站,通过超链接分析不断访问和获取更多的网页。
2、处理网页。搜索引擎抓取到网页后,还需要做大量的预处理工作,才能提供检索服务。其中,最重要的是提取关键词,构建索引库和索引(最常用的是倒排索引)。其他包括去除重复网页、分词(中文)、判断网页类型、分析超链接以及计算网页的重要性/丰富度。
3、 提供搜索服务。用户输入关键词进行搜索,搜索引擎从索引库中找到与关键词匹配的网页;为方便用户,除了页面标题和 URL 之外,它还将提供来自网页的摘要和其他信息。这需要能够根据用户输入的关键词推断用户的搜索意图。
总的来说,本书对搜索引擎的过程进行了详细的讲解,让大家对信息检索和网络搜索的过程有一定的了解。当然,这也包括一些比较经典的算法,后面会讲到。慢慢给详细解释。
本文来自“卡布奇诺”博客,请务必保留此出处