搜索引擎的整个工作过程视为三个部分:预处理
优采云 发布时间: 2021-06-26 21:13搜索引擎的整个工作过程视为三个部分:预处理
搜索引擎的整个工作过程分为三部分:一是蜘蛛爬行,抓取互联网上的网页信息并存储到原创网络数据库中;二是对原创网络数据库中的信息进行提取和组织,建立索引库;三是根据用户输入的关键词快速查找相关文档,对查找到的结果进行排序,将查询结果返回给用户。
一、网络抓取
Spider 每次遇到新文档时,都会搜索其页面的链接页面。搜索引擎蜘蛛访问网页的过程类似于普通用户使用浏览器访问网页的过程,即B/S模式。引擎蜘蛛首先向页面发出访问请求。服务器接受访问请求并返回HTML代码后,将获取的HTML代码存储到原创页面数据库中。搜索引擎使用多个蜘蛛来分布爬行以提高爬行速度。搜索引擎服务器遍布全球,每个服务器会同时发送多个蜘蛛抓取网页。如何只访问一个页面一次,从而提高搜索引擎的效率。在抓取网页时,搜索引擎会创建两个不同的表,一个记录已访问过的网站,另一个记录未访问过的网站。蜘蛛抓取外链页面的URL时,需要下载网站的URL并进行分析。蜘蛛分析完所有的URL后,将URL保存在对应的表中,然后充当另一个蜘蛛。当它从其他网站或页面中找到这个URL时,它会比较看是否有访问过的列表。如果有,蜘蛛会自动丢弃该网址,不再访问。
二、预处理、索引
为了方便用户在万亿级以上的原创网页数据库中快速方便地找到搜索结果,搜索引擎必须对蜘蛛抓取的原创网页进行预处理。网页预处理的主要过程是为网页建立全文索引,然后开始对网页进行分析,最后建立倒排文件(也称为反向索引)。网页分析有以下步骤:确定网页类型,衡量其重要性和丰富度,分析超链接,分词,去除重复网页。网页经过搜索引擎的分析处理后,不再是原来的网页,而是浓缩为反映网页主题内容的文字文档。数据索引中最复杂的结构是建立索引库,分为文档索引和关键词索引。每个网页的唯一docID编号由文档索引分配,根据docID编号可以从网页中检索每个wordID的次数、位置、大小和格式。最后形成wordID的数据列表。倒排索引的形成过程是这样的:搜索引擎利用分词系统自动将文档分成词序列——给每个词分配一个唯一的词号——记录收录该词的文档。倒排索引是最简单、实用的倒排索引,需要记录更多的信息。倒排列表中除了记录单词对应的文档编号外,还记录了词频信息,方便日后计算查询与文档的相似度。
三、查询服务
在搜索引擎界面输入关键词,点击“搜索”按钮,搜索引擎程序会开始对搜索词进行以下处理:分词,根据情况判断是否需要启动集成搜索, 找出错别字和拼写 如果有错误,请删除停用词。搜索引擎程序然后从索引数据库中找出收录搜索词的相关网页,对网页进行排序,最后以某种格式返回到“搜索”页面。查询服务的核心部分是搜索结果的排名,它决定了搜索引擎的数量和用户满意度。搜索结果的实际排名有很多因素,但最重要的因素之一是网页内容的相关性。影响相关性的主要因素包括以下五个方面。
(1)关键词 常用度。分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词,对搜索意义的贡献越小term,越少 越常用的词对搜索词的意义有贡献,越常用的词发展到一定限度就是停用词,对页面没有任何影响。因此,词的权重系数搜索引擎使用率高,常用词的权重系数低,排名算法更关注不常用词
(2)词频和密度。通常情况下,搜索词的密度与其在页面上出现的次数呈正相关。数量越多,密度越大,页面之间的关系越密切和搜索词。
(3)关键词位置和形式。关键词出现在更重要的位置,如标题标签、黑体、H1等,表示该页面与关键词越有关。在索引库的建立 是的,页面关键词的格式和位置记录在索引库中。
(4)关键词distance.关键词分割后,如果出现匹配,则说明与搜索词更相关。当“搜索引擎”连续完整出现在页面上或“搜索”和“引擎”出现时看起来很接近,都被认为与搜索词相关。
(5)链接分析和页面权重。页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的是锚文本。随着锚文本导入链接,页面有搜索词的次数越多表示该页面更相关。链接分析还包括链接源页面本身的主题,锚文本周围的文本等。