邢台搜索引擎优化(网页预处理的整个工作过程的工作原理)
优采云 发布时间: 2021-10-01 06:26邢台搜索引擎优化(网页预处理的整个工作过程的工作原理)
搜索引擎的整个工作过程分为三个部分:一是蜘蛛爬行抓取互联网上的网页信息并存储在原创网页数据库中;二是对原创网页数据库中的信息进行提取和组织,建立索引数据库;三是根据用户输入的关键词快速查找相关文档,对查找到的结果进行排序,将查询结果返回给用户。
一、网页抓取
每次 Spider 遇到新文档时,它都会搜索其页面的链接页面。搜索引擎蜘蛛访问网页的过程类似于普通用户使用浏览器访问网页的过程,即B/S模式。引擎蜘蛛首先向页面发出访问请求。服务器接受访问请求并返回HTML代码后,将获取的HTML代码存储到原创页面数据库中。搜索引擎使用多个蜘蛛来分布爬行以提高爬行速度。搜索引擎服务器遍布全球,每个服务器会同时发送多个蜘蛛抓取网页。如何只访问一个页面一次,从而提高搜索引擎的效率。在抓取网页时,搜索引擎会创建两张不同的表,一张表记录了网站 已经访问过的,另外一张表记录的是没有访问过的网站。蜘蛛抓取外链页面的URL时,需要下载网站的URL并进行分析。蜘蛛分析完URL后,会将URL保存在对应的表中。当蜘蛛从其他网站 或其他页面中找到这个URL 时,它会比较看是否有访问过的列表。如果有,蜘蛛会自动丢弃该网址,不再访问。@网站 或页面,它会比较看是否有访问过的列表。如果有,蜘蛛会自动丢弃该网址,不再访问。@网站 或页面,它会比较看是否有访问过的列表。如果有,蜘蛛会自动丢弃该网址,不再访问。
二、预处理、索引
为了方便用户在万亿级以上的原创网页数据库中快速方便地找到搜索结果,搜索引擎必须对蜘蛛抓取的原创网页进行预处理。网页预处理的主要过程是为网页建立全文索引,然后开始对网页进行分析,最后建立倒排文件(也称为反向索引)。网页分析有以下步骤:确定网页类型,衡量其重要性和丰富度,分析超链接,分词,去除重复网页。网页经过搜索引擎的分析处理后,不再是原来的网页,而是浓缩为反映网页主题内容的文字文档。数据索引中最复杂的结构是建立索引库,分为文档索引和关键词索引。每个网页的唯一docID编号由文档索引分配,根据docID编号可以从网页中检索每个wordID的次数、位置、大小和格式。最后形成wordID的数据列表。倒排索引的形成过程是这样的:搜索引擎利用分词系统自动将文档分成词序列——给每个词分配一个唯一的词号——记录收录该词的文档。倒排索引是最简单、实用的倒排索引,需要记录更多的信息。除了记录单词对应的倒排列表中的文档编号,
三、咨询服务
在搜索引擎界面输入关键词,点击“搜索”按钮,搜索引擎程序将开始对搜索词进行如下处理:分词,根据情况判断是否需要启动集成搜索,找出错别字和拼写错误,去掉停用词。搜索引擎程序然后从索引数据库中找出收录搜索词的相关网页,对网页进行排序,最后按照一定的格式返回到“搜索”页面。查询服务的核心部分是搜索结果的排名,它决定了搜索引擎的数量和用户满意度。搜索结果的实际排名有很多因素,但最重要的因素之一是网页内容的相关性。
(1)关键词常用。分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词,对词义的贡献越小search term ,不常用的词有助于搜索词的意义,较常用的词发展到一定限度是停用词,对页面没有任何影响。因此,使用词的权重系数由搜索引擎高,常用词权重系数低,排名算法更注重生僻词
(2)词频和密度。一般来说,搜索词的密度与其在页面上出现的次数呈正相关。次数越多,密度越大,页面与搜索词的关系越密切。搜索词。
(3)关键词 位置和形式。关键词出现在更重要的位置,如标题标签、黑体、H1等,说明页面与关键词@的相关性更高>.在索引库中如建立页面中提到的,页面关键词的格式和位置记录在索引库中。
(4)关键词距离。关键词被切分后,如果出现匹配,则说明与搜索词更相关。当“搜索引擎”连续完全出现在页面或者当“搜索”和“引擎”出现在一起时,它们都被认为与搜索词相关。
(5)链接分析和页面权重。页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的是锚文本。以搜索词作为锚文本的页面越多导入链接,说明页面相关性更强,链接分析还包括链接源页面本身的主题,锚文本周围的文字等等。