搜索引擎如何抓取网页(搜索引擎工作的原理是什么?如何做好搜索引擎的工作)

优采云 发布时间: 2021-11-04 08:11

  搜索引擎如何抓取网页(搜索引擎工作的原理是什么?如何做好搜索引擎的工作)

  所谓搜索引擎,是指利用特定的计算机程序,按照一定的策略,从互联网上采集信息,组织和处理信息,为用户提供检索服务,并将用户检索到的信息展示给用户的系统。国内搜索引擎以百度、360、搜狗为代表,国外搜索引擎以谷歌、必应为代表。

  搜索引擎的工作原理可以简单地分为页面收录、页面分析、页面排序、关键词查询四个步骤。

  1.页面收录

  搜索引擎通过蜘蛛程序抓取并存储在互联网上的过程,为搜索引擎执行各种任务提供了数据。在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛通过URL抓取页面。蜘蛛程序从URL列表开始,通过URL抓取并存储原创页面;提取原创页面中的URL资源并添加到URL列表中,等等,这样就可以从互联网上获得足够的页面。

  页面收录的方法包括广度优先、深度优先和用户提交。广度优先是一种横向页面爬取方法。页面从最浅层开始爬取,直到爬完同一层的所有页面,再进入下一层。深度优先是一种垂直页面爬取方法。它首先在最浅的页面中跟踪某个链接,然后逐渐爬取更深的页面,然后返回到浅的页面,直到最深的页面被爬取;之后,它会跟踪另一个页面。一个链接继续爬到深层页面。用户提交是指网站管理员只需将网站页面的URL地址做成指定格式的文件,然后提交给搜索引擎,搜索引擎就可以使用文件到网站中的页面@>

  页面维护方式包括定期爬取、增量爬取、分类定位爬取。定期抓取是指搜索引擎定期更新网站中已经收录的网页,用新抓取的页面替换旧页面,删除不存在的页面,并存储新发现的页面。页。增量爬取,搜索引擎通过定期监控爬取的页面来实现页面的更新和维护。搜索引擎只需对重要页面进行定期监控,从而缩短页面更新周期。类别位置爬取是搜索引擎根据页面的类别和性质制定相应的更新周期的一种页面监控方法。

  搜索引擎在抓取页面时,除了存储原创页面外,还会附加文件类型、大小、URL、IP地址、最后修改时间、抓取时间等信息,并将这些信息作为执行某项任务的基础。.

  2.页面分析

  收录页面只是搜索引擎工作的第一步。当用户使用搜索引擎检索信息时,他们经常使用单词或短语。搜索引擎在原页面上建立索引,实现页面的快速定位;提取页面的文本信息,对文本信息的文本进行剪裁,建立词的索引,从而得到页面与关键词的关系;对所有关键词进行重组,建立关键词与网页对应关系的反向索引列表,从而根据关键词快速定位对应的网页。

  3.页面排序

  搜索引擎结合页面的内外部因素,计算页面与某个关键词的相关程度,从而得到与该关键词相关的页面的排名列表。

  通常,决定页面排名的因素包括页面相关性、链接权重和用户行为。页面相关性是指页面内容与用户查询的关键词之间的接近程度,主要由关键词匹配程度、关键词密度、关键词分布、关键词权重标签决定。链接分为内部链接和外部链接。一个页面获得的链接越多,该页面在一定程度上越重要,链接权重往往越高。用户对搜索结果的点击是衡量页面相关性的因素之一,是改善排名结果、提高排名结果质量的重要补充。

  搜索引擎通过计算页面相关性、链接权重、用户行为等综合得分得到页面的权重值,然后将页面权重值从高到低排序,并将这个排序后的列表返回给用户。

  4. 关键字查询

  搜索引擎接受用户的查询请求,切词匹配查询信息,然后将相应的页面排序列表返回给用户。用户在搜索引擎中的行为主要分为查询和点击。

  搜索引擎处理用户的查询请求,主要包括在用户发送查询请求之前完成查询关键词的逆向索引和相关页面权重的计算;为最常查询的关键词对应的页面排名列表建立缓存机制。所谓缓存机制,是指搜索引擎为了在短时间内响应用户的查询速度,对查询最频繁的关键词对应的页面排名列表建立缓存机制。统计显示,查询次数最多的前20%关键字约占查询总数的80%。因此,搜索引擎只需要缓存这 20% 的关键字,就可以满足 80% 的用户查询请求。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线