搜索引擎如何抓取网页(搜索引擎工作原理及应用PPT大全)

优采云发布时间: 2021-11-15 07:00

　　搜索引擎是指利用特定的计算机程序，按照一定的策略，从互联网上采集信息，组织和处理信息，并为用户提供检索服务，并将与用户检索相关的相关信息展示给用户的系统。

　　搜索引擎的工作原理分为三步

　　爬行和爬行：搜索引擎蜘蛛通过链接访问页面，获取页面的HTML代码并存入数据库。

　　预处理：索引程序对抓取的页面数据进行文本提取、中文分词、索引等处理，为排名程序调用做准备。

　　排名：用户输入关键点后，排名程序调用索引库数据计算相关性，然后生成一定格式的搜索结果页面。

　　去停词

　　一些经常出现但对内容没有影响的词称为停用词。

　　消除噪音

　　降噪：根据HTML标签将页面分块，区分页眉、导航体、页脚、广告等区域。网站上的大量重复块往往是噪音。页面去噪后，剩下的就是页面的主要内容了。

　　去重：从页面的主题内容中选取最有代表性的关键词（通常是高频词）的一部分，计算出这些关键词的数字指纹。这里，关键词的选择是经过分词、停词、降噪后的。

　　远期指数

　　根据分词程序，将页面转换成一组关键词，记录每个关键词在页面上的出现频率、数量、格式、位置。

　　倒排索引

　　搜索引擎将文件到关键词的映射转换为关键词到文件的映射。当用户搜索某个关键词时，排序程序在倒排索引中定位关键词，可以立即找到收录这个关键词的所有文件

　　链接关系计算

　　搜索引擎在抓取页面内容后必须提前计算：页面上的哪些链接指向那些其他页面，每个页面上导入哪些链接，以及链接使用的描述文本。这些复杂的链接指向关系构成了网站和页面的权重。

　　特殊文件处理

　　除了处理HTML文件，搜索引擎通常可以抓取和索引多种基于文本的文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等！但是，目前的搜索引擎远不能读取图像、视频、Flash等非文本内容，无法执行脚本内容和程序。返回搜狐查看更多

0

2021-11-15

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册