搜索引擎如何抓取网页(搜索引擎工作原理及应用PPT大全)
优采云 发布时间: 2021-11-15 07:00搜索引擎如何抓取网页(搜索引擎工作原理及应用PPT大全)
搜索引擎是指利用特定的计算机程序,按照一定的策略,从互联网上采集信息,组织和处理信息,并为用户提供检索服务,并将与用户检索相关的相关信息展示给用户的系统。
搜索引擎的工作原理分为三步
爬行和爬行:搜索引擎蜘蛛通过链接访问页面,获取页面的HTML代码并存入数据库。
预处理:索引程序对抓取的页面数据进行文本提取、中文分词、索引等处理,为排名程序调用做准备。
排名:用户输入关键点后,排名程序调用索引库数据计算相关性,然后生成一定格式的搜索结果页面。
去停词
一些经常出现但对内容没有影响的词称为停用词。
消除噪音
降噪:根据HTML标签将页面分块,区分页眉、导航体、页脚、广告等区域。网站 上的大量重复块往往是噪音。页面去噪后,剩下的就是页面的主要内容了。
去重:从页面的主题内容中选取最有代表性的关键词(通常是高频词)的一部分,计算出这些关键词的数字指纹。这里,关键词的选择是经过分词、停词、降噪后的。
远期指数
根据分词程序,将页面转换成一组关键词,记录每个关键词在页面上的出现频率、数量、格式、位置。
倒排索引
搜索引擎将文件到关键词的映射转换为关键词到文件的映射。当用户搜索某个关键词时,排序程序在倒排索引中定位关键词,可以立即找到收录这个关键词的所有文件
链接关系计算
搜索引擎在抓取页面内容后必须提前计算:页面上的哪些链接指向那些其他页面,每个页面上导入哪些链接,以及链接使用的描述文本。这些复杂的链接指向关系构成了网站和页面的权重。
特殊文件处理
除了处理HTML文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等!但是,目前的搜索引擎远不能读取图像、视频、Flash等非文本内容,无法执行脚本内容和程序。返回搜狐查看更多