搜索引擎如何抓取网页(盐城SEO优化:索引词到网页库的算法通过MD5处理)

优采云 发布时间: 2022-01-04 01:14

  搜索引擎如何抓取网页(盐城SEO优化:索引词到网页库的算法通过MD5处理)

  搜索引擎网页采集完成后,会对数据进行预处理,本章:先讲一下数据预处理中搜索引擎索引网页库的形成。

  

  搜索引擎数据预处理,首先讲解数据预处理子系统的系统结构,然后介绍建立索引网页库的算法,然后介绍中文分词技术,然后讲解网页的分析,最后讲解如何生成查询网页倒排索引文件。

  1、搜索引擎数据预处理系统结构

  经过搜索引擎Web数据采集后,采集到达的网页以搜索引擎的格式存储,具有良好的容错性,即使损坏,不会使整个数据库中的信息难以访问。但是这种存储格式无法根据网页网址访问对应的网页,所以我们先进行第一步:

  为原创网页创建索引,即索引网页库(1)。索引网页库创建后,可以通过剪裁提供网页快照功能(2))对索引网页库的内容进行处理,将每个网页转换成一组关键词(3),最后将网页到索引词的映射转化为索引词的映射到网页形成倒排表(倒排表和索引词汇),同时将网页中收录的非重复索引词汇汇总成索引词汇(4)

  (盐城SEO问题:网页的索引词不应该是多对多的吗?为什么索引词不能重复形成索引词表?倒排已经满足需要了)

  2、建立索引网页库:

  内容比较复杂。作为一个SEO,我们只需要了解原理部分。编程部分我们暂时不解释(盐城SEO也不会...)

  2-1) 在原创网页库中,由若干条记录组成,每条记录包括:头信息(head)、数据(Data)。每条数据(DATA)由网页标题和网页内容组成。

  2-2)索引网页库算法采用MD5算法,将网页内容和URL摘要信息记录为16字节唯一标识符。同时为了方便查看,将这16个字节转换为23个字节的ASCLL代码。

  2-3) 网页索引文件最终通过ISAM(Index Sequential Access Mode)进行存储,保证数据的紧凑性和检索能力。同时,网页索引文件存储后,会有一个网址索引文件,同时网址摘要信息和网页摘要信息通过文件编号链接。实现网页快照功能

  (盐城SEO题:在数据预处理的索引网页库中,涉及到生成摘要信息的算法的解释。在前面我们知道摘要信息是动态的和静态的。那么如果摘要信息这里的信息是动态汇总信息,那么这里的网页汇总信息如何生成?)

  (盐城SEO答:这里所说的汇总信息不一定是展示给用户的,它和描述中的信息是一样的,它可能是记录中网页所有内容的缩写。知识叫法不一样。就是这样)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线