SEO科技网更新日期:2021-4-19预处理

优采云 发布时间: 2021-07-26 01:52

  

SEO科技网更新日期:2021-4-19预处理

  第十节:搜索引擎工作原理的预处理

  来源:SEO技术网上传:SEO技术网更新日期:2021-4-19

  第十节:搜索引擎工作原理的预处理

  预处理

  由于搜索引擎数据库中有很多网页,用户搜索后,索引计算量过大,短时间内很难返回搜索结果,所以必须对页面进行预处理。

  

  (1)提取文本

  

  搜索引擎预处理首先要做的是去除HTML文件中的标签和程序,提取网页文本内容进行排名处理。

  

  (2)中文分词

  中文单词之间没有分隔符,一个句子中的所有单词和单词都连接在一起。因此,搜索引擎首先要区分哪些字符构成一个词,哪些字符本身就是一个词。

  中文分词有两种方法,即基于词典匹配的分词和基于统计的分词。

  

  (3)停止这个词

  停用词是指在网页内容中频繁出现但对内容没有影响的词,因为它们对页面内容没有实质性影响。搜索引擎会在索引页面之前删除这些停用词。

  

  (4)消除噪音

  噪音是指对页面主题没有贡献的内容,如版权声明、导航栏、广告等,只能起到分散页面主题的作用。因此,搜索引擎需要识别并消除这些噪音,在排名时不要使用噪音内容。

  

  (5)去重

  搜索引擎不喜欢重复的内容,所以在索引之前,识别内容并删除重复的内容。这个过程可以称为“重复数据删除”。

  

  (6)forward 索引

  经过文本提取、分词、去噪、去重后,搜索引擎可以提取关键词,按照分词程序划分关键词,将页面转化为关键词的集合,其中每个关键词词频、格式、位置等权重信息都有记录。

  

  (7)倒排索引

  如果搜索引擎只能索引转发,排名程序需要扫描索引库中的所有文件,然后进行排名计算,这样计算量不能满足实时返回排名结果的要求,所以搜索引擎需要重构正向索引数据库作为引导索引,将文件到关键词的映射转换为关键词到文件的映射。

  

  (8)link 关系计算

  当前的搜索引擎收录在网页之间流动的信息。搜索引擎抓取页面内容后,必须弄清楚页面上有哪些页面,使用了哪些链接。

  由于页面和链接数量众多,计算链接关系和权重需要很长时间。

  (9)特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线