seo优化搜索引擎工作原理( 来源:深圳SEO科技网上传:搜索引擎上传)

优采云 发布时间: 2021-10-15 13:34

  seo优化搜索引擎工作原理(

来源:深圳SEO科技网上传:搜索引擎上传)

  第十节:搜索引擎工作原理的预处理

  来源:深圳​​SEO技术网上传:深圳SEO技术网更新日期:2021-9-23

  第十节:搜索引擎工作原理的预处理

  预处理

  由于搜索引擎数据库中的网页较多,用户搜索后,索引计算量过大,短时间内难以返回搜索结果,因此必须对页面进行预处理。

  

  (1)提取文本

  

  搜索引擎预处理首先要做的是去除HTML文件中的标签和程序,提取网页的文本内容进行排名处理。

  

  (2)中文分词

  中文单词之间没有分隔符,句子中的所有单词和单词都连接在一起。因此,搜索引擎首先要区分哪些字符构成一个词,哪些字符本身就是一个词。

  中文分词有两种方法,即字典匹配和统计分词。

  

  (3) 停止这个词

  停用词是指在网页内容中频繁出现但对内容没有影响的词,因为它们对网页内容没有实质影响。搜索引擎将在索引页面之前删除这些停用词。

  

  (4) 消除噪音

  噪音是指对页面主题没有贡献的内容,如版权声明、导航栏、广告等,只能起到分散页面主题的作用。因此,搜索引擎需要识别并消除这些噪音,在排名时不要使用噪音内容。

  

  (5)删除

  搜索引擎不喜欢重复的内容,所以在索引内容以识别内容之前,删除重复的内容,这个过程可以称为“去重”。

  

  (6)前向索引

  经过文本提取、分词、去噪、去重后,搜索引擎可以提取关键词,按照分词程序对关键词进行划分,将页面转化为关键词的集合,其中每个关键词的词频、格式、位置等权重信息都有记录。

  

  (7)倒排索引

  如果搜索引擎只能索引转发,则排序程序需要扫描索引库中的所有文件,然后进行排序计算,计算量无法满足实时返回排序结果的要求,因此搜索引擎需要将正向索引数据库重构为引导索引,将文件到关键词的映射转换为关键词到文件的映射。

  

  (8) 链接关系计算

  当前的搜索引擎都收录网页之间的信息流。搜索引擎抓取页面内容后,必须弄清楚页面上有哪些页面,使用了哪些链接。

  由于页面和链接数量众多,计算链接关系和权重需要很长时间。

  (9)特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线