搜索引擎优化原理(我要说一下关于内容搜索优化的事情百度抓取内容的流程)

优采云 发布时间: 2022-02-03 06:07

  搜索引擎优化原理(我要说一下关于内容搜索优化的事情百度抓取内容的流程)

  我要说一下内容搜索优化

  说一下百度爬取内容的过程

  百度爬取内容需要入口地址。入口地址有两个主要来源。

  1.百度搜索引擎登录(百度提供搜索引擎登录地址)

  2. 链接地址。意思是另一个站点是百度收录,百度在收录别人的站点时发现有链接到我们站点的地址,那么他就会使用这个地址,以及这个地址所在的域名作为条目

  只有这两种方式,也就是说,如果一个站点做好了,如果它不链接别人,不提交百度登录,那么这个站点永远不会是收录。另外需要注意的是百度收录,不支持js swf等任何非基础html标签

  百度获取入口地址后,会不定时的爬取网站内容到他们的数据库中(根据网站内容更新的频率。网站频繁更新会使其爬取频繁) . ) 但无论多么频繁,百度的*敏*感*词*排序也只有一周一次(大约周三)。

  行

  百度采集流程如下

  先分析入口页面的所有链接地址,然后将这些链接地址作为新的入口进行备份(也就是说,如果一个页面没有连接入口,百度就抓不到了)

  同时,百度会排除当前爬取页面中的所有不可见内容(理论上可以在实践中作弊)。同时将页面内容分为四部分进行保存

  四个部分如下

  1. 标题

  2. 关键字(元标记)

  3. 描述(元标记)

  3. 正文内容

  总结如下,采集都需要通过超链接链接

  采集数据后,搜索引擎会做如下处理(任何引擎都会这样做)

  1. 关键词提取

  2. 当前页面关键词权重分析

  3. 当前页面权重计算

  4.当前站点权重计算

  5.。搜索结果排序和过滤

  先说关键词的提取。百度如何判断当前页面有一定的关键词?原理主要如下:

  首先,搜索引擎有一个词库(其中存储了所有可能被搜索到的词)

  搜索引擎会计算当前词库中哪些词会在页面上存在并标记(词中不会有空格和符号)

  第二,词频。将页面中所有非空格非符号句子交叉拆分成字符串后,判断出现频率,然后排序,就可以得到单词。

  上述方法计算当前页面上出现的单词并标记它们。然后进入下一阶段,词重计算

  2. 权重计算分为两类,

  权重最高的是title标签的内容(即页面标题)

  其次是body(网页的主要内容)

  然后是关键字描述(但使用频率较低)

  体重分为标签类型

  主要标签类型如下

  也就是说,严格的xhtml标签定义

  比如我要计算一个词“装饰”的权重,计算方法如下

  首先判断当前页面是否存在装饰字,如果存在,则

  “装饰”权重+1

  然后判断标题中存在“秀秀”如果存在+10

  然后判断装饰是否在里面再判断是否存在于stong标签中,如果存在+1

  根据这个规则,判断所有的标签,然后为该词声明当前页面的词的权重顺序,即该词是否是当前页面的主关键词。

  但需要注意的是,我说的+1只是一种表达方式。其实百度经常调整这个参数,但是有一点可以肯定,不管他怎么调整标题,权重总是最高的。

  通过上面的计算方法,可以得到类似下面的词权表

  装修40

  设计 10

  知道 1

  其他话 3

  然后百度会提取top weights(比如top 50%)作为页面的主要词并保存

  3.当前页面的权重,判断当前页面的权重,主要如下

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线