搜索引擎优化原理(我要说一下关于内容搜索优化的事情百度抓取内容的流程)
优采云 发布时间: 2022-02-03 06:07搜索引擎优化原理(我要说一下关于内容搜索优化的事情百度抓取内容的流程)
我要说一下内容搜索优化
说一下百度爬取内容的过程
百度爬取内容需要入口地址。入口地址有两个主要来源。
1.百度搜索引擎登录(百度提供搜索引擎登录地址)
2. 链接地址。意思是另一个站点是百度收录,百度在收录别人的站点时发现有链接到我们站点的地址,那么他就会使用这个地址,以及这个地址所在的域名作为条目
只有这两种方式,也就是说,如果一个站点做好了,如果它不链接别人,不提交百度登录,那么这个站点永远不会是收录。另外需要注意的是百度收录,不支持js swf等任何非基础html标签
百度获取入口地址后,会不定时的爬取网站内容到他们的数据库中(根据网站内容更新的频率。网站频繁更新会使其爬取频繁) . ) 但无论多么频繁,百度的*敏*感*词*排序也只有一周一次(大约周三)。
行
百度采集流程如下
先分析入口页面的所有链接地址,然后将这些链接地址作为新的入口进行备份(也就是说,如果一个页面没有连接入口,百度就抓不到了)
同时,百度会排除当前爬取页面中的所有不可见内容(理论上可以在实践中作弊)。同时将页面内容分为四部分进行保存
四个部分如下
1. 标题
2. 关键字(元标记)
3. 描述(元标记)
3. 正文内容
总结如下,采集都需要通过超链接链接
采集数据后,搜索引擎会做如下处理(任何引擎都会这样做)
1. 关键词提取
2. 当前页面关键词权重分析
3. 当前页面权重计算
4.当前站点权重计算
5.。搜索结果排序和过滤
先说关键词的提取。百度如何判断当前页面有一定的关键词?原理主要如下:
首先,搜索引擎有一个词库(其中存储了所有可能被搜索到的词)
搜索引擎会计算当前词库中哪些词会在页面上存在并标记(词中不会有空格和符号)
第二,词频。将页面中所有非空格非符号句子交叉拆分成字符串后,判断出现频率,然后排序,就可以得到单词。
上述方法计算当前页面上出现的单词并标记它们。然后进入下一阶段,词重计算
2. 权重计算分为两类,
权重最高的是title标签的内容(即页面标题)
其次是body(网页的主要内容)
然后是关键字描述(但使用频率较低)
体重分为标签类型
主要标签类型如下
也就是说,严格的xhtml标签定义
比如我要计算一个词“装饰”的权重,计算方法如下
首先判断当前页面是否存在装饰字,如果存在,则
“装饰”权重+1
然后判断标题中存在“秀秀”如果存在+10
然后判断装饰是否在里面再判断是否存在于stong标签中,如果存在+1
根据这个规则,判断所有的标签,然后为该词声明当前页面的词的权重顺序,即该词是否是当前页面的主关键词。
但需要注意的是,我说的+1只是一种表达方式。其实百度经常调整这个参数,但是有一点可以肯定,不管他怎么调整标题,权重总是最高的。
通过上面的计算方法,可以得到类似下面的词权表
装修40
设计 10
知道 1
其他话 3
然后百度会提取top weights(比如top 50%)作为页面的主要词并保存
3.当前页面的权重,判断当前页面的权重,主要如下