搜索引擎优化原理(了解搜索引擎工作原理对我们做优化有一定的帮助,刑天营销分享搜索引擎)
优采云 发布时间: 2021-09-25 03:19搜索引擎优化原理(了解搜索引擎工作原理对我们做优化有一定的帮助,刑天营销分享搜索引擎)
了解搜索引擎的工作原理将有助于我们进行优化。行天营销分享搜索引擎的工作原理。
一、 爬行爬行
搜索引擎用来自动抓取网页的程序称为蜘蛛。为了及时、快速、全面地采集互联网上的网页数据,SE会使用多个蜘蛛来抓取网页信息。蜘蛛爬行过程如下:
1) 选择一组原创*敏*感*词*网页;
2) 抓取网页集合,将网页数据存储在原创页面数据库中,抓取每个页面收录的超链接URL,形成新的网页集合;
3) 相关处理;
一种。阅读 robots.txt 以确定哪些 URL 被禁止;
湾 判断该URL是否有访问过的链接库,并更新相关链接库;
C。根据网页的更新频率,分配相应的回访权重;
d. 根据网址抓取权重调整网址抓取的优先级;
e. 简单的网页内容检测,以确定复制的内容;
F。URL 重定向处理。
4) 重复步骤2;
2、 爬取策略主要有以下三种:
5) 深度优先;
6) 广度优化;
7) 链接关系分析决定URL爬取顺序;
二、预处理
搜索引擎主要对抓取到的原创页面进行网页内容分析和链接关系分析,帮助建立良好的相关性索引,为查询服务做准备。网页的最终排名分数由其内容相关性和链接分析结果线性加权。得到。
1、网页内容分析
网页分析包括提取视觉文本信息、分词、去除停用词、去除页面噪声、去除重复网页、倒排索引、正向索引和DF值处理。这些在 ZAC 书中有详细说明;想在这里分享一下内容分析的相关算法模型:
1) 布尔模型
用于判断网页内容是否与查询关键词相关。注意是判断是否相关,而不是相关程度。
2) 向量空间模型
以词汇为基向量构建N维空间,网页对应N维空间中的一个向量,根据向量之间的差异判断网页内容的相似度。
3) P 概率模型
根据关键词 搜索引擎,网页被分为相关/不相关类别。相关类别中的每个术语具有相似的分布,不相关类别中的术语具有不同的分布。通过计算某个网页W和已知相关/不相关的不相关网页的词条分布的相似度,来衡量该网页与查询关键词的相关性。
4) 统计语言模型
衡量网页数据的质量,根据单词同时出现的概率统计,衡量网页与查询关键词的关系。
2、 链接关系分析
链接关系分析是预处理中非常重要的部分,计算对应页面的网站和页面的链接权重;链接关系分析的基础是超链接页面之间的内容推荐和主题相关特征;链接分析算法 包括HITS算法、PR算法、TR算法、Hilltop算法,这些在ZAC的书中有详细介绍。
三、咨询服务
搜索引擎对我们输入的词汇进行分词处理,根据分词匹配相关网页,根据匹配网页的相关性分配排名权重,然后显示排名过滤后的页面排名。
统计用户使用搜索引擎过程中的相关数据,判断搜索结果的质量,帮助调整搜索算法,提高对用户最有用的页面的排名。