17年SEO搜索引擎:核心技术详解--梳理总结
优采云 发布时间: 2021-07-17 19:0017年SEO搜索引擎:核心技术详解--梳理总结
2017年因项目需要,学习整理了一些SEO相关的知识,可以分为两部分:
《搜索引擎:核心技术详解》---梳理与总结
SEO 搜索引擎优化
本文主要内容是对阅读《搜索引擎:核心技术详解》时的一些知识进行梳理和总结,包括搜索引擎索引、链接分析和网页反作弊三部分一、搜索引擎索引
Index,如书籍目录,是一种索引结构,其目的是让人们更快地搜索相关章节。搜索引擎索引简单的理解就是抓取页面后对数据进行排序整理的过程。搜索引擎的索引就是实现word-document矩阵的数据结构。在实际应用中实现的方式有很多种,常见的就是倒排索引。
索引的基本概念
引擎的基本索引模型是一个word-document矩阵,如图:
横向可以看到哪些文档收录某个词汇,纵向可以看到某个文档收录哪些关键词
在实际的搜索引擎中,一般记录的不是文档编号,而是相邻两个文档的差值。这样就将大值转换成小值,提高了压缩效率
创建索引
缺点:从磁盘中读取文档并解析文档基本上是最耗时的步骤,而且两次扫描方式在速度上没有优势,因为它需要遍历文档集合两次。在实践中,这种方法的系统并不常见。
动态索引
实时反映索引变化,3种关键索引结构:倒排索引、临时索引、删除文档列表。
索引更新策略
当临时索引越来越内存不足时,需要将临时索引写入disk-index更新策略
常用的索引更新策略有4种:完全重建策略、重新合并策略、就地更新策略和混合策略。
完全重构策略----新文档临时索引+旧文档--------->遍历生成新索引(放弃旧索引)再合并策略----新文档索引+旧索引- --->合并生成新索引(抛弃旧索引)原位更新策略--增量索引+旧索引---->旧索引+附加新倒排信息混合策略----一般对词进行分类,然后使用不同的更新策略
二、Link 分析概念模型
随机游走模型----是一个概念模型,抽象了两种用户浏览行为,直接跳转和远程跳转。许多链接分析算法,包括PageRank算法,都是基于随机游走模型的。
假设互联网由3个网页A、B、C组成,图中页面节点之间的有向边表示相互链接关系。根据链接关系,可以计算出页面节点之间的转移概率。例如,对于节点 A,只有一条到节点 B 的输出链路,所以从节点 A 跳到节点 B 的概率为 1,对于节点 C,它有到节点 A 和 B 的链路,所以转向的概率为任何其他节点都是 1/2。假设在时间1,用户浏览页面A,然后通过链接进入页面B,然后进入页面C,此时他面临两种可能的选择。可以跳转到页面A或页面B,两者的概率相同,都是1/2。假设示例中的Internet收录3个以上的页面,但由10个页面组成。这时候用户既不想跳回页面A也不想跳回页面B,他可以以1/10的概率跳到任何其他页面,即远程跳转。
子集传播模型——将网页按照一定的规则分成两个甚至多个子集。某个子集合具有特殊属性。许多算法通常从这个子集合开始,并为子集合中的网页赋予初始权重。然后,根据该特殊子集合中的网页与其他网页之间的链接关系,以某种方式分配权重。该值被传递到其他网页。
链接分析算法
在众多算法中,PageRank 和 HITS 可以说是最重要的两种具有代表性的链接分析算法。很多后续的链接分析算法都是从这两种算法衍生出来的改进算法。
PageRank 算法
每个页面都会将其当前的PageRank值平均分配给该页面收录的传出链接,从而使每个链接获得相应的权重。并且每个页面将所有指向该页面的链内传递的权重相加,以获得新的 PageRank 分数。
HITS 算法
权威页面是指与某个领域或主题相关的高质量网页。例如,在搜索引擎领域,谷歌和百度的主页都是该领域的优质网页;例如,在视频领域,优酷和土豆主页是该领域的优质网页。中心页面是指收录许多指向高质量权威页面的链接的网页。
Hub 和 Authority 之间的相辅相成的关系。 HITS算法与用户输入的查询请求密切相关,而PageRank算法是全局算法,与查询无关。
HITS算法的目的是利用一定的技术手段,在大量网页中,特别是Authority页面中,找到与用户查询主题相关的高质量Authority页面和Hub页面,因为这些页面代表了高质量可以满足用户的查询。内容,搜索引擎以此作为搜索结果返回给用户。
SALSA算法----请求--->扩展网页子集----->转向无向二部图---->计算权重--->返回结果
hilltop----专家网络搜索---->着陆页排序
主题敏感PageRank----离线分类主题PR值计算---->请求是相似度比较计算---->前两者的乘积之和
HITS算法与PageRank算法对比
HITS算法与用户输入的查询请求密切相关,而PageRank与查询请求无关。因此,可以单独使用HITS算法作为相似度计算的评价标准,而PageRank必须与内容相似度计算相结合,才能用于评价网页的相关性。由于HITS算法与用户查询密切相关,必须在收到用户查询后进行实时计算,计算效率低;而PageRank可以在爬取完成后离线计算,计算结果可以直接在线使用,计算效率更高。 HITS算法计算对象少,只需要计算扩展集中网页之间的链接关系;而 PageRank 是一种全局算法,可以处理所有 Internet 页面节点。从两者的计算效率和处理对象集合大小的比较来看,PageRank更适合部署在服务器端,而HITS算法更适合部署在客户端。 HITS算法存在话题泛化的问题,所以更适合处理特定的用户查询;而PageRank算法在处理大范围的用户查询方面更有优势。 HITS算法需要为每个页面计算两个分数,而PageRank算法只需要计算一个分数;在搜索引擎领域,更多关注的是HITS算法计算出的权威权重,但在其他很多应用HITS算法的领域,Hub score也很重要。从链接防作弊的角度来看,PageRank在机制上优于HITS算法,HITS算法更容易受到链接作弊的影响。 HITS算法的结构不稳定。当扩展网页集合中的链接关系稍有改动时,就会对最终排名产生很大的影响;而与 HITS 相比,PageRank 算法是稳定的。根本原因是PageRank计算时的远程跳转。 . 三、网络作弊
从大类来看,比较常见的作弊方式有:内容作弊、链接作弊、隐藏作弊,以及近年来兴起的Web2.0作弊方式。学术界和搜索引擎公司也有针对性地提出了各种反作弊算法。
内容作弊
内容作弊的目的是精心修改或规范网页内容,使网页在与其网页不相称的搜索引擎排名中获得较高的排名。搜索引擎排名一般包括内容相似度和链接重要性计算。内容作弊主要针对搜索引擎排名算法的内容相似度计算部分。通过故意增加目标词的频率,或在网页重要位置引入网页内容不相关的词影响搜索结果的排名。
常见内容作弊方式:关键词repetition、无关查询词作弊、图片alt标签文字作弊、网页标题作弊、网页重要标签作弊、网页元信息作弊
内容农场:内容农场运营商廉价雇用大量自由职业者来支持他们的付费写作,但写作内容的质量通常较低。很多文章都是通过复制和稍加修改来完成的,但是他们会研究搜索引擎的热门搜索词等,并将这些词有机地添加到写作内容中。这样,普通搜索引擎用户在搜索时就会被吸引到内容农场网站,内容农场可以通过大量低质量内容吸引流量来赚取*敏*感*词*用。
链接作弊
所谓链接作弊就是网站owner考虑到在搜索引擎排名中使用链接分析技术,所以通过操纵页面之间的链接关系,或者操纵页面之间的链接锚文本,来增加链接排名因素的得分以及影响搜索结果排名的作弊方式。
为了提高网页的搜索引擎链接排名,链接农场建立了一个庞大的网页集合,这些网页相互之间有着密切的联系,希望通过搜索引擎链接算法的机制来提高网页排名。大量的相互联系。链接农场中页面的链接密度极高,任何两个页面都可能有相互指向的链接。
锚文本是指向某个网页的链接的描述文本。这些描述信息往往反映了所指向网页的内容主题,因此搜索引擎在排名算法中经常使用它。作弊者精心设置锚文本内容,诱使搜索引擎对目标网页给予更高的排名。一般来说,作弊者设置的锚文本与目标网页的内容无关。
几年前,有一个著名的例子,就是利用谷歌轰炸来操纵搜索结果的排名。那时,如果你在谷歌上搜索“悲惨的失败”,你会发现第二个搜索结果是时任美国总统乔治·W·布什的白宫页面。这是通过构建许多其他网页,包括指向目标页面的链接,其链接锚文本收录“悲惨失败”关键词 实现的效果。
“门页”本身不收录正文内容,而是由大量链接组成,而这些链接往往指向同一个网站
在页面中,作弊者创建了大量的“门页”,以提高网站排名。
页面隐藏作弊
页面隐藏作弊利用某种手段欺骗搜索引擎爬虫,使搜索引擎爬取的页面内容和用户点击查看
您看到的页面内容不同,从而影响搜索引擎的搜索结果。隐藏页面和作弊的常见方法
以下是几个。
1.IP伪装(IP Cloaking)
网页所有者在服务器端记录搜索引擎爬虫的IP地址列表,如果发现搜索引擎在请求页面上
对于人脸,它会向爬虫推送一个虚假的网页内容,如果是另一个IP地址,它会推送另一个网页
内容,此页面通常是具有商业目的的营销页面。