搜索引擎优化宝典 pdf(根据搜索引擎网页去重原理来做seo01.网页为何要重)

优采云 发布时间: 2021-12-29 22:02

  搜索引擎优化宝典 pdf(根据搜索引擎网页去重原理来做seo01.网页为何要重)

  基于搜索引擎网页去重原理做seo

  01.为什么网页需要复制?

  对于搜索引擎来说,我们希望呈现给用户的是新颖有吸引力的内容,优质的文章,而不是一大堆“换汤不换药”;我们在做SEO优化的时候,需要对内容进行编辑,难免会参考其他类似的文章,而且这篇文章可能已经被多人采集

,导致相关信息大量重复互联网。

  如果网站存在大量恶意采集

的内容,不仅会影响用户体验,还会导致搜索引擎直接屏蔽该网站。之后,网站上的内容就不再是蜘蛛难以抓取的了。

  搜索引擎优化培训

  02.搜索引擎的工作原理

  搜索引擎是指按照一定的策略从互联网上采集

信息,并使用特定的计算机程序,对信息进行组织和处理,为用户提供检索服务,并将与用户检索相关的相关信息展示给用户的系统。

  搜索引擎的工作原理:

  第 1 步:爬网

  搜索引擎通过特定模式的软件跟踪到网页的链接,从一个链接爬到另一个链接,就像蜘蛛在蜘蛛网上爬行一样,因此被称为“蜘蛛”或“机器人”。搜索引擎蜘蛛的爬取是有一定的规则进入的,需要遵守一些命令或者文件的内容。

  第 2 步:获取存储空间

  搜索引擎通过蜘蛛跟踪链接抓取网页,并将抓取到的数据存储在原创

页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。在抓取页面时,搜索引擎蜘蛛也会对重复内容进行一定的 seo 检测。一旦他们在一个低权重的网站上遇到大量抄袭、采集

或复制的内容,很可能会停止爬行。

  第三步:预处理

  搜索引擎将在各个步骤中对蜘蛛检索到的页面进行预处理。

  除了 HTML 文件,搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等,我们经常在搜索结果中看到这些文件类型。但是,搜索引擎无法处理图像、视频和 Flash 等非文本内容,也无法执行脚本和程序。

  搜索引擎优化培训

  第 4 步:排名

  用户在搜索框中输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程直接与用户交互。但是由于搜索引擎的数据量巨大,虽然可以实现每天小更新,seo,但总的来说,搜索引擎的排名规则是按照每天、每周、每月不同级别的更新。

  03.网页去重的代表方法

  搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合搜索引擎、门户搜索引擎和免费链接列表等。去重工作一般在分词之后、索引之前进行。搜索引擎会从已经从页面中分离出来的关键词中提取一些具有代表性的关键词进行计算,从而得到一个网站关键词的特征。

  目前有3种代表性的网页去重方法。

  1)一种基于聚类的方法。该方法以6763个汉字的网页文本内容为载体。文本中某一组或某一汉字出现的频率构成代表该网页的向量,通过计算该向量的角度来判断是否为同一个网页。

  2) 排除相同的 URL 方法。各种元搜索引擎主要使用这种方法去除重复项。它分析来自不同搜索引擎的网页的 URL。如果网址相同,则认为是同一个网页,可以删除。

  3)一种基于特征码的方法。该方法利用标点符号大部分出现在网页正文中的特点,以句号两边各5个汉字作为特征码来唯一地表示网页。

  SEO优化认为,在这三种方法中,第一种和第三种方法大多是根据内容来确定的。因此,SEO人员经常使用伪原创工具来修改文章内容,但在很多情况下,伪原创工具会修改原文。不流畅,不利于排名和收录。

  也有利用搜索引擎漏洞的网站,比如权重高的网站进行恶意采集,因为权重高的蜘蛛会先爬行,所以这种做法对一些低权重的网站是不利的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线