了解搜索引擎的基本工作原理,掌握SEO优化技巧

优采云 发布时间: 2021-07-29 05:23

  了解搜索引擎的基本工作原理,掌握SEO优化技巧

  对于新手 SEO 来说,您不需要考虑太多事情。你明白伪原创也是制胜法宝。知道如何获取外链资源,足以让你受益匪浅。而且随着SEO工作的不断深入,你会慢慢发现充分利用互联网给你每一针的重要性。了解搜索引擎的工作原理,其意义自然不成问题。

  

  搜索引擎的工作原理,简单来说,主要包括三个步骤:首先发现和采集互联网上的网页信息;同时对信息进行提取整理,构建索引库;然后根据用户输入的查询词搜索key,快速查看索引库中的文档,评估文档与查询的相关性,对输出结果进行排序,将查询结果返回给用户。排名的设计算法问题,暂时不赘述。这里我主要讲爬取和爬取和预处理。

  搜索引擎抓取和抓取的原理

  通过蜘蛛程序,每个搜索引擎在访问网站时都会先爬取网站根目录下的robots.txt文件,从而获取网站中禁止爬取的URL信息搜索引擎收录不会搜索到禁止抓取的部分网址。

  

  每个独立的搜索引擎都有自己的网络爬虫蜘蛛。为了获取更多的信息,蜘蛛会通过页面上的链接来抓取页面。理论上,蜘蛛可以通过链接抓取整个互联网上的信息,但在实际操作中,考虑到页面的复杂性,蜘蛛会采取深度爬行和广度爬行两种方式进行页面爬行。 为了避免重复爬取和爬取,搜索引擎会建立两个已发现但未爬取的网页地址库和已爬取的网页地址库,供参考和比较,被爬取的页面将进入原创页面数据库。至此,原数据库的建立工作告一段落。

  搜索引擎预处理(索引)阶段的原理

  蜘蛛抓取网页后,建立原创数据库,搜索引擎将提取网页文本。当然,除了页面上显示的文字,搜索引擎还会执行meta标签、flash替代文件、锚文本。 、Alt 标签和文本的其他部分被提取出来。提取文本后,将进入下一阶段:分词。

  无论百度的算法是什么,不可否认的是,百度的中文分词技术是被搜索引擎垄断的。对于页面上爬取的文本,搜索引擎会进行分词处理,比如将“Shiyan网站optimization”分为“shiyan”和“网站optimization”两部分。分词方法一般有词典和统计两种方法。字典不需要太多解释;至于统计,是指通过分析大量文本,计算词之间相邻出现的概率。概率越大,越容易形成单词。百度目前采用两种方法的组合来达到最佳效果。

  说到这里,大家会问,汉语中经常出现的一些词,如“的”、“了”、“呀”等,没有实际意义,但使用频率高,会怎样呢? 答案是消除,从而提高搜索引擎的计算效率。

  在浏览网页信息时,我们会发现网站里面有一些部分反复出现,比如“导航”、“广告”等,对于页面的显示内容,它没有实际意义。搜索引擎也会对这部分内容进行处理,从而过滤掉收录页面的最终文本部分。当然,在过滤掉文本部分后,搜索引擎也会比较每个网页上显示的最终文本内容,从而删除重复的内容并显示出来。

  经过以上步骤,就可以构建索引库了。这时,索引会分为两个阶段:正向索引和倒排索引。前向索引可以简单理解为以收录页面的URL为主键,以页面上的分词结果为内容建立的数据库,如下图所示。

  

  在前向索引的末尾,我们可以发现它不能用于排名。这时候我们需要一个倒排索引,即以关键词为主键,以关键词的URL和对应的内容为内容构建索引库。如下图。

  

  当用户使用关键词搜索信息时,搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站,它会使用特殊的算法——通常是根据关键词在网页上的匹配度、出现位置、频率、链接质量等——计算相关性和排名每个网页的级别,然后根据相关性将这些网页链接依次返回给用户。

  此时,预处理(索引)阶段由搜索引擎通过链接分析和特殊文件的处理完成。由此我们也可以看出,了解搜索引擎的原理对于理解和启迪日常的SEO工作是非常明显的。比如在伪原创的过程中,你只需在一些文章上添加简单的辅助词,或者对一小部分文字内容进行简单的修改。对不起,你的文章在爬行阶段进行了预处理甚至爬行并通过了。

  了解了搜索引擎抓取的原理,日常优化中还需要注意一些技巧:

  网站url 优化建议

  网站创建了一个描述性好、标准化、简单的url,有利于用户更方便的记忆和判断网页内容,也有利于搜索引擎更多地捕捉你的网站有效。 网站设计之初,要有合理的URL规划。

  1、只使用系统中的正常网址,防止用户访问异常网址。

  2、 不要在 URL 中放置会话 id 和统计代码等不必要的内容。

  3、不同形式的url,301会永久跳转到正常形式。

  4、备用域名,用于防止用户输入错误。 301永久重定向到主域名。

  5、使用 robots.txt 禁止百度蜘蛛抓取您不想显示给用户的表单。

  网站title 信息优化建议

  网页标题是用来告诉用户和搜索引擎这个网页的主要内容是什么,当用户在百度搜索中搜索你的网页时,标题会作为最重要的内容出现在摘要中搜索引擎判断网页内容的权重时,标题是主要参考信息之一。

  1、Homepage:网站名或网站名_提供服务介绍或产品介绍

  2、频道页面:频道名称_网站name。

  3、文章page:文章title_channel name_网站name。注意:1. 应该有一个明确的主题,并收录此页面上最重要的内容。 2.简洁明了,不罗列与网页内容无关的信息。 3.用户浏览一般是从左到右,重要的内容应该放在标题的顶部。

  4、Description 使用用户熟悉的语言。如果你有中英文两个网站名字,尽量使用用户熟悉的一个作为标题描述。

  网站meta 信息优化建议

  meta description是meta标签的一部分,位于html代码的区域。元描述是网页内容的简明摘要。如果描述与网页内容相符,百度会将描述作为摘要的选择目标之一。好的描述有助于用户更轻松地从搜索结果中判断您的网页内容是否满足他们的需求。元描述不是权重计算的参考因素。该标签的存在与否不影响网页的权重,只会作为搜索结果摘要的选择目标。推荐做法:

  1、网站首页、频道页、产品参数页等,没有大段文字作为摘要的网页最适合描述。

  2、 为每个网页创建不同的描述,以避免在所有网页上使用相同的描述。

  3、长度合理,但长度不能太短。

  网站图片替代优化技巧

  建议为图片添加alt说明。这是因为在较慢的网速无法显示图片的情况下,它可以让用户了解图片所传达的信息,也可以让搜索引擎了解图片的内容。同样,在使用图片导航时,也可以使用alt注解告诉搜索引擎该网页的内容所指向的内容。

  网站flash 信息建议

  百度蜘蛛只能读取文本内容。 Flash、图片等非文本内容暂时无法处理。百度无法识别flash中的文字和图片。所以如果一定要使用flash,建议在object标签中添加注释信息。此信息将被视为 Flash 的描述。让搜索引擎更好地了解您的 Flash 内容。

  不推荐使用frame和iframe结构。通过 iframe 显示的内容可能会被百度丢弃。

  通过对搜索引擎工作原理的理解,结合你掌握的网站seo优化方法,相信事半功倍

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线