搜索引擎优化原理(了解SEO的优化方法之前,你知道吗?(一))

优采云 发布时间: 2021-12-14 17:23

  搜索引擎优化原理(了解SEO的优化方法之前,你知道吗?(一))

  搜索引擎爬虫的工作原理是我们做SEO的根本理论基础。SEO工作中有很多事情我们可以从搜索引擎爬虫的工作原理中找到答案!

  所以,在了解SEO的优化方法之前,希望大家对搜索引擎爬虫系统有一个基本的了解,对后续的SEO学习有很大的帮助!

  搜索引擎爬虫

  不同的搜索引擎对爬虫有不同的通用名称。比如百度的爬虫叫“baiduspider”,谷歌叫“googlebot”。爬虫的作用:目前互联网上有数百亿个网页。爬虫首先要做的就是将如此大量的网页数据下载到服务器,形成网页的本地镜像备份。这些页面传输到本地后,经过一些后续的算法处理,显示在搜索结果中。

  搜索引擎爬虫框架

  一般的爬虫框架流程是:首先从互联网的海量页面中抓取一些高质量的页面,提取其中收录的网址,并将这些网址放入待抓取的队列中。爬虫依次读取队列中的 URL,然后使用 DNS 解析,将这些 URL 转换为 网站 对应的 IP 地址,网页下载器将通过该 IP 地址下载页面的所有内容。

  对于已经下载到本地服务器的页面,一方面等待索引和后续处理;另一方面,这些下载的页面会被记录下来,以避免再次被抓取。

  对于新下载的页面,从页面中抓取页面中收录的未爬取的URL,放入待爬取的队列中。在后续的爬取过程中,会下载该URL对应的页面内容。这个循环会让你知道它正在等待被抓取。如果取队列为空,则完成一轮取。如图所示:

  图2-1

  

  当然,在当今互联网信息量不断海量的时代,为了保证效率,爬虫一般都是连续工作的。

  因此,从宏观上我们可以理解,互联网页面可以分为以下5个部分:

  a) 下载页面的集合

  b) 过期页面的采集

  c) 要下载的页面集合

  d) 已知页面的集合

  e) 不可知页面集合

  当然,为了保证页面的质量,上面爬虫的爬取过程中涉及到了很多的技术手段。

  搜索引擎爬虫的分类

  大多数搜索引擎爬虫系统都是按照上述流程工作的,但是不同搜索引擎的爬虫会有所不同,同一个搜索引擎的爬虫有多种类别。按功能分类:

  a) 批量爬虫

  b) 增强型爬虫

  c) 垂直履带

  百度搜索引擎按产品分类:

  a) 网页搜索百度蜘蛛

  b) 无线搜索Baiduspider-mobile

  c) 图片搜索baiduspider-image

  d) 视频搜索Baiduspider-video

  e) 新闻搜索Baiduspider-news

  f) 百度蜘蛛最爱

  g) 百度联盟baiduspider-cpro

  h) 手机搜索百度+转码器

  搜索引擎爬虫的特点

  由于互联网信息量巨大,数据量巨大,搜索引擎必须有优秀的爬虫才能完成高效的爬虫过程。

  a) 高性能

  搜索引擎的爬虫性能主要体现在单位时间内可以下载的网页数量。互联网上的网页数量庞大,因此网页的下载速度直接关系到工作效率。另外,程序访问磁盘的方式也很重要,所以高性能的数据结构对爬虫的性能也有很大的影响。

  b) 稳健性

  因为蜘蛛需要爬取的网页数量非常多,虽然下载速度很快,但是完成一个爬取过程仍然需要很长时间,所以蜘蛛系统需要能够灵活增加服务器的数量和爬虫。提高小效率。

  c) 友好

  爬虫的友好性主要体现在两个方面:

  一方面要考虑网站服务器的网络负载,因为不同服务器的性能和承载能力不同,如果蜘蛛爬行压力太大,造成影响类似于DDOS攻击,可能会影响网站的访问,所以蜘蛛在网上爬取时需要注意网站的负载。

  另一方面要保护网站的隐私,因为不是所有的网页都允许被搜索引擎蜘蛛和收录抓取,因为别人不想被搜索收录,以免被网上其他人搜索到。

  限制蜘蛛爬行的方法一般有两种:

  1) 机器人排除协议

  网站所有者在网站的根目录下制定了一个robots.txt文件,说明了网站中哪些目录和页面不允许被百度蜘蛛抓取

  一般robots.txt文件格式如下:

  用户代理:baiduspider

  禁止:/wp-admin/

  禁止:/wp-includes/

  user-agent 字段指定爬虫禁止的搜索引擎字段指定不允许爬取的目录或路径。

  2) 网页封禁标签(机器人元标签)

  在页面头部添加网页禁止标记,达到禁止收录页面的效果。有两种形式:

  此表单通知搜索引擎爬虫不允许将页面内容编入索引。

  这个表单告诉爬虫不允许爬取页面中收录的所有链接

  爬虫的爬取策略

  在整个爬虫系统中,要爬取的队列是核心,所以如何确定要爬取的队列中URL的顺序非常重要,除了前面提到的,新下载的页面中收录的URL会自动附加到除了队列末尾的技术,很多情况下还需要使用其他技术来确定要爬取的队列中URL的顺序。所有爬取策略的基本目标都是一样的:先爬取重要的网页。

  常见的爬虫爬取策略包括:广度优先遍历策略、不完全pagerank策略、OPIC策略和大站优先策略。

  网页更新策略

  该算法的意义在于:互联网页面多,更新速度快,所以当互联网页面内容更新时,爬虫需要及时重新抓取该页面,索引后, 并重新展示给用户,否则容易让用户搜索引擎的搜索结果列表中看到的结果与实际页面内容不一致。常见的更新策略有3种:历史参考策略、用户体验策略和聚类抽样策略。

  a) 历史参考策略

  历史参考策略很大程度上依赖于网页的历史更新频率。从历史更新频率,判断一个页面未来的更新时间,指导爬虫的工作。更新策略也是根据一个页面的更新区域来判断内容的更新。例如,网站 的导航和底部一般保持不变。

  b) 用户体验策略

  顾名思义,更新策略与用户体验数据直接相关,即如果一个页面被认为不太重要,那么后期更新就无关紧要,那么如何判断一个页面的重要性呢?由于搜索引擎的爬虫系统和排名系统是相对独立的,当一个页面的质量发生变化时,其用户体验数据也会随之发生变化,从而导致排名发生变化。从那时起,判断页面的质量。变化,即对用户体验影响越大的页面,应该更新得越快。

  c) 整群抽样策略

  上面介绍的两种更新策略都有很多局限性。为互联网上的每个网页保存历史页面的成本是巨大的。另外,抓取的第一页没有历史数据,所以无法确定更新周期。因此,聚类抽样策略很好地解决了上述两种策略的缺点。即:每个页面根据其属性进行分类,同一类别的页*敏*感*词*有相似的更新周期,因此根据页面的类别确定更新周期。

  对于每个类别的更新周期:从各自的类别中提取有代表性的页面,并根据前两种更新策略计算更新周期。

  页面属性分类:动态特征和静态特征。

  静态特征一般是:页面内容的特征,如文字、大小、图片大小、大小、链接深度、pagerank值、页面大小等特征。

  动态特征是静态特征随时间的变化,如图片数量的变化、文字的变化、页面大小的变化等。

  聚类采样策略看似粗糙,具有部分泛化性,但在实际应用中,效果优于前两种策略。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线