百度搜索引擎优化原理(百度搜索引擎蜘蛛会优先什么?蜘蛛是通过什么我们的网站的)

优采云 发布时间: 2022-01-13 09:19

  百度搜索引擎优化原理(百度搜索引擎蜘蛛会优先什么?蜘蛛是通过什么我们的网站的)

  1、蜘蛛的名字:

  Baiduspdier(百度)、Googlebot(谷歌)、搜狗网络蜘蛛(Sogou)。

  2、蜘蛛会先爬什么?百度搜索引擎蜘蛛用什么来爬取我们的网站?

  爬虫从一些重要的*敏*感*词*URL开始,通过页面上的超链接关系不断发现新的URL并进行爬取,从而尽可能多地爬取有价值的网页。对于百度这样的大型爬虫系统,由于网页随时都有被修改、删除或者新的超链接出现的可能,所以需要不断更新爬虫过去爬过的页面,维护一个URL库和页面库。这是百度的网络数据库。

  3、百度蜘蛛爬取系统基本框架

  其中包括链接存储系统、链接选择系统、DNS解析服务系统、爬取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。百度蜘蛛通过本系统的配合完成对互联网页面的爬取。

  4、爬虫友好度

  网站 所需的带宽尽可能大。网站是独立IP,更利于爬取。

  5、 常用爬取返回码

  简单介绍一下百度支持的几个返回码:

  1)最常见的 404 代表“未找到”。认为网页已过期,通常会从库中删除。同时,如果蜘蛛在短期内再次找到这个url,则不会被抓取;

  2)503代表“Service Unavailable”,表示网页暂时无法访问,一般发生在网站暂时关闭,带宽受限时。对于返回503状态码的网页,百度蜘蛛不会直接删除url,会在短时间内多次访问。如果网页已经恢复,会正常爬取;如果继续返回 503,则该 url 仍会被访问。被认为是断开的链接,已从库中删除。

  3)403 代表“Forbidden”,认为该网页当前被禁止访问。如果是新的url,蜘蛛暂时不会抓取,短时间内也会多次访问;如果是已经存在的收录url,则不会直接删除,短时间内也会多次访问。如果网页正常访问,则正常爬取;如果仍然禁止访问,则此 url 也将被视为无效链接,将从库中删除。

  4)301 表示“永久移动”,表示网页被重定向到新的 url。当遇到网站迁移、域名更换、网站改版等问题时,建议使用301返回码并使用站长平台的网站改版工具,以减少改版带来的网站流量损失。

  6、识别多个 url 重定向

  由于各种原因,互联网上的某些网页具有 url 重定向状态。为了正常抓取这些资源,需要蜘蛛识别和判断url重定向,同时防止作弊。重定向可以分为三类:http 301 重定向、元刷新重定向和js 重定向。另外,百度还支持Canonical标签,在效果上可以认为是间接重定向。

  4、获取优先级均衡

  由于互联网资源规模巨大、变化迅速,搜索引擎几乎不可能全部抓取并合理更新以保持一致性。因此,这就需要爬取系统设计一套合理的爬取优先级。层级部署策略。主要包括:深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、社交分享引导策略等。每种策略各有优缺点,在实际情况中,往往会出现多种策略配合使用,达到最佳的抓取效果。

  5、重复url过滤

  在爬取过程中,蜘蛛需要判断一个页面是否被爬取过。如果还没有被爬取过,就会对网页进行爬取,放到被爬取的url集合中。判断是否被爬取的核心是快速查找对比,还涉及到url规范化识别。例如,一个 url 收录大量无效参数,但实际上是同一个页面,将被视为同一个 url 。

  6、访问暗网数据

  互联网上有很多暂时无法被搜索引擎捕获的数据,称为暗网数据。一方面,网站的大量数据存在于网络数据库中,蜘蛛很难通过爬取网页获取完整的内容;以此类推,也会导致搜索引擎无法抓取。目前暗网数据获取的主要思路还是使用开放平台提交数据,如“百度站长平台”、“百度开放平台”等。

  7、抓反作弊

  爬虫在爬取过程中,经常会遇到所谓的爬虫黑洞或面临大量低质量页面,这就要求在爬虫系统中还应设计一套完整的爬虫防作弊系统。比如分析url特征,分析页面大小和内容,分析爬取规模对应的站点规模等等。

  刚才提到百度搜索引擎会设计复杂的爬取策略。事实上,搜索引擎和资源提供者之间存在着相互依存的关系。其中,搜索引擎需要站长为其提供资源,否则搜索引擎将无法满足用户的检索需求;并且站长需要通过搜索引擎来推广他们的内容以获得更多的受众。蜘蛛爬取系统直接涉及互联网资源提供商的利益。为了实现搜索引擎和站长的双赢,双方在爬取过程中必须遵守一定的规范,以方便双方的数据处理和对接。这个过程所遵循的规范,就是我们日常生活中所说的一些网络协议。

  这是一个简短的列表:

  HTTP 协议:超文本传输​​协议,是 Internet 上使用最广泛的网络协议,是客户端和服务器请求和响应的标准。客户端一般是指最终用户,服务器是指网站。最终用户通过浏览器、蜘蛛等方式向服务器的指定端口发送http请求,发送http请求会返回对应的http头信息,包括是否成功、服务器类型、网页最后更新时间.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线