网页爬虫抓取百度图片(百度资源平台官方直播一节公开课工作原理及解决办法（一）)

优采云发布时间: 2022-03-01 20:04

　　大家好，今天百度资源平台正式开课了，主要给大家讲一个网站抓取和收录的原理，这里我为大家做了详细的笔记（一个字不漏），看完后它，可以说做收录基本上问题不大。

　　百度爬虫的工作原理

　　首先，百度的爬虫会与网站的首页进行交互。拿到网站的首页后，会理解页面，理解它的收录（类型，值计算），其次，会把网站的所有超链接都提取到首页。如下图所示，首页上的超链接称为“反向链接”。当下一轮爬取发生时，爬虫会继续与这些超链接页面交互，获取页面进行细化，一层一层的继续爬取。一层抓取，构成抓取环。

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　爬取友好度优化

　　1、网址规范：

　　任何资源都是通过 URL 抓取的。URL是相对于网站的门牌号的，所以URL的规划很重要。尤其如上图所示，在“待爬取URL”的环境下，爬虫在首页时，并不知道URL长什么样。

　　优秀的网址的特点是主流、简洁，可以不做一些非主流的风格，让人看起来很直观的网址。

　　好的 URL 示例：

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　如上图，第一个链接是百度知道的链接。整个链接分为三个部分。第一段是网站的站点，第二段是资源类型，第三段是资源的ID。这是一个非常简单且具有爬虫外观的高质量 URL。

　　如上图所示，第三段比百度知道的多一段。首先第一段是网站的站点，第二段是站点的一级目录，第三段是站点的二级目录，最后一个段是内容ID网站。像这样的 URL 也符合标准。

　　不友好的 URL 示例：

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　如上图所示，这种链接乍一看很长很复杂。有经验的站长可以看到，这种网址收录字符，而这个网址中收录文章的标题，导致网址过长。, 与简单 URL 相比，长 URL 并不占优势。百度站长平台规则明确规定网址不能超过256字节。个人建议URL长度控制在100字节100字符以内。足够的资源来显示 URL。

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　如上图所示，该网址收录统计参数，可能导致重复爬取，浪费站点权限。因此，不能使用参数。如果必须使用参数，也可以保留必要的参数。参数字符可以使用常规的连接符，如“?”、“&”，避免使用非主流的连接符。

　　2、合理发现链接：

　　爬虫从首页开始逐层爬取，所以需要做好首页与资源页的URL关系。这样，爬行相对来说比较省力。

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　如上图所示，从首页到具体内容的超链接路径关系称为发现链接。目前大多数移动台都不太关注发现链接的关系，因此爬虫无法爬取内容页面。

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　如上图所示，这两个站点是移动网站常用的建站方式。从链接发现的角度来看，这两类网站并不友好。

　　Feed流推荐：大部分做Feed流的网站后台数据很多，用户会不断刷新新的内容，但是无论你刷新多少次，可能也只能刷新1%左右内容。爬虫相当于一个用户。爬虫不可能以这种方式爬取网站的所有内容，所以有些页面不会被爬取。就算你有100万的内容，也可能只能抢到1-200万。

　　只有搜索条目：如上图所示，首页只有一个搜索框。用户需要输入关键词才能找到对应的内容，但是爬虫是不可能输入关键词再爬的，所以爬虫之后只能爬到首页，没有回链，自然爬行和收录不会是理想的。

　　解决方法：索引页下的内容按发布时间倒序排列。这样做的好处是搜索引擎可以通过索引页面抓取你的网站最新资源。另外，新发布的资源要实时发布。索引页已同步。很多纯静态的网页都更新了内容，但是首页（索引页）还没有出来。这将导致搜索引擎无法通过索引页面抓取最新的资源。第三点是后链（最新文章的URL）需要直接暴露在源码中，方便搜索引擎抓取。最后，索引页越多越好，几个优质的索引页就够了，比如长城，基本上只用首页作为索引页。

　　最后，这里有一个更高效的解决方案，就是直接通过百度站长资源平台主动提交资源，让搜索引擎绕过索引页，直接抓取最新资源。这里有两点需要注意。

　　Q：是不是提交的资源越多越好？

　　A：收录效果的核心永远是内容的质量。如果大量提交低质量、超标的资源，就会造成惩罚性打击。

　　问：为什么我提交了一个普通的收录却没有被抓到？

　　A：资源提交只能加速资源发现，不能保证短时间内爬取。当然，百度表示，算法不断优化，让优质内容被更快抓取。

　　3、访问友好性：

　　爬虫需要和网站交互，保证网站的稳定性，爬虫才能正常爬取。那么访问友好性主要包括以下几个方面。

　　访问速度优化：建议将加载时间控制在2S以内，这样无论是用户还是爬虫都会更喜欢打开速度更快的网站，二是避免不必要的跳转，虽然这是很少见的部分，但是有还是网站多级跳转，所以对于爬虫来说，多级跳转的同时断线的可能性很大。常见的做法是先不带www的域名跳转到带WWW的域名，再用带WWW的域名跳转到https，最后换一个新站点。在这种情况下，有三个或四个级别的跳跃。如果有类似网站的修改，建议直接跳转到新域名。

　　标准http返回码：我们常见的301/302的正确使用，以及404的正确使用，主要是常规问题，用常规方法解决，比如遇到无效资源，那就用404来做，不要t 使用一些特殊的返回状态码。

　　访问稳定性优化：一是尽量选择国内规模较大的DNS服务，保证网站的稳定性。对于域名的DNS来说，阿里云其实是比较稳定可靠的，那么二是谨慎使用技术手段，阻止爬取。如果有特定资源不想在百度上展示，可以使用机器人屏蔽。比如网站的后台链接大多被机器人屏蔽。如果爬取频率过高，导致服务器压力过大，影响用户正常访问，可以通过资源平台的工具降低爬取频率。二是防止防火墙误拦截爬虫爬取，所以建议可以将搜索引擎的UA加入白名单。最后一点是服务器的稳定性，尤其是在短时间内提交大量优质资源的情况下。这时候一定要注意服务器的稳定性，因为当你提交大量资源时，爬虫的数量会相应增加。这次会导致您的服务器出现故障吗？打开压力太大，这个问题需要站长注意。

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　如上图所示，这三个例子是第三方防火墙拦截的一种状态。普通用户打开这个状态，搜索引擎爬取的时候也是这个状态，所以如果遇到CC或者DDOS，我们在打开防火墙之前，必须先释放搜索引擎的UA。

　　4、识别百度爬虫

　　对于一些网站，可能有针对用户的特殊优化，可能有网站想区分用户和爬虫进行优化，所以这时候就需要识别百度爬虫了。

　　编辑搜索图片，请点击输入图片描述（最多18个字符）

　　首先，通过一个简单的方法，我们可以通过百度的UA来识别百度爬虫。目前百度PC、手机、小程序是三种不同的UA。然后，通过简单的识别方法，就有了第三方UA。爬虫模拟百度爬虫，所以你认不出来。那么这时候我们就可以通过双向DNS解析认证来区分了。详情请参考《简单两步：教你快速识别百度蜘蛛》。

　　提问时间

　　问：新网站会有抓取限制吗？

　　A：对于任何新站点，都没有抓取限制，但是从去年开始，我们就开始提供对新站点的支持，让你的网站，首先是收录上百度。然后做一个价值判断，那么如何让百度知道你是新站点，有两个捷径，一是去百度资源平台提交，二是去工信部ICP备案，我们可以从工信部得到，从ICP备案的数据，备案后，我们知道有人建了一个新站点，这样我们就可以为新站点提供基础的流量支持。

　　Q：蜘蛛抓取的配额会针对每个站点进行调整。多久会调整一次？

　　A：确实会有调整。对于新资源，会与你的抓取频率有关，而对于旧资源，会与你的内容质量有关。如果新资源的质量发生变化，那么爬取频率也会发生变化。网站@如果>的规模发生变化，爬取的频率也会发生变化。如果有大改版，那么爬取的频率也会相对变化。

　　Q：网站降级可以恢复吗？

　　A：网站降级恢复的前提是，我们会重新评估网站，检查网站是否已整改，如果有整改，是否404已制作并提交给资源如果平台完全符合要求，搜索引擎将在评估后恢复不违反规则的网站。

　　问：新网站是否有评估期？

　　A：对我们来说，没有评估期这回事。正如我们前面提到的，它可能支持一个新站点的流量。假设一个新站点经过1-2个月的流量支持，发现网站继续保持这个状态，那么不会有大的调整。当我们发现网站的质量有明显提升时，我们也会相应的提升百度排名。

　　Q：百度对待国外服务器和国内服务器有区别吗？

　　A：从战略上看，没有严格的区分。不过很多国外服务器在中国部分地区封杀了，从国外服务器网站备案来看，国内服务器有优势。

　　Q：新站点的旧域名是不是更有优势？

　　A：如果说旧域名和新网站是同一个内容，在初期确实有一定的优势，但也只是初期，内容的好坏还要看后期. 需要特别注意的是，如果老域名行业和你的新网站的内容无关，即使是所谓的高权限老域名也会适得其反。百度会觉得，今天做那个明天做，效果还不如新建一个域名。

　　Q：蜘蛛有重量吗，比如220、116等高重量蜘蛛？

　　答：蜘蛛没有重量。网站的排名主要取决于网站的质量。

0

2022-03-01

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(百度资源平台官方直播一节公开课工作原理及解决办法（一）)

0 个评论

发起人