网页爬虫抓取百度图片(百度资源平台官方直播一节公开课工作原理及解决办法(一))
优采云 发布时间: 2022-03-01 20:04网页爬虫抓取百度图片(百度资源平台官方直播一节公开课工作原理及解决办法(一))
大家好,今天百度资源平台正式开课了,主要给大家讲一个网站抓取和收录的原理,这里我为大家做了详细的笔记(一个字不漏),看完后它,可以说做收录基本上问题不大。
百度爬虫的工作原理
首先,百度的爬虫会与网站的首页进行交互。拿到网站的首页后,会理解页面,理解它的收录(类型,值计算),其次,会把网站的所有超链接都提取到首页。如下图所示,首页上的超链接称为“反向链接”。当下一轮爬取发生时,爬虫会继续与这些超链接页面交互,获取页面进行细化,一层一层的继续爬取。一层抓取,构成抓取环。
编辑搜索图片,请点击输入图片描述(最多18个字符)
爬取友好度优化
1、网址规范:
任何资源都是通过 URL 抓取的。URL是相对于网站的门牌号的,所以URL的规划很重要。尤其如上图所示,在“待爬取URL”的环境下,爬虫在首页时,并不知道URL长什么样。
优秀的网址的特点是主流、简洁,可以不做一些非主流的风格,让人看起来很直观的网址。
好的 URL 示例:
编辑搜索图片,请点击输入图片描述(最多18个字符)
如上图,第一个链接是百度知道的链接。整个链接分为三个部分。第一段是网站的站点,第二段是资源类型,第三段是资源的ID。这是一个非常简单且具有爬虫外观的高质量 URL。
如上图所示,第三段比百度知道的多一段。首先第一段是网站的站点,第二段是站点的一级目录,第三段是站点的二级目录,最后一个段是内容ID网站。像这样的 URL 也符合标准。
不友好的 URL 示例:
编辑搜索图片,请点击输入图片描述(最多18个字符)
如上图所示,这种链接乍一看很长很复杂。有经验的站长可以看到,这种网址收录字符,而这个网址中收录文章的标题,导致网址过长。, 与简单 URL 相比,长 URL 并不占优势。百度站长平台规则明确规定网址不能超过256字节。个人建议URL长度控制在100字节100字符以内。足够的资源来显示 URL。
编辑搜索图片,请点击输入图片描述(最多18个字符)
如上图所示,该网址收录统计参数,可能导致重复爬取,浪费站点权限。因此,不能使用参数。如果必须使用参数,也可以保留必要的参数。参数字符可以使用常规的连接符,如“?”、“&”,避免使用非主流的连接符。
2、合理发现链接:
爬虫从首页开始逐层爬取,所以需要做好首页与资源页的URL关系。这样,爬行相对来说比较省力。
编辑搜索图片,请点击输入图片描述(最多18个字符)
如上图所示,从首页到具体内容的超链接路径关系称为发现链接。目前大多数移动台都不太关注发现链接的关系,因此爬虫无法爬取内容页面。
编辑搜索图片,请点击输入图片描述(最多18个字符)
如上图所示,这两个站点是移动网站常用的建站方式。从链接发现的角度来看,这两类网站并不友好。
Feed流推荐:大部分做Feed流的网站后台数据很多,用户会不断刷新新的内容,但是无论你刷新多少次,可能也只能刷新1%左右内容。爬虫相当于一个用户。爬虫不可能以这种方式爬取网站的所有内容,所以有些页面不会被爬取。就算你有100万的内容,也可能只能抢到1-200万。
只有搜索条目:如上图所示,首页只有一个搜索框。用户需要输入关键词才能找到对应的内容,但是爬虫是不可能输入关键词再爬的,所以爬虫之后只能爬到首页,没有回链,自然爬行和 收录 不会是理想的。
解决方法:索引页下的内容按发布时间倒序排列。这样做的好处是搜索引擎可以通过索引页面抓取你的网站最新资源。另外,新发布的资源要实时发布。索引页已同步。很多纯静态的网页都更新了内容,但是首页(索引页)还没有出来。这将导致搜索引擎无法通过索引页面抓取最新的资源。第三点是后链(最新文章的URL)需要直接暴露在源码中,方便搜索引擎抓取。最后,索引页越多越好,几个优质的索引页就够了,比如长城,基本上只用首页作为索引页。
最后,这里有一个更高效的解决方案,就是直接通过百度站长资源平台主动提交资源,让搜索引擎绕过索引页,直接抓取最新资源。这里有两点需要注意。
Q:是不是提交的资源越多越好?
A:收录效果的核心永远是内容的质量。如果大量提交低质量、超标的资源,就会造成惩罚性打击。
问:为什么我提交了一个普通的 收录 却没有被抓到?
A:资源提交只能加速资源发现,不能保证短时间内爬取。当然,百度表示,算法不断优化,让优质内容被更快抓取。
3、访问友好性:
爬虫需要和网站交互,保证网站的稳定性,爬虫才能正常爬取。那么访问友好性主要包括以下几个方面。
访问速度优化:建议将加载时间控制在2S以内,这样无论是用户还是爬虫都会更喜欢打开速度更快的网站,二是避免不必要的跳转,虽然这是很少见的部分,但是有还是网站多级跳转,所以对于爬虫来说,多级跳转的同时断线的可能性很大。常见的做法是先不带www的域名跳转到带WWW的域名,再用带WWW的域名跳转到https,最后换一个新站点。在这种情况下,有三个或四个级别的跳跃。如果有类似网站的修改,建议直接跳转到新域名。
标准http返回码:我们常见的301/302的正确使用,以及404的正确使用,主要是常规问题,用常规方法解决,比如遇到无效资源,那就用404来做,不要t 使用一些特殊的返回状态码。
访问稳定性优化:一是尽量选择国内规模较大的DNS服务,保证网站的稳定性。对于域名的DNS来说,阿里云其实是比较稳定可靠的,那么二是谨慎使用技术手段,阻止爬取。如果有特定资源不想在百度上展示,可以使用机器人屏蔽。比如网站的后台链接大多被机器人屏蔽。如果爬取频率过高,导致服务器压力过大,影响用户正常访问,可以通过资源平台的工具降低爬取频率。二是防止防火墙误拦截爬虫爬取,所以建议可以将搜索引擎的UA加入白名单。最后一点是服务器的稳定性,尤其是在短时间内提交大量优质资源的情况下。这时候一定要注意服务器的稳定性,因为当你提交大量资源时,爬虫的数量会相应增加。这次会导致您的服务器出现故障吗?打开压力太大,这个问题需要站长注意。
编辑搜索图片,请点击输入图片描述(最多18个字符)
如上图所示,这三个例子是第三方防火墙拦截的一种状态。普通用户打开这个状态,搜索引擎爬取的时候也是这个状态,所以如果遇到CC或者DDOS,我们在打开防火墙之前,必须先释放搜索引擎的UA。
4、识别百度爬虫
对于一些网站,可能有针对用户的特殊优化,可能有网站想区分用户和爬虫进行优化,所以这时候就需要识别百度爬虫了。
编辑搜索图片,请点击输入图片描述(最多18个字符)
首先,通过一个简单的方法,我们可以通过百度的UA来识别百度爬虫。目前百度PC、手机、小程序是三种不同的UA。然后,通过简单的识别方法,就有了第三方UA。爬虫模拟百度爬虫,所以你认不出来。那么这时候我们就可以通过双向DNS解析认证来区分了。详情请参考《简单两步:教你快速识别百度蜘蛛》。
提问时间
问:新网站会有抓取限制吗?
A:对于任何新站点,都没有抓取限制,但是从去年开始,我们就开始提供对新站点的支持,让你的网站,首先是收录上百度。然后做一个价值判断,那么如何让百度知道你是新站点,有两个捷径,一是去百度资源平台提交,二是去工信部ICP备案,我们可以从工信部得到,从ICP备案的数据,备案后,我们知道有人建了一个新站点,这样我们就可以为新站点提供基础的流量支持。
Q:蜘蛛抓取的配额会针对每个站点进行调整。多久会调整一次?
A:确实会有调整。对于新资源,会与你的抓取频率有关,而对于旧资源,会与你的内容质量有关。如果新资源的质量发生变化,那么爬取频率也会发生变化。网站@如果>的规模发生变化,爬取的频率也会发生变化。如果有大改版,那么爬取的频率也会相对变化。
Q:网站降级可以恢复吗?
A:网站降级恢复的前提是,我们会重新评估网站,检查网站是否已整改,如果有整改,是否404已制作并提交给资源 如果平台完全符合要求,搜索引擎将在评估后恢复不违反规则的网站。
问:新网站是否有评估期?
A:对我们来说,没有评估期这回事。正如我们前面提到的,它可能支持一个新站点的流量。假设一个新站点经过1-2个月的流量支持,发现网站继续保持这个状态,那么不会有大的调整。当我们发现网站的质量有明显提升时,我们也会相应的提升百度排名。
Q:百度对待国外服务器和国内服务器有区别吗?
A:从战略上看,没有严格的区分。不过很多国外服务器在中国部分地区封杀了,从国外服务器网站备案来看,国内服务器有优势。
Q:新站点的旧域名是不是更有优势?
A:如果说旧域名和新网站是同一个内容,在初期确实有一定的优势,但也只是初期,内容的好坏还要看后期. 需要特别注意的是,如果老域名行业和你的新网站的内容无关,即使是所谓的高权限老域名也会适得其反。百度会觉得,今天做那个明天做,效果还不如新建一个域名。
Q:蜘蛛有重量吗,比如220、116等高重量蜘蛛?
答:蜘蛛没有重量。网站 的排名主要取决于 网站 的质量。