百度资源平台公开课:释放双眼,带上耳机,听听看~
优采云 发布时间: 2021-06-06 19:31百度资源平台公开课:释放双眼,带上耳机,听听看~
放开眼睛,戴上耳机,听听~!
大家好,我是冯耀宗。今天百度资源平台正式播出公开课,主要给大家讲讲网站猎取和收录的原理。在这里,我会给你详细的笔记。 (一个字都没漏),看完可以说收录基本上问题不大。如果看不懂文字版的笔记,没关系,加我微信(394062665),我录了视频。
首先,百度的爬虫会与网站的主页进行交互。拿到网站主页后,会理解页面,理解收录(类型,数值计算),其次会把网站首页的所有超链接都提取出来。如下图所示,首页上的超链接称为“反向链接”。下一轮爬虫的时候,爬虫会继续和这些超链接的页面进行交互,得到页面进行细化,一层一层的继续。抓取一层,构成抓取循环。
1、URL 规范:
任何资源都是通过 URL 获取的。 URL是相对于网站的门牌号,所以URL规划很重要。尤其是在上图所示的“待抓取网址”环境下,爬虫在首页的时候,不知道网址长什么样子。
优秀网址的特点是主流、简单,所以你可能不想做出一些让人看起来很直观的非主流风格。
优秀网址示例:
如上图所示,第一个是百度知道的链接。整个链接分为三个部分。第一部分是网站的站点,第二部分是资源类型,第三部分是资源ID。这种网址很简单,爬虫看起来很不错。
如上图,第三篇文章比百度多了一段。首先,第一段是网站的站点,第二段是站点的一级目录,第三段是站点的二级目录。最后一段是网站的内容 ID。像这样的网址也符合标准。
不友好网址示例:
如上图所示,这种链接乍一看很长很复杂。有经验的站长可以看到,这种网址中含有字符,而且这个网址中含有文章的标题,导致网址有偏差。与简单的 URL 相比,较长的相对较长的 URL 没有优势。百度站长平台规则明确规定网址不能超过256字节。我个人建议URL长度控制在100字节以内,100个字符足以显示URL的资源。
如上图所示,此网址收录统计参数,可能会造成重复抓取,浪费网站权限。因此,可以不使用参数。如果必须使用参数,也可以保留必要的参数。参数字符实际上是可能的。使用常规连接器,例如“?”、“&”,并避免使用非主流连接器。
2、合理发现链接:
爬虫从首页开始一层一层的爬取,所以需要做好首页和资源页的URL关系。这个爬虫爬行比较省力。
如上图所示,从首页到具体内容的超链接路径关系称为发现链接。目前大部分移动站都不太关注发现链接关系,所以爬虫无法抓取到内容页面。
如上图所示,这两个站点是手机网站建站的常用方法。从链接发现的角度来看,这两类网站并不友好。
Feed流推荐:大多数做Feed流的网站后台数据量很大,用户不断刷新就会出现新的内容,但是无论刷新多少次,可能只能刷新到大约 1% 爬虫相当于一个用户。爬虫不可能以这种方式爬取网站的所有内容,所以会导致部分页面被爬取。即使你有100万条内容,也可能只能抢到1-200万条。
仅搜索条目:如上图所示,首页只有一个搜索框。用户需要输入关键词才能找到对应的内容,但是爬虫无法输入关键词然后再次爬取,所以爬虫只有爬到首页后才会有回链。自然爬行和收录 不会很理想。
解决方法:索引页下的内容按发布时间倒序排列。这样做的好处是搜索引擎甚至可以通过索引页抓取你的网站最新资源,而且新发布的资源应该是实时的 在索引页同步中,很多纯静态的网页都有更新的内容,但是首页(索引页)不出来。这会导致搜索引擎甚至无法通过索引页面抓取最新的资源。第三点是反向链接。 (最新的文章)的URL需要在源码中直接暴露,方便搜索引擎抓取。最后,索引页不要越多越好。几个高质量的索引页就够了,比如长城号,基本上只用首页来做索引页。
最后给大家一个更高效的解决方案,就是直接通过百度站长资源平台主动提交资源,让搜索引擎绕过索引页,直接抓取最新的资源。这里有两点需要注意。 .
问:提交的资源越多越好吗?
A:收录 效果的核心始终是内容的质量。如果提交大量低质量、泛滥的资源,将导致惩罚性打击。
问:为什么我提交了普通的收录却没有被抓到?
A:资源提交只能加速资源发现,不能保证短期抓取。当然,百度表示会不断优化算法,让优质内容更快被抓取。
3、访问友好:
抓取器必须与网站进行交互,并且必须保证网站的稳定性,这样抓取器才能正常抓取。那么访问友好性主要包括以下几个方面。
访问速度优化:加载时间建议控制在2S以内,所以无论是用户还是爬虫,打开速度更快的网站会更受青睐,其次是避免不必要的跳转,虽然这是案例中的一小部分,但是网站里面还是有很多层次的跳转,所以对于爬虫来说,很可能会在多层次跳转的同时断开。一般是把没有www的域名重定向到带WWW的域名,然后再把带WWW的域名重定向到https,最后更换新站点。在这种情况下,存在第三或第四级重定向。如果有类似网站的修改,建议直接跳转到新域名。
标准化http返回码:我们常见的301/302的正确使用和404的正确使用主要是常规问题。使用常规方法来解决它们。比如遇到无效资源,那就用404来做。不要使用一些特殊的返回状态代码。
访问稳定性优化:一是尽量选择国内大型DNS服务,保证站点的稳定性。对于域名DNS,阿里云其实是比较稳定可靠的。然后,其次,使用技术手段小心地阻止爬虫。对于爬虫,如果有特定资源不想在百度上显示,可以使用robots进行拦截。比如网站的后台链接多被机器人屏蔽。如果爬取频率过高,导致服务器压力过大,影响用户正常访问,可以通过资源平台的工具降低爬取频率。二是防止防火墙误禁止爬虫,所以建议你可以把搜索引擎的UA加入白名单。最后一点是服务器的稳定性,尤其是在短时间内提交大量优质资源的时候。这时候一定要注意服务器的稳定性,因为当你提交大量资源时,爬虫也会相应增加。这个时候会不会导致你的服务器?打开压力太大,这个问题需要站长注意。
<p>如上图所示,这三个例子都是被第三方防火墙拦截的状态。普通用户在这种状态下打开,搜索引擎在爬行的时候也会处于这种状态,所以如果遇到CC或者DDOS的时候,我们在打开防火墙的时候一定要放开搜索引擎的UA。