如何确保网站正常抓取根据根据百度搜索团队的课程?

优采云 发布时间: 2021-08-12 18:32

  如何确保网站正常抓取根据根据百度搜索团队的课程?

  ②提取页面上的所有链接,分析页面质量。页面的主题内容与相关元素一起记录并反映在搜索结果中。页面上的链接将再次被进一步抓取。

  ③在提取全站URL地址的基础上,根据搜索策略进行二次筛选,选择有价值的目标链接,再次抓取,重复操作,抓取网站有价值的页面最大限度地利用整个网站。

  值得解释的过程之一是:

  在给搜索页面反馈时,在这个过程中,搜索引擎需要识别网站的结构,网站的类型,网站的话题相关性。

  因此,我们在新建网站时,尝试提交到百度搜索时,需要确定:

  ①网站结构完整,简洁,逻辑关联度高。

  ②网站首页内容丰富,最好有清晰的时间戳。

  2、如何保证网站正常爬取

  根据百度搜索团队的历程,我们认为主要包括以下几个因素:

  ①网站URL 标准化

  所谓的URL标准化,一般来说,主要是指我们常见的一些基本的URL形式。一般来说,我们通常建议您选择伪静态形式,一般可以以.html结尾。

  理论上常用的 URL 层次结构越简单越好,例如:domain/mlu/123*.html

  在这个过程中,我们尽量保证URL路径不要太长,尽量不要超过100个字符为最佳。

  同时避免使用不友好的URL形式,比如嵌入汉字的形式,如下图:

  当然,这里需要强调的是参数问题。很多网站经常有一些广告代码跟踪,或者访问统计的后缀标识。这对于搜索引擎来说是相同的内容,但经常会自动添加不同的 URL 地址,很容易被识别为重复内容。

  官方的建议是,在使用统计数据时,尽量规范标识,适当使用“?”及其他相关表格。

  但根据实战经验,合理使用“?”也会造成很多恶意的原因,比如:

  域/mlu/? 123*.html? [网址]

  因此,我们建议,如果您不必启用相关的动态参数,我们尝试屏蔽“?”在 robots.txt 中。

  ②合理发现链接

  什么是链接?

  简单理解:所谓链接就是从目标索引页面显示的相关页面的超链接。基于这些链接,搜索爬虫可以更好更全面的抓取整个网站的页面内容。

  一般来说:一个网站索引页,主要包括:首页、列表页、tag标签聚合页。

  对于这些类型的页面,每天都会进行大量的页面内容更新和调用。

  换句话说,这些页面在持续运行的情况下,就像*敏*感*词*页面一样,每天固定周期的某个时间吸引搜索引擎访问并获取最新页面。

  一个好的索引页通常需要有定期更新的策略、最新的内容和文章,一般建议使用最新的时间顺序策略进行展示。

  这可以帮助搜索引擎更快地发现新内容。

  这里值得强调的一个细节是,我们新发布的内容最好在索引页面上实时同步。在这里,一些需要静态手动更新或CDN加速的页面经常会遇到相关问题。

  同时,官方的建议是尽量不要建立大量的索引页。下面我们给出理解:

  基于更新频率策略,我们只需要维护核心索引页面即可保持更新频率频繁。如果启用了大量不同的索引页面而没有进行有效的内容展示,也是一种爬虫资源的浪费。

  ③访问友好性

  一般来说,所谓的网站访问友好度主要是指:

  1)页面的访问速度尽量控制在2秒以内。个人认为百度CDN云加速可以合理开启。

  2)为了保证DNS解析的稳定性,我们一般建议您选择主流的DNS服务商。

  3) 避免大量的页面跳转,例如:索引页显示的链接,大量的301、302、404类型的页面被启用。

  4)避免仅使用技术手段或错误的操作策略来屏蔽百度爬虫。

  5)避免防火墙使用不当,导致百度无法友好抓取目标页面,尤其是购买一些虚拟主机时,需要特别注意。

  6)注意网站的负载压力,如:优质站点,大量短时间更新内容,导致大量蜘蛛同时访问节点,导致服务器加载延迟甚至死机。

  ④提高抓取频率

  我们知道,如果我们想尝试提高网站的收录率,爬取频率的提高尤为重要。一般而言:

  新站:搜索引擎更关心页面内容质量的覆盖率。

  老站:更多体现在页面更新频率上。

  值得注意的是:

  对于新的企业网站,搜索引擎会在1-2个月内给予一定的流量倾斜和支持。因此,在这个过程中,我们需要尽可能提高内容输出的质量。

  为了获得更高的质量评价,以便在后期的操作过程中,能够得到更好的展示。

  一般来说,新网站上线,长时间不收录的原因主要是:内容质量差,内容增量对行业覆盖不够。为此,我们尽量避免使用伪原创采集 内容。

  3、FAQs

  ①提交的资源越多越好吗?

  答:早期Batman IT强调,我们在使用相关数据提交渠道时,尽量选择高质量的内容提交,尽量减少低质量页面的数据提交。如果这些页面的比例显着增加,则很容易受到影响。网站质量评估。

  ②是否会接受收录 正常提交页面?

  A:提交到百度搜索资源平台的链接需要一定的时间来响应排序和抓取。不代表提交后短时间内会被抓取。根据不同网站的状态,一般是普通的收录,第二天可能会有收录。

  ③对外部服务器的爬取有什么不同吗?

  答:基于外网服务器,以及网站ICP记录识别的情况,存在一定的服​​务器稳定性因素,理论上爬取策略存在一定差异。

  ④新站点使用旧域名是否更有利?

  答:如果旧域名选择的目标网站内容与旧网站内容相关,在初期运营阶段会有帮助。如果内容不相关,而且这个域名历史上有很多不同类型的网站建立记录可能会适得其反。

  ⑤网站蜘蛛,有没有降低功耗的蜘蛛?

  答:百度蜘蛛IP段,没有提到掉电或者高权重。

  ⑥新网站不收录的主要因素是什么?

  回答:如果在新的企业网站上发布的大量内容与搜索结果中的现有内容高度同质,我们可能会降低抓取频率,甚至不会降低收录。

  总结:这次百度官方公布的网站抓取建设内容比较详细,基本解决了站长日常常见问题。对于上面的内容,我们认为最值得关注的一个细节是URL的长度不能超过200个字符。并且页面加载速度控制在2秒以内,仅供参考。

  转载蝙蝠侠IT需要授权!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线