百度搜索引擎优化白皮书(3网站优化3.1抓取友好性关于优先级的重点强调(图))

优采云 发布时间: 2022-03-15 14:00

  百度搜索引擎优化白皮书(3网站优化3.1抓取友好性关于优先级的重点强调(图))

  以下是内容详情:

  3 网站优化

  3.1 抓取友好度

  关于爬取的优先级,这里强调一下:

  √ 网站更新频率:频繁更新高价值网站,优先爬取

  √ 人气:用户体验好的网站会被优先爬取

  √ 优质入口:优质站内链接,优先抓取

  √ 历史捕获效果越好,优先捕获越高

  √ 稳定服务器,优先抢

  √ 网站 有优质安全记录,抢占先机

  平滑稳定的爬取是网站获取搜索用户和搜索流量的重要前提,影响爬取的关键因素,站长可以通过本章了解。

  3.1.1 网址规范

  网站的URL如何设置,请参考2.3.1中的URL设置规范

  3.1.1.1 个参数

  URL中的参数放置需要遵循两点:

  √ 参数不要太复杂

  √ 不要使用无效参数。无效的参数会导致页面识别问题,页面内容不会在搜索中显示。

  此外,很多站长使用参数(参数对搜索引擎和页面内容无效)来统计网站访问行为。这里要强调的是,这种形式的资源尽量不要出现,比如:

  要么:

  ;NTESnmtpSI=-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight

  3.1.2 链接发现

  3.1.2.1 百度蜘蛛

  很多站长会问怎么判断百度手机蜘蛛。这里推荐一个方法:只需两步就能正确识别百度蜘蛛

  查看 UA

  如果UA错了,可以直接判断不是百度搜索的蜘蛛。到目前为止已宣布的 UA 是:

  移动 UA 1:

  Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) 版本/5.1 Mobile Safari/10600.6.3(兼容;Baiduspider/2.0;+ search/spider.html)

  移动 UA 2:

  Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 像 Mac OS X) AppleWebKit/601.1.46 (KHTML, 像 Gecko) 版本/9.0 移动/ 13B143Safari /601.1

  (兼容;百度蜘蛛渲染/2.0;+)

  个人计算机 UA 1:

  Mozilla/5.0 (兼容;百度蜘蛛/2.0;+)

  个人计算机 UA 2:

  Mozilla/5.0(兼容;Baiduspider-render/2.0;+spider.html)

  检查IP

  站长可以通过DNS反查IP判断蜘蛛是否来自百度搜索引擎。不同平台的验证方式不同。例如Linux/Windows/OS三种平台下的验证方式如下:

  Linux平台下,可以使用hostip命令反向IP判断是否是从百度蜘蛛爬取的。百度蜘蛛的主机名以 *. 格式,如果不是 *. 是模仿。

  

  这里我们需要说明一点。建议使用DNS替换成8.8.8. 8 然后进行反向nslookup解析,否则容易无返回或返回错误。

  在Windows平台上,可以使用nslookup ip命令反向IP判断是否是从百度蜘蛛爬取的。打开命令处理器,输入nslookup xxx.xxx.xxx.xxx(IP地址)解析IP,判断是否是从百度蜘蛛爬取的。百度蜘蛛的主机名以*.的格式命名,如果不是*. 是模仿。

  在Mac OS平台下,网站可以使用dig命令破译IP来判断是否是从百度蜘蛛爬取的。打开命令处理器,输入dig xxx.xxx.xxx.xxx(IP地址)解析IP,判断是否是从百度蜘蛛爬取的。百度蜘蛛的主机名以*.的格式命名,如果不是*. 是模仿。

  3.1.2.2链接提交

  链接提交工具是网站主动向百度搜索推送数据的工具。网站使用链接提交可以缩短爬虫发现网站链接的时间。目前,链接提交工具支持四种提交方式:

  √ 主动推送:最快的提交方式。建议立即通过此方式将站点的新输出链接推送至百度,以保证新链接能被百度及时抓取。

  √ Sitemap:网站可以定期将网站链接放入Sitemap,然后将Sitemap提交给百度。百度会定期对提交的Sitemap进行爬取检查,并对其中的链接进行处理,但爬取速度比主动推送慢。

  √ 手动提交:如果不想通过程序提交,可以通过这种方式手动提交链接到百度。

  √ 自动推送:轻量级的链接提交组件。自动推送的 JS 代码放置在网站各个页面的源码中。当页面被访问时,页面链接会自动推送给百度,有利于新页面快速被百度接受。发现。

  简单来说:建议有新闻属性的网站使用主动推送进行数据提交;新的验证平台站点,或者对内容没有时效要求的站点,可以使用Sitemap提交网站所有使用Sitemap的内容;技术能力弱,或者网站对于内容较少的网站,可以手动提交数据;最后,还可以使用插件模式自动推送数据到百度

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线