百度搜索引擎优化白皮书(3网站优化3.1抓取友好性关于优先级的重点强调(图))
优采云 发布时间: 2022-03-15 14:00百度搜索引擎优化白皮书(3网站优化3.1抓取友好性关于优先级的重点强调(图))
以下是内容详情:
3 网站优化
3.1 抓取友好度
关于爬取的优先级,这里强调一下:
√ 网站更新频率:频繁更新高价值网站,优先爬取
√ 人气:用户体验好的网站会被优先爬取
√ 优质入口:优质站内链接,优先抓取
√ 历史捕获效果越好,优先捕获越高
√ 稳定服务器,优先抢
√ 网站 有优质安全记录,抢占先机
平滑稳定的爬取是网站获取搜索用户和搜索流量的重要前提,影响爬取的关键因素,站长可以通过本章了解。
3.1.1 网址规范
网站的URL如何设置,请参考2.3.1中的URL设置规范
3.1.1.1 个参数
URL中的参数放置需要遵循两点:
√ 参数不要太复杂
√ 不要使用无效参数。无效的参数会导致页面识别问题,页面内容不会在搜索中显示。
此外,很多站长使用参数(参数对搜索引擎和页面内容无效)来统计网站访问行为。这里要强调的是,这种形式的资源尽量不要出现,比如:
要么:
;NTESnmtpSI=-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight
3.1.2 链接发现
3.1.2.1 百度蜘蛛
很多站长会问怎么判断百度手机蜘蛛。这里推荐一个方法:只需两步就能正确识别百度蜘蛛
查看 UA
如果UA错了,可以直接判断不是百度搜索的蜘蛛。到目前为止已宣布的 UA 是:
移动 UA 1:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) 版本/5.1 Mobile Safari/10600.6.3(兼容;Baiduspider/2.0;+ search/spider.html)
移动 UA 2:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 像 Mac OS X) AppleWebKit/601.1.46 (KHTML, 像 Gecko) 版本/9.0 移动/ 13B143Safari /601.1
(兼容;百度蜘蛛渲染/2.0;+)
个人计算机 UA 1:
Mozilla/5.0 (兼容;百度蜘蛛/2.0;+)
个人计算机 UA 2:
Mozilla/5.0(兼容;Baiduspider-render/2.0;+spider.html)
检查IP
站长可以通过DNS反查IP判断蜘蛛是否来自百度搜索引擎。不同平台的验证方式不同。例如Linux/Windows/OS三种平台下的验证方式如下:
Linux平台下,可以使用hostip命令反向IP判断是否是从百度蜘蛛爬取的。百度蜘蛛的主机名以 *. 格式,如果不是 *. 是模仿。
这里我们需要说明一点。建议使用DNS替换成8.8.8. 8 然后进行反向nslookup解析,否则容易无返回或返回错误。
在Windows平台上,可以使用nslookup ip命令反向IP判断是否是从百度蜘蛛爬取的。打开命令处理器,输入nslookup xxx.xxx.xxx.xxx(IP地址)解析IP,判断是否是从百度蜘蛛爬取的。百度蜘蛛的主机名以*.的格式命名,如果不是*. 是模仿。
在Mac OS平台下,网站可以使用dig命令破译IP来判断是否是从百度蜘蛛爬取的。打开命令处理器,输入dig xxx.xxx.xxx.xxx(IP地址)解析IP,判断是否是从百度蜘蛛爬取的。百度蜘蛛的主机名以*.的格式命名,如果不是*. 是模仿。
3.1.2.2链接提交
链接提交工具是网站主动向百度搜索推送数据的工具。网站使用链接提交可以缩短爬虫发现网站链接的时间。目前,链接提交工具支持四种提交方式:
√ 主动推送:最快的提交方式。建议立即通过此方式将站点的新输出链接推送至百度,以保证新链接能被百度及时抓取。
√ Sitemap:网站可以定期将网站链接放入Sitemap,然后将Sitemap提交给百度。百度会定期对提交的Sitemap进行爬取检查,并对其中的链接进行处理,但爬取速度比主动推送慢。
√ 手动提交:如果不想通过程序提交,可以通过这种方式手动提交链接到百度。
√ 自动推送:轻量级的链接提交组件。自动推送的 JS 代码放置在网站各个页面的源码中。当页面被访问时,页面链接会自动推送给百度,有利于新页面快速被百度接受。发现。
简单来说:建议有新闻属性的网站使用主动推送进行数据提交;新的验证平台站点,或者对内容没有时效要求的站点,可以使用Sitemap提交网站所有使用Sitemap的内容;技术能力弱,或者网站对于内容较少的网站,可以手动提交数据;最后,还可以使用插件模式自动推送数据到百度