抓取网页数据违法吗(网站日志在哪(百度蜘蛛)的活跃度:抓取频率,以及抓取的频率)
优采云 发布时间: 2021-11-03 04:14抓取网页数据违法吗(网站日志在哪(百度蜘蛛)的活跃度:抓取频率,以及抓取的频率)
你的网站/网页是否被百度抓取以及抓取频率会影响你的排名。
01如何查看网站被抓包的状态?
首先我们要知道百度用来抓取网页的工具是Baiduspider(百度蜘蛛),它的动作会被记录在网站的日志中。我们可以从网站(百度蜘蛛)活动的日志中读取Baiduspider:抓取的频率和抓取后返回的HTTP状态码来查看网站被百度抓取的状态。所以下一步就是找到网站日志的内容。
02网站日志在哪里?如何查看
通常网站 日志文件位于管理后端的 logofiles 文件夹下。登录“FTP”账号,找到一个文件扩展名为.log的日志文件,下载并解压,将文件更改为记事本。这是网站日志,记录了网站是否被百度蜘蛛(Baidu Spider)爬取,爬取是否成功。
接下来,作者介绍了如何用这样一段代码进行日志分析。
示例:时间 GET /images/index5_22.gif-- IP 地址 HTTP/1.1 浏览器和操作系统 200 360
其中,“GET /images/index5_22.gif”表示:从服务器获取到“/images/index5_22.gif”
“此页面或文件;
HTTP/1.1 浏览器和操作系统200 360,代表:抓包后返回的状态(是否成功,抓包次数)
200,状态码,表示爬取成功;
360,volume,表示捕获了多少字节,360字节;
常见状态码
200:表示服务器成功接受了客户端请求。这是最好的,这意味着网站页面是正常的。
301:表示用户访问的某个页面经过了301重定向(永久)处理。
302:这是一个临时重定向。如果网站日志分析发现302太多,需要确认301是否误认为302,如果是,赶紧修改。搜索引擎不喜欢 302 重定向。
404:表示访问的页面不再存在,或者访问的URL完全错误。
500:服务器错误。
03 百度蜘蛛的活跃度:抓取频率是多少?
在每日日志中记录Baiduspider(百度蜘蛛)爬取网站的次数,然后比较多天的日志,确定Baiduspider(百度蜘蛛)当前的活跃度。活跃度越高,爬取越多,说明网站的优化是有效的,网站的排名自然会上升