seo网站日志分析工具(网站日志数据的分析如下(一)日志(二))
优采云 发布时间: 2021-09-15 23:02seo网站日志分析工具(网站日志数据的分析如下(一)日志(二))
网站日志可以用作工具或直接使用。如果您直接查看源文件,信息将更加完整网站log是以结尾的文件。日志,它记录各种原创信息,例如接收和处理请求和运行时错误的web服务器。具体来说,它应该是一个服务器日志
网站log的最大意义是记录网站operations中的空间操作和访问请求的记录。通过网站日志,您可以清楚地了解您的网站的哪个IP、什么时候、什么操作系统、什么浏览器、显示什么分辨率、哪个页面以及访问是否成功
大量关于网站日志的信息已经数字化或以图形方式显示在百度统计数据和百度网站管理员工具中,例如访问者访问了哪些文件以及蜘蛛抓取了哪些文件404.
网站log数据分析如下
(1)访问、停留时间和爬行)
从这些项目中,您可以看到每页提取的平均页数、单页爬网时间和每次停留的平均时间。每页平均爬网次数=爬网/访问总数,单页爬网时间=每次爬网次数/每次爬网次数,每次平均停留次数=总次数
从这些数据中,您可以看到爬行器的活动、网站affinity for spider、爬行深度、总捕获量、总访问量、平均爬行时间、总驻留时间、单页爬行、平均驻留时间和其他指标。网站越友好,网站质量越高,搜索引擎就越像。单页爬行时间代表网站页面长的访问速度和时间表明网站的访问速度较慢,这更不利于搜索引擎捕获和记录。我们应该努力提高页面加载速度,减少单页停留时间,让爬虫资源捕获更多的内容。此外,基于这些数据,我们还可以计算网站在一段时间内的总体趋势,如爬行器访问趋势、停留时间趋势和捕获趋势。对这些数据的长期观察可以起到评价优化效果的作用,及时发现哪些页面和目录表现得好或差,更接近搜索引擎,及时发现异常变化做出良好响应
(2)目录爬网统计)
通过日志分析,我们可以看到爬行器最喜欢的网站目录、爬网目录的深度、重要页面目录的爬网状态、无效页面目录的爬网状态等。通过比较页面爬网和目录中收录的情况,我们可以发现更多的问题。对于重要的目录,我们需要通过内部和外部调整来增加权重和爬行;对于无效页面,我们在robots.txt中阻止它们
另外,通过多日志统计,可以看到站点内外的行为对目录的影响,优化是否合理,是否达到了预期的效果。对于同一个目录,在很长一段时间内,我们可以看到目录下页面的性能,根据行为估计性能的原因,等等
(3)page-capture)
在网站log分析中,我们可以看到spider捕获的页面。在这些页面中,我们可以分析哪些页面需要捕获,哪些未采集的价值页面被捕获,哪些重复的web地址被捕获,等等。为了充分利用爬行器资源,我们需要在robots.txt中阻止这些地址
此外,我们还可以分析无人陪伴页面的原因。对于新的文章,这是因为它尚未被爬网但未被包括,或已爬网但未发布。对于一些没有太多意义的页面,我们可能需要它作为一个爬行通道。对于这些页面,我们应该使用Noindex标记,等等
(4)spider访问IP)
通过spider的IP段和前三个数据确定网站的功耗降低。更多地使用IP分析来确定是否存在采集的爬行器、伪造爬行器、恶意点击爬行器等,以防止和阻止对这些访问源的访问。节省带宽资源,减少服务器压力,使访问者和爬行器能够获得更好的访问体验
(5)访问状态代码)
爬行器经常出现的状态代码包括301404等。应及时处理这些状态代码,以避免对网站产生不利影响@
(6)捕捉时间段)
通过分析和比较一天中每小时爬行的蜘蛛数量,您可以了解网站特定蜘蛛在特定时间的特定时间。通过比较每周数据,您可以看到特定spider在一周内的活动周期。理解这一指导对网络的意义,而所谓小三大四是不科学的
(7)spider爬行路径)