内容分享:分享两款日志分析工具，光年日志和andiislog

优采云发布时间: 2022-10-17 03:10

　　下面简单介绍一下这两个网站日志工具。iislog比较简单，日志分析很清楚。你可以看到下图。iislog可以清晰的看到蜘蛛的访问时间、蜘蛛类型、蜘蛛IP、链接方式、服务器返回的代码，最后一目了然蜘蛛的访问地址网站。

　　分享两个iis网站日志分析工具 Lightyear日志分析工具和iislog日志分析工具

　　光年测井分析工具在分析的数据上更加精细。在汇总分析中，可以看到每个搜索引擎蜘蛛的访问次数、总停留时间（小时）、总爬取量以及占比。还可以查看你的网站的哪些目录和页面被蜘蛛爬取，并给出各个搜索引擎的蜘蛛IP爬取量排名，让你更了解访问蜘蛛，方便每个搜索引擎的SEO搜索引擎。调整。

　　光年测井分析教程：

　　光年日志分析工具中的关键词分析比较花瓶，我经常在没有数据的情况下使用，是个摆设。最后的状态码分析很有用，也是我使用光年日志分析工具的主要原因。这里可以看到用户和蜘蛛访问网站后返回的状态码和对应页面，这里可以很清楚的知道蜘蛛和用户访问你的网站时的体验水平，比如哪些页面或文件无法打开，会在此处记录相应的返回404状态码的页面和文件。

　　分享两个iis网站日志分析工具 Lightyear日志分析工具和iislog日志分析工具

　　我喜欢结合使用以上两个工具，这样分析出来的数据更准确

　　内容分享:搜索关键词采集YouTube视频字幕

　　使用 python采集YouTube 视频字幕

　　本博客纯干货！！！

　　最近接到了领导安排的采集任务，拍摄采集全球最大视频分享网站YouTube的视频字幕。

　　分析目标网站并开始抓包

　　当我打开视频链接并点击显示字幕按钮时，通过浏览器捕获了一个类似timedtext的请求，返回的内容就是我想要的数据——每个时间点的字幕。

　　解析视频ID、签名、key、过期等参数的URL，每次签名变化时，开始通过js突破参数。该过程在此不作详细描述。

　　终于在视频源码中找到了这样一个js

　　"playerCaptionsTracklistRenderer\":{\"captionTracks\":[{\"baseUrl\":\"https:\/\/www.youtube.com\/api\/timedtext?xorp=True\u0026signature=DC15F46CCF5A97B616CFF6EA13626BC34E24B848.454E61B37E4E1AE37BF2C83F311D8EB362B165AA\u0026hl=zh-CN\u0026sparams=caps%2Cv%2Cxoaf%2Cxorp%2Cexpire\u0026expire=1566051203\u0026caps=\u0026key=yttt1\u0026xoaf=1\u0026v=7j0xuYKZO4g\u0026lang=en\u0026name=English\",

　　原来我一直试图解析的 URL 暴露在源代码中。格式化代码后知道是json字符串，json里面有很多视频信息，比如发布时间、标题、介绍、点击量等；兴奋的？

　　接下来，通过正则表达式匹配所需的 URL

　　ytplayer_config = json.loads(re.search('ytplayer.config\s*=\s*([^\n]+?});', response.text).group(1))

caption_tracks = json.loads(ytplayer_config['args']['player_response'])['captions']['playerCaptionsTracklistRenderer']['captionTracks']

for c in caption_tracks:

url = c["baseUrl"] # 在url后拼接上&tlang=zh-Hans返回的字幕为中文，&tlang=en-Hans返回的字幕为英文

　　最后通过解析python请求得到字幕URL，得到字幕数据。你完成了

　　只有带字幕的视频才会有baseUrl的值，没有字幕的视频会报异常。

　　YouTube 列表翻页

　　字幕解析完毕，下一步批量处理采集需要的视频字幕。

　　需要：

　　通过搜索采集结果中所有字幕。

　　分析：

　　视频翻页是基于ajax请求来的，源码里面的信息始终都是第一页的数据，

ok 那既然这样，我们来分析ajax请求，我喜欢用谷歌浏览器，打开开发者工具，network，来抓包。

鼠标一直往下拉，会自动请求，是个post请求，一看就是返回的视频信息。

　　很高兴看到这一点，离胜利不远了。不过，我们先看看headers和send post参数，然后再说wtf。. .

　　一万只羊驼在奔跑。我标记了所有加密的参数。前端和后端交互。既然是过去发送的数据，那肯定是在前端生成的。至于发生了什么，会一步步分析。，最后。我没有分析。. . 刚开始查看旁边的js文件，参数确实是js生成的，但是。. . tmd 写得太复杂了。. . 能力有限，无法解决。你刚刚放弃了吗？当然不是，否则你不会看到这个文章。于是，我灵机一动，在地址栏输入&page=，结果果然返回了视频。. . 哈哈哈，当时真的很开心。因为前端页面没有翻页按钮，所以没想到居然会这样翻页。. . 哈哈

　　下一步就是匹配每个页面上的视频链接——访问——获取字幕

　　回家吃饭睡觉

　　感谢收看！

0

2022-10-17

seo网站日志分析工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容分享:分享两款日志分析工具，光年日志和andiislog

0 个评论

发起人

AI时代内容工厂

内容分享:分享两款日志分析工具，光年日志和andiislog

0 个评论

发起人

相关问题