内容分享:分享两款日志分析工具,光年日志和andiislog
优采云 发布时间: 2022-10-17 03:10内容分享:分享两款日志分析工具,光年日志和andiislog
下面简单介绍一下这两个网站日志工具。iislog比较简单,日志分析很清楚。你可以看到下图。iislog可以清晰的看到蜘蛛的访问时间、蜘蛛类型、蜘蛛IP、链接方式、服务器返回的代码,最后一目了然蜘蛛的访问地址网站。
分享两个iis网站日志分析工具 Lightyear日志分析工具和iislog日志分析工具
光年测井分析工具在分析的数据上更加精细。在汇总分析中,可以看到每个搜索引擎蜘蛛的访问次数、总停留时间(小时)、总爬取量以及占比。还可以查看你的网站的哪些目录和页面被蜘蛛爬取,并给出各个搜索引擎的蜘蛛IP爬取量排名,让你更了解访问蜘蛛,方便每个搜索引擎的SEO搜索引擎。调整。
光年测井分析教程:
光年日志分析工具中的关键词分析比较花瓶,我经常在没有数据的情况下使用,是个摆设。最后的状态码分析很有用,也是我使用光年日志分析工具的主要原因。这里可以看到用户和蜘蛛访问网站后返回的状态码和对应页面,这里可以很清楚的知道蜘蛛和用户访问你的网站时的体验水平,比如哪些页面或文件无法打开,会在此处记录相应的返回404状态码的页面和文件。
分享两个iis网站日志分析工具 Lightyear日志分析工具和iislog日志分析工具
我喜欢结合使用以上两个工具,这样分析出来的数据更准确
使用 python采集YouTube 视频字幕
本博客纯干货!!!
最近接到了领导安排的采集任务,拍摄采集全球最大视频分享网站YouTube的视频字幕。
分析目标网站并开始抓包
当我打开视频链接并点击显示字幕按钮时,通过浏览器捕获了一个类似timedtext的请求,返回的内容就是我想要的数据——每个时间点的字幕。
解析视频ID、签名、key、过期等参数的URL,每次签名变化时,开始通过js突破参数。该过程在此不作详细描述。
终于在视频源码中找到了这样一个js
"playerCaptionsTracklistRenderer\":{\"captionTracks\":[{\"baseUrl\":\"https:\/\/www.youtube.com\/api\/timedtext?xorp=True\\u0026signature=DC15F46CCF5A97B616CFF6EA13626BC34E24B848.454E61B37E4E1AE37BF2C83F311D8EB362B165AA\\u0026hl=zh-CN\\u0026sparams=caps%2Cv%2Cxoaf%2Cxorp%2Cexpire\\u0026expire=1566051203\\u0026caps=\\u0026key=yttt1\\u0026xoaf=1\\u0026v=7j0xuYKZO4g\\u0026lang=en\\u0026name=English\",
原来我一直试图解析的 URL 暴露在源代码中。格式化代码后知道是json字符串,json里面有很多视频信息,比如发布时间、标题、介绍、点击量等;兴奋的?
接下来,通过正则表达式匹配所需的 URL
ytplayer_config = json.loads(re.search('ytplayer.config\s*=\s*([^\n]+?});', response.text).group(1))
caption_tracks = json.loads(ytplayer_config['args']['player_response'])['captions']['playerCaptionsTracklistRenderer']['captionTracks']
for c in caption_tracks:
url = c["baseUrl"] # 在url后拼接上&tlang=zh-Hans返回的字幕为中文,&tlang=en-Hans返回的字幕为英文
最后通过解析python请求得到字幕URL,得到字幕数据。你完成了
只有带字幕的视频才会有baseUrl的值,没有字幕的视频会报异常。
YouTube 列表翻页
字幕解析完毕,下一步批量处理采集需要的视频字幕。
需要:
通过搜索采集结果中所有字幕。
分析:
视频翻页是基于ajax请求来的,源码里面的信息始终都是第一页的数据,
ok 那既然这样,我们来分析ajax请求,我喜欢用谷歌浏览器,打开开发者工具,network,来抓包。
鼠标一直往下拉,会自动请求,是个post请求,一看就是返回的视频信息。
很高兴看到这一点,离胜利不远了。不过,我们先看看headers和send post参数,然后再说wtf。. .
一万只羊驼在奔跑。我标记了所有加密的参数。前端和后端交互。既然是过去发送的数据,那肯定是在前端生成的。至于发生了什么,会一步步分析。,最后。我没有分析。. . 刚开始查看旁边的js文件,参数确实是js生成的,但是。. . tmd 写得太复杂了。. . 能力有限,无法解决。你刚刚放弃了吗?当然不是,否则你不会看到这个文章。于是,我灵机一动,在地址栏输入&page=,结果果然返回了视频。. . 哈哈哈,当时真的很开心。因为前端页面没有翻页按钮,所以没想到居然会这样翻页。. . 哈哈
下一步就是匹配每个页面上的视频链接——访问——获取字幕
回家吃饭睡觉
感谢收看!