网页抓取 加密html(西部网盘不能解析了怎么构造这条cookie其中一种?)
优采云 发布时间: 2022-01-26 17:08网页抓取 加密html(西部网盘不能解析了怎么构造这条cookie其中一种?)
有网友反映无法解析西部网盘。确认后,现在限制网盘抓取网页。网站目前访问不稳定,视情况而定,争取下个版本修复。
本来想写在西部网盘上的,但是这个网盘打不开,先说彩虹云吧,都一样。
这个文章不是教程,所以有些内容会被忽略
0、前言
不管是网盘分析还是各种网络爬虫,都是先获取网页的源代码,然后再提取自己感兴趣的内容。但这无疑会损害一些网站的利益,所以会有限制非客户端用户抓取网页的各种手段。本文提到的js加密cookie就是其中之一。
1、我们先来看看直接爬取页面的源码是什么样子的
<p>var x="hantom@@JgSe0upZ@@Path@02@GMT@f@@Sun@captcha@if@@@href@callP@@g@try@substr@DOMContentLoaded@as@@@Expires@@chars@@onreadystate
change@__jsl_clearance@new@0xFF@search@34@@window@@while@document@36@@@false@split@19@innerHTML@e@3D@8@function@location@setTimeout@attachEvent
@d@var@@0xEDB88320@length@2B@yF@addEventListener@@@charCodeAt@createElement@toLowerCase@@String@@cookie@1500@14@join@@@@__p@charAt@return@path
name@1559453654@Array@eval@@4@Jun@0@@catch@TmT2@@replace@@fromCharCode@@else@firstChild@@a@@FcG@oP@match@@WU@div@@reverse@challenge@06@toS
tring@RegExp@Oo4BUv@for@rOm9XFMtA3QKV7nYsPGT4lifyWwkq5vcjH2IdxUoCbhERLaz81DNB6@@@@https@1@2@@@@parseInt@FB@@932".replace(/@*$/,"").split("@"),
y="2b 39=26(){28('27.f=27.3e+27.1b.44(/[\\?|&]b-4l/,\\'\\')',35);1h.34='18=3f.5i|3l|'+(26(){2b e=[26(39){3d 39},26(e){3d e},
26(39){54(2b e=3l;e