网页抓取 加密html(西部网盘不能解析了怎么构造这条cookie其中一种?)
优采云 发布时间: 2021-10-03 13:04网页抓取 加密html(西部网盘不能解析了怎么构造这条cookie其中一种?)
有网友反映无法解析西部网盘。我确认网盘现在被限制爬取网页。网站 访问目前不稳定。根据情况,我们将尝试在下一个版本中修复它。
本来想用西部网盘写的,但是这个网盘打不开,先说彩虹云吧,一样的。
这个文章不是教程,所以会忽略一些内容
0、前言
无论是网盘分析还是各种网络爬虫,你都是先获取网页的源代码,然后再提取你感兴趣的内容。但这无疑损害了一些网站的利益,所以就会出现各种限制非客户端用户抓取网页的方法。本文提到的js加密cookie就是其中之一。
1、先看直接爬取的页面源码
<p>var x="hantom@@JgSe0upZ@@Path@02@GMT@f@@Sun@captcha@if@@@href@callP@@g@try@substr@DOMContentLoaded@as@@@Expires@@chars@@onreadystate
change@__jsl_clearance@new@0xFF@search@34@@window@@while@document@36@@@false@split@19@innerHTML@e@3D@8@function@location@setTimeout@attachEvent
@d@var@@0xEDB88320@length@2B@yF@addEventListener@@@charCodeAt@createElement@toLowerCase@@String@@cookie@1500@14@join@@@@__p@charAt@return@path
name@1559453654@Array@eval@@4@Jun@0@@catch@TmT2@@replace@@fromCharCode@@else@firstChild@@a@@FcG@oP@match@@WU@div@@reverse@challenge@06@toS
tring@RegExp@Oo4BUv@for@rOm9XFMtA3QKV7nYsPGT4lifyWwkq5vcjH2IdxUoCbhERLaz81DNB6@@@@https@1@2@@@@parseInt@FB@@932".replace(/@*$/,"").split("@"),
y="2b 39=26(){28('27.f=27.3e+27.1b.44(/[\\?|&]b-4l/,\\'\\')',35);1h.34='18=3f.5i|3l|'+(26(){2b e=[26(39){3d 39},26(e){3d e},
26(39){54(2b e=3l;e