网页抓取 加密html(网页抓取加密html文本解密网页加密不是html而是加密服务器)

优采云 发布时间: 2021-12-06 12:02

  网页抓取 加密html(网页抓取加密html文本解密网页加密不是html而是加密服务器)

  网页抓取加密html文本解密网页加密不是html,而是加密服务器返回给你的html页面,而解密是修改加密服务器返回给你的html页面。在加密状态下,你可以修改html页面的内容,只要加密服务器同意你修改,而解密状态下不行,解密服务器只提供加密校验解密密钥。

  ssl的原理就是数据包加密,密钥交换。抓包可以看到,抓包在d:\programdata\spidermonkey\spidermonkey.exe中,

  网页加密的时候,拿到页面后都会通过cookie一类的方式记录下来的,然后cookie用于提取到相关的域名和密码,比如yelp的requests,lookup,post的时候都可以返回用户名,然后服务器根据用户名和密码把返回的内容存到cookie里。抓包的时候只是*敏*感*词*https加密内容,不抓取其他流量。

  加密内容的拿到后可以反向解密。其实做cookie就好了,可以考虑网页html代码里有cookie的,可以做p2p。

  我测试的时候,手机app有时候会提示你最近登录,这个并不是你机器本身登录后这样提示,是被动方会对一些比较熟悉这个页面的人发送http状态消息,比如你曾经给某公司发过200请求的,他就会记住你这个账号,今后请求多次会直接返回这个状态消息,而你不一定每次访问这个页面都会接受这个消息,所以他们就可以猜你可能要求他们发送一些特定的http状态消息,让他们自己主动去发送这个状态消息到你这。

  加密解密是将抓取的数据包设置一个代理去解析网页内容。比如通过https的链接会安装下代理,在发送之前会做一个解密处理,使得抓取到的资源加密后去服务器返回信息。同理,对非https端口,用代理的时候不需要设置代理。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线