php网页抓取乱码(木庄网络博客:发送给服务器的请求连接的数据不同)

优采云 发布时间: 2022-01-25 23:12

  php网页抓取乱码(木庄网络博客:发送给服务器的请求连接的数据不同)

  本文摘自php中文网,作者负一度,侵删。

  为什么会这样?细心的童鞋可能会发现我们发送给服务器进行请求连接的数据是不一样的:

  第一张图片的信息是{"roomid":98284,"uid":2770}

  第二张图片的信息是{"uid":2767,"protoover":2,"roomid":98284}

  roomid是真实的房间号,uid是随机生成的一串数字,可以直接复制登录。

  相比之下,第二个有更多的“protover”:2个参数。其实第一张图是截取手机客户端的数据包,第二张图是截取电脑网页的数据包。那么是否有这个“protoover”:2个参数可以连接弹幕服务器。

  所以我们可以推断,最容易抓取的数据是手机,其次是wap,最后是电脑。

  

  

  但是很多时候我们抓包数据都是如图2所示的一串乱码,不管用utf8还是gbk编码,都达不到图1所示的效果。

  这种数据其实是压缩数据gzip,目前wireshark不支持这种压缩数据的解压方式。

  现在网站传输的时候基本都是压缩的,所以你抓的数据是压缩数据,在你看来完全是乱码,没办法下手。

  如图所示,当我访问我的博客首页时,爬虫服务器发回的网页数据是gzip方式的,我们平时访问的网页被浏览器解压渲染呈现给我们。

  由于分析B站服务器传输的是gzip数据,所以解决方法很简单。安装第三方的zlib包或者gzip包可以解决这个问题。

  

  

  以上是抓包数据乱码是什么情况?更多详情请关注php中文网文章其他相关话题!

  欢迎分享,(木庄网博客交流QQ群:562366239)

  转载请注明出处:木庄网博客 » 抓包数据乱码是什么情况?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线