网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)
优采云 发布时间: 2022-01-02 16:18网页qq抓取什么原理(
翻了翻之前关于QQ空间的登录问题并做可视化分析)
阅读之前关于爬虫的文章。 . .
好像一直在欺负肖网站,没什么挑战性。 . .
那就来一波TX“试水”吧~~~
本着T_T,slackness(懒惰)的原则,本期文章我决定分成两篇。第一篇主要解决QQ空间的登录问题,尝试抓取一些信息,第二篇专门抓取QQ空间好友的信息,做可视化分析。
让我们快乐开始吧~~~
开发工具
Python 版本:3.6.4
相关模块:
请求模块;
硒模块;
lxml 模块;
还有一些 Python 自带的模块。
环境设置
安装Python并添加到环境变量中,pip安装需要的相关模块,进入:
下载您使用的Chrome浏览器版本对应的驱动文件,下载后将chromedriver.exe所在文件夹添加到环境变量中。
原理介绍
本文主要解决QQ空间的登录问题。
主要思想是:
使用selenium模拟登录QQ空间,获取登录QQ空间所需的cookie值,从而可以使用requests模块抓取QQ空间的数据。
为什么会这样?
Selenium 好久没用了,写的太慢了。而且自身的速度、资源消耗等问题也被大家诟病。
并省略无数个理由。
一些细节:
(1)第一次获取后保存cookie,下次登录前尝试查看保存的cookie是否有用,如果有用就直接使用,这样可以进一步保存时间。
(2)在抓包分析过程中可以发现抓到QQ空间数据所需的链接中含有g_tk参数,这个参数其实是利用cookie中的skey参数计算出来的,所以我懒得玩公式了,贴一小段代码:
最后:
如果你不抓取一些数据,似乎并不能证明这个文章真的有用。
好的,然后输入:
捡起来~~~
具体实现过程请参考相关文件中的源代码。
使用演示
QQ号(用户名)和密码(密码):
填写QQ_Spider.py文件,位置如下图:
运行:
只需在 cmd 窗口中运行 QQ_Spider.py 文件即可。
结果:
在此问题的基础上,抓取好友的个人信息,并对抓取结果进行可视化分析。有兴趣的朋友可以提前试试~~~
其实,微调本文提供的代码,理论上可以捕获QQ所有用户的信息。当然,这只是理论上的,并且做了很多有趣的事情。
作为一个不捣蛋不爱喝茶的男生,以上理论的实现我概不负责。
相关文档,关注+转发后回复“07”私信获取