网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)

优采云发布时间: 2022-01-02 16:18

　　网页qq抓取什么原理(

翻了翻之前关于QQ空间的登录问题并做可视化分析)

　　阅读之前关于爬虫的文章。 . .

　　好像一直在欺负肖网站，没什么挑战性。 . .

　　那就来一波TX“试水”吧~~~

　　本着T_T，slackness（懒惰）的原则，本期文章我决定分成两篇。第一篇主要解决QQ空间的登录问题，尝试抓取一些信息，第二篇专门抓取QQ空间好友的信息，做可视化分析。

　　让我们快乐开始吧~~~

　　开发工具

　　Python 版本：3.6.4

　　相关模块：

　　请求模块；

　　硒模块；

　　lxml 模块；

　　还有一些 Python 自带的模块。

　　环境设置

　　安装Python并添加到环境变量中，pip安装需要的相关模块，进入：

　　下载您使用的Chrome浏览器版本对应的驱动文件，下载后将chromedriver.exe所在文件夹添加到环境变量中。

　　原理介绍

　　本文主要解决QQ空间的登录问题。

　　主要思想是：

　　使用selenium模拟登录QQ空间，获取登录QQ空间所需的cookie值，从而可以使用requests模块抓取QQ空间的数据。

　　为什么会这样？

　　Selenium 好久没用了，写的太慢了。而且自身的速度、资源消耗等问题也被大家诟病。

　　并省略无数个理由。

　　一些细节：

　　(1）第一次获取后保存cookie，下次登录前尝试查看保存的cookie是否有用，如果有用就直接使用，这样可以进一步保存时间。

　　(2）在抓包分析过程中可以发现抓到QQ空间数据所需的链接中含有g_tk参数，这个参数其实是利用cookie中的skey参数计算出来的，所以我懒得玩公式了，贴一小段代码：

　　最后：

　　如果你不抓取一些数据，似乎并不能证明这个文章真的有用。

　　好的，然后输入：

　　捡起来~~~

　　具体实现过程请参考相关文件中的源代码。

　　使用演示

　　QQ号（用户名）和密码（密码）：

　　填写QQ_Spider.py文件，位置如下图：

　　运行：

　　只需在 cmd 窗口中运行 QQ_Spider.py 文件即可。

　　结果：

　　在此问题的基础上，抓取好友的个人信息，并对抓取结果进行可视化分析。有兴趣的朋友可以提前试试~~~

　　其实，微调本文提供的代码，理论上可以捕获QQ所有用户的信息。当然，这只是理论上的，并且做了很多有趣的事情。

　　作为一个不捣蛋不爱喝茶的男生，以上理论的实现我概不负责。

　　相关文档，关注+转发后回复“07”私信获取

0

2022-01-02

网页qq抓取什么原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)

0 个评论

发起人

AI时代内容工厂

网页qq抓取什么原理( 翻了翻之前关于QQ空间的登录问题并做可视化分析)

0 个评论

发起人

相关问题