网页qq抓取什么原理(QQ好友说说爬虫技术(爬虫)-爬虫步骤详解)
优采云 发布时间: 2022-03-16 11:08网页qq抓取什么原理(QQ好友说说爬虫技术(爬虫)-爬虫步骤详解)
自从上一篇文章你真的了解QQ空间里的“说话”吗?上线后,很多朋友都问小编如何爬取QQ空间的话题。今天,小编就来详细介绍一下。给大家介绍一下QQ好友,聊聊爬虫技术。通过本文章的学习,希望能给大家带来帮助。
本文将从基础知识介绍、QQ好友聊爬虫框架、爬虫详细步骤三个部分进行详细讲解。
一、基础知识介绍
小编爬QQ朋友说说使用Python语言,所以大家一定要有Python基础。另外,在爬取中还用到了 Python 的几个第三方库,分别是 requests 库和 BeautifulSoup 库。 pymysql库和matplotlib库用于数据存储和解析,所以你应该对这些库有一定的了解。
二、QQ好友聊爬虫框架
QQ好友聊爬虫的基本思路是利用浏览器已经登录的cookie实现爬虫登录,使用准备好的好友QQ账号将所有的好友聊HTML文件下载到本地文件系统,并在本地文件系统中解析HTML文件,提取信息并存储在MySql数据库中,最后自己分析MySql数据库中的信息。爬虫框架图如下。
三、爬虫步骤详解
3.1 获取所有好友QQ号
QQ邮箱有导出所有联系人的功能,所以我们可以使用QQ邮箱获取所有好友的QQ号。步骤如下:登录QQ邮箱-->点击右侧*敏*感*词*-->点击工具,选择导出联系人-->下载CSV文件。
3.2 获取浏览器登录的cookie
我们要使用浏览器已经登录的cookie来实现爬虫登录,都必须得到浏览器cookie。步骤如下:打开浏览器
--> 输入网站 --> 按F12打开浏览器的开发工具,切换到Network
--> 输入你的QQ号和密码登录--> 点击第一行,将请求头的cookie值复制到txt文件中。
3.3 爬上所有朋友聊聊
每个朋友的讨论页的url链接是/friends QQ号,所以我们必须先获取所有朋友的QQ号。读取csv文件,将所有好友的QQ号存入qnumber_list数组中。
(注意:/python/qqMoodCollect/QQmail.csv是csv文件路径,这里需要改一下文件路径)
下面是遍历qnumber_list数组,依次下载HTML文件到本地文件系统。
(get_moods()方法是下载HTML文件的方法,详见GetHub上的代码)
3.4 解析 HTML 文件
下载的HTML文件实际上是Json数据格式。我们可以利用Python内置的json库,轻松提取出我们想要的信息,最后存入MySql数据库。具体解析过程请参考get_mooddetail.py文件。