网页qq抓取什么原理(QQ好友说说爬虫技术(爬虫)-爬虫步骤详解)

优采云发布时间: 2022-03-16 11:08

　　自从上一篇文章你真的了解QQ空间里的“说话”吗？上线后，很多朋友都问小编如何爬取QQ空间的话题。今天，小编就来详细介绍一下。给大家介绍一下QQ好友，聊聊爬虫技术。通过本文章的学习，希望能给大家带来帮助。

　　本文将从基础知识介绍、QQ好友聊爬虫框架、爬虫详细步骤三个部分进行详细讲解。

　　一、基础知识介绍

　　小编爬QQ朋友说说使用Python语言，所以大家一定要有Python基础。另外，在爬取中还用到了 Python 的几个第三方库，分别是 requests 库和 BeautifulSoup 库。 pymysql库和matplotlib库用于数据存储和解析，所以你应该对这些库有一定的了解。

　　二、QQ好友聊爬虫框架

　　QQ好友聊爬虫的基本思路是利用浏览器已经登录的cookie实现爬虫登录，使用准备好的好友QQ账号将所有的好友聊HTML文件下载到本地文件系统，并在本地文件系统中解析HTML文件，提取信息并存储在MySql数据库中，最后自己分析MySql数据库中的信息。爬虫框架图如下。

　　三、爬虫步骤详解

　　3.1 获取所有好友QQ号

　　QQ邮箱有导出所有联系人的功能，所以我们可以使用QQ邮箱获取所有好友的QQ号。步骤如下：登录QQ邮箱-->点击右侧*敏*感*词*-->点击工具，选择导出联系人-->下载CSV文件。

　　3.2 获取浏览器登录的cookie

　　我们要使用浏览器已经登录的cookie来实现爬虫登录，都必须得到浏览器cookie。步骤如下：打开浏览器

　　--> 输入网站 --> 按F12打开浏览器的开发工具，切换到Network

　　--> 输入你的QQ号和密码登录--> 点击第一行，将请求头的cookie值复制到txt文件中。

　　3.3 爬上所有朋友聊聊

　　每个朋友的讨论页的url链接是/friends QQ号，所以我们必须先获取所有朋友的QQ号。读取csv文件，将所有好友的QQ号存入qnumber_list数组中。

　　（注意：/python/qqMoodCollect/QQmail.csv是csv文件路径，这里需要改一下文件路径）

　　下面是遍历qnumber_list数组，依次下载HTML文件到本地文件系统。

　　（get_moods()方法是下载HTML文件的方法，详见GetHub上的代码）

　　3.4 解析 HTML 文件

　　下载的HTML文件实际上是Json数据格式。我们可以利用Python内置的json库，轻松提取出我们想要的信息，最后存入MySql数据库。具体解析过程请参考get_mooddetail.py文件。

0

2022-03-16

网页qq抓取什么原理

0 个评论

要回复文章请先登录或注册