抓取动态网页( 微信朋友圈的分析网页数据(一)_创做书籍)

优采云 发布时间: 2021-10-22 20:10

  抓取动态网页(

微信朋友圈的分析网页数据(一)_创做书籍)

  

  二、 即日起,在首页点击【创建图书】-->【微信】。互联网

  

  三、 点击【开始制作】-->【添加随机指定的图书编辑为好友】,长按二维码即可添加好友。框架

  四、 未来,我们会耐心等待微信出品。完成后,您会收到编辑器的消息提醒,如下图所示。刮的

  至此,我们已经完成了微信朋友圈的数据录入,并获得了外链。想法

  确保朋友圈设置为【全开】,默认全开,不知道怎么设置的请自行百度。工具

  

  五、 以后点击外链进入网页,需要使用微信扫码授权登录。

  六、扫码授权后,即可进入网页版微信,如下图。

  

  七、 接下来我们就可以写一个爬虫程序正常抓取信息了。这里,编辑器使用Scrapy爬虫框架,Python使用版本3,集成开发环境使用Pycharm。下图为微信首页,图片由编辑自行定制。

  

  2、创建爬虫项目

  一、确保您的计算机上安装了 Scrapy。选择文件夹后,在该文件夹下输入命令行,输入执行命令:

  scrapy startproject weixin_moment

  ,等待生成Scrapy爬虫项目。

  二、在命令行输入cd weixin_moment,进入创建好的weixin_moment目录。稍后输入命令:

  scrapy genspider'时刻''chushu.la'

  ,建立朋友圈爬虫,如下图所示。

  

  三、 执行以上两步后的文件夹结构如下:

  

  3、分析网络数据

  一、 进入微信首页,按F12,建议使用谷歌浏览器,查看元素,点击“网络”标签,然后勾选“保存日志”,即保存日志,如图在下图中。能够看到首页的请求方法是get,返回状态码为200,表示请求成功。

  

  二、点击“Response”(服务器响应),可以看到系统返回的数据是JSON格式的。这意味着我们需要在程序中处理JSON格式的数据。

  

  三、 点击微信“导航”窗口,可以看到数据按月加载。当导航按钮被点击时,它会加载相应月份的 Moments 数据。

  

  四、 点击【2014/04】月后可以查看服务器响应数据,可以看到页面显示的数据与服务器响应对应。

  

  五、查看请求方法,可以看到此时的请求方法已经变成了POST。细心的小伙伴可以看到,点击“下个月”或其他导航月份时,首页的网址保持不变,说明该网页是动态加载的。对比多个网页请求后,我们可以看到“Request Payload”下的数据包参数不断变化,如下图所示。

  

  六、展开服务器响应数据,将数据放入JSON在线解析器中,如下图所示:

  

  可以看到 Moments 的数据存储在 paras /data 节点下。

  至此,网页分析和数据来源已经确认。接下来,我将编写一个程序来捕获数据。敬请期待下一篇文章~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线