python抓取动态网页(微信朋友圈的数据入口搞定了,获取外链的消息提醒)
优采云 发布时间: 2022-03-18 16:22python抓取动态网页(微信朋友圈的数据入口搞定了,获取外链的消息提醒)
2、然后点击首页的【创建图书】-->【微信图书】。
4、之后,耐心等待微信书制作完成。完成后会收到小编发送的消息提醒,如下图所示。
至此,我们完成了微信朋友圈的数据录入,并获得了外链。
确保朋友圈设置为[全部打开]。默认是全部打开。如果不知道怎么设置,请百度。
5、点击外部链接,然后进入网页,需要使用微信扫码授权登录。
6、扫码授权后,即可进入微信书网页版,如下图。
7、接下来,我们就可以编写爬虫程序来正常爬取信息了。这里小编使用Scrapy爬虫框架,Python使用版本3,集成开发环境使用Pycharm。下图为微信书首页,图片由小编定制。
二、创建爬虫项目
1、确保您的计算机上安装了 Scrapy。然后选择一个文件夹,在文件夹下输入命令行,输入执行命令:
,等待生成Scrapy爬虫项目。
scrapy genspider 'moment' 'chushu.la'
,创建朋友圈爬虫,如下图。
3、执行上述两步后的文件夹结构如下:
三、分析网络数据
2、点击“Response”(服务器响应),可以看到系统返回的数据是JSON格式的。说明后面我们需要在程序中处理JSON格式的数据。
3、点击微信书的“导航”窗口,可以看到数据是按月加载的。单击导航按钮时,它会加载相应月份的 Moments 数据。
4、点击月份[2014/04],再查看服务器响应数据,可以看到页面显示的数据对应服务器响应。
5、查看请求方式,可以看到此时的请求方式已经变成了POST。细心的小伙伴可以看到,当点击“下个月”或者其他导航月份时,首页的URL没有变化,说明网页是动态加载的。对比多个网页请求后,我们可以看到“Request Payload”下的数据包参数在不断变化,如下图所示。
6、将服务器响应的数据展开,并放入JSON在线解析器中,如下图所示:
可以看到朋友圈的数据是存放在paras /data节点下的。
至此,网页分析和数据的来源已经确定。接下来,我们将编写一个程序来捕获数据。敬请期待下一篇文章~~
看完这篇文章你有收获吗?请转发并分享给更多人
Python爬虫和数据挖掘