文章采集调用(1.用python爬取代理批量采集实现方法:anyproxy+js)
优采云 发布时间: 2022-04-11 13:02文章采集调用(1.用python爬取代理批量采集实现方法:anyproxy+js)
微信公众号文章爬取方法整理1.用python爬取
php
实现方法:通过微信提供的公众号文章调用接口,实现抓取公众号文章html的功能
步骤:java
1.需要安装python selenium模块包,使用selenium中的webdriver驱动浏览器获取cookies,达到登录的效果;Python
2.使用webdriver功能需要安装对应浏览器的驱动插件。我在这里使用谷歌浏览器进行测试:
谷歌浏览器版本是 52.0.2743.6 ;
chromedriver版本为:V2.23
注意:谷歌浏览器版本和chromedriver需要对应,否则启动时会报错。【附:selenium的chromedriver和chrome版本映射表(更新为v2.30))】web
3.微信公众号登录地址:chrome
4.微信公众号文章界面地址可以在微信公众号后台创建图文信息,从超链接函数中获取:数据库
5.搜索公众号api
6.获取要爬取公众号的fakeid浏览器
7.选择要爬取的公众号,获取文章接口地址微信
8.文章列表翻页和内容获取
2.AnyProxy 代理批量采集
实现方式:anyproxy+js
实现方式:anyproxy+java+webmagic
3.FiddlerCore
实现方式:抓包工具,Fiddler4
经过多个账号的抓包分析,可以确认:
_biz:这个14位的字符串是每一个公众号的“id”,搜狗的微信平台能够得到
uin:与访问者有关,微信号id
key:和所访问的公众号有关
步:
1、编写按钮向导脚本,在手机端自动点击公众号文章的列表页面,即“查看历史消息”;
2、使用fiddler代理劫持手机访问,将URL转发到php编写的本地网页;
3、将接收到的URL备份到php网页上的数据库中;
4、使用python从数据库中检索URL,然后进行正常爬取。
在爬升过程中发现了一个问题:
如果只是想爬文章的内容,貌似没有访问频率限制,但是如果你想爬读点赞数,达到一定频率后,返回值会变成null,我设置的时间间隔为10秒,可以正常取到。在这个频率下,一个小时只能取到 360 条,没有实际意义。
4.青波新榜
如果你只是想看数据,你可以不花钱只看每日清单。如果你需要访问自己的系统,他们也提供了一个api接口