文章采集调用(1.用python爬取实现方法:anyproxy+java+webmagic3.FiddlerCore)
优采云 发布时间: 2021-11-10 11:06文章采集调用(1.用python爬取实现方法:anyproxy+java+webmagic3.FiddlerCore)
微信公众号文章爬取方法用python组织1.爬取
实现方法:通过微信提供的公众号文章调用接口,实现爬取公众号文章的功能
步:
1.需要安装python selenium模块包,使用selenium中的webdriver驱动浏览器获取cookie,达到登录的效果;
2.使用webdriver功能需要安装浏览器对应的驱动插件。我在这里测试的是谷歌浏览器:
谷歌浏览器版本为 52.0.2743.6;
chromedriver 版本为:V2.23
注意:谷歌浏览器版本和chromedriver需要对应,否则启动时会报错。【附:selenium的chromedriver与chrome版本映射表(更新为v2.30))】
3. 微信公众号登录地址:
4.微信公众号文章界面地址可以在微信公众号后台新建图文消息,可以通过超链接功能获取:
5.搜索公众号
6.获取要爬取的公众号的fakeid
7.选择要爬取的公众号,获取文章接口地址
8.文章 列表翻页和内容获取
2.AnyProxy 代理批处理采集
实现方式:anyproxy+js
实现方式:anyproxy+java+webmagic
3.FiddlerCore
实现方式:抓包工具,Fiddler4
通过捕获和分析多个帐户,您可以确定:
_biz:这个14位的字符串是每个公众号的“id”,搜狗的微信平台可以获得
uin:与访问者有关,微信号id
key:和所访问的公众号有关
步:
1、编写按钮向导脚本,自动点击手机公众号文章列表页,即“查看历史消息”;
2、利用fiddler代理劫持手机访问,将URL转发到本地php编写的网页;
3、将接收到的php网页上的URL备份到数据库中;
4、使用python从数据库中获取URL,然后进行正常爬取。
爬取过程中发现一个问题:
如果只是抓取文章的内容,好像没有访问频率限制,但是如果要抓取阅读数和点赞数,达到一定频率后,返回就会变成一个空值,我设置的时间间隔是10秒,可以正常爬取。在这个频率下,一个小时只能抓取360条,没有实际意义。
4.青波新名单
如果你只是想看数据,直接看日单就行了,不用花钱。如果您需要访问自己的系统,他们还提供了一个 api 接口。