文章采集调用(1.用python爬取实现方法：anyproxy+java+webmagic3.FiddlerCore)

优采云发布时间: 2021-11-10 11:06

　　微信公众号文章爬取方法用python组织1.爬取

　　实现方法：通过微信提供的公众号文章调用接口，实现爬取公众号文章的功能

　　步：

　　1.需要安装python selenium模块包，使用selenium中的webdriver驱动浏览器获取cookie，达到登录的效果；

　　2.使用webdriver功能需要安装浏览器对应的驱动插件。我在这里测试的是谷歌浏览器：

　　谷歌浏览器版本为 52.0.2743.6；

　　chromedriver 版本为：V2.23

　　注意：谷歌浏览器版本和chromedriver需要对应，否则启动时会报错。【附：selenium的chromedriver与chrome版本映射表（更新为v2.30)）】

　　3. 微信公众号登录地址：

　　4.微信公众号文章界面地址可以在微信公众号后台新建图文消息，可以通过超链接功能获取：

　　5.搜索公众号

　　6.获取要爬取的公众号的fakeid

　　7.选择要爬取的公众号，获取文章接口地址

　　8.文章列表翻页和内容获取

　　2.AnyProxy 代理批处理采集

　　实现方式：anyproxy+js

　　实现方式：anyproxy+java+webmagic

　　3.FiddlerCore

　　实现方式：抓包工具，Fiddler4

　　通过捕获和分析多个帐户，您可以确定：

　　_biz:这个14位的字符串是每个公众号的“id”，搜狗的微信平台可以获得

uin:与访问者有关，微信号id

key:和所访问的公众号有关

　　步：

　　1、编写按钮向导脚本，自动点击手机公众号文章列表页，即“查看历史消息”；

　　2、利用fiddler代理劫持手机访问，将URL转发到本地php编写的网页；

　　3、将接收到的php网页上的URL备份到数据库中；

　　4、使用python从数据库中获取URL，然后进行正常爬取。

　　爬取过程中发现一个问题：

　　如果只是抓取文章的内容，好像没有访问频率限制，但是如果要抓取阅读数和点赞数，达到一定频率后，返回就会变成一个空值，我设置的时间间隔是10秒，可以正常爬取。在这个频率下，一个小时只能抓取360条，没有实际意义。

　　4.青波新名单

　　如果你只是想看数据，直接看日单就行了，不用花钱。如果您需要访问自己的系统，他们还提供了一个 api 接口。

0

2021-11-10

文章采集调用

0 个评论

要回复文章请先登录或注册