【原创免费】微信公众号文章爬取方式

优采云发布时间: 2020-08-12 04:03

　　python爬取

　　1.需要安装python selenium模块包，通过selenium中的webdriver驱动浏览器获取Cookie的方式、来达到登陆的疗效；

　　2.使用webdriver功能须要安装对应浏览器的驱动插件，我这儿测试用的是谷歌浏览器：

　　google chrome版本为52.0.2743.6 ;

　　chromedriver版本为：V2.23

　　注意：谷歌浏览器版本和chromedriver须要对应，否则会导致启动晨报错。【附：selenium之 chromedriver与chrome版本映射表(更新至v2.30)）】

　　3.微信公众号登录地址：

　　4.微信公众号文章接口地址可以在微信公众号后台中新建图文消息，超链接功能中获取：

　　5.搜索公众号名称

　　6.获取要爬取的公众号的fakeid

　　7.选定要爬取的公众号，获取文章接口地址

　　8.文章列表翻页及内容获取

　　AnyProxy代理批量采集

　　实现方式：anyproxy+js

　　实现方式：anyproxy+java+webmagic

　　FiddlerCore

　　实现方式：抓包工具，Fiddler4

　　通过对多个帐号进行抓包剖析，可以确定:

　　_biz:这个14位的字符串是每位公众号的“id”，搜狗的陌陌平台可以获得 uin:与访问者有关，微信号id key:和所访问的公众号有关

　　1，写按键精灵脚本，在手机上手动点击公号文章列表页，也就是“查看历史消息”；

　　2，使用fiddler代理绑架手机端的访问，将网址转发到本地用php写的网页；

　　3，在php网页中将接收到的网址备份到数据库；

　　4，用python从数据库取出网址，然后进行正常的爬取。

　　爬的过程中发觉一个问题：

　　如果只是想爬取文章内容，似乎并没有访问频度限制，但若果想抓取阅读数、点赞数，超过一定频度后，返回都会变为空值，我设定的时间间隔为10秒，可以正常抓取，这种频度下，一个小时只能抓取360条，已经没哪些实际意义了。

　　清博新榜

　　如果只是想看数据的话，直接看每晚的榜单就可以了，还不用花钱，如果须要接入自己的系统的话，他们也提供 api接口

　　Part3 项目步骤

　　该网站收录了绝大部分的微信公众号文章，会定期更新，经测试发觉对爬虫较为友好

　　网站页面布局排版规律，不同公众号通过链接中的 account 分辨

　　一个公众号合辑下的文章翻页也有规律：id号每翻一页+12

0

2020-08-12

原创文章采集软件免费

0 个评论

要回复文章请先登录或注册