微信公众号文章采集方法
优采云 发布时间: 2020-08-13 21:00没有准备上传具体的代码,因为我好多地方都是借用他人的代码,然后按照自己的业务稍为写了点代码而已。所以,这里主要是想分享思路,和自己在做陌陌公众文章采集的时侯遇到的问题和解决办法。
单篇陌陌文章的爬取并没有哪些难度,难的就是入口,微信是一个封闭的生态,不同于其他的网站可以轻而易举的领到入口链接。
那么就从陌陌文章的入口来说起。
在最开始我还能想到的是通过陌陌搜狗搜索查找到文章的列表页。但是通过搜狗搜出来的列表页的链接有时效性。而且频繁地爬取会被搜狗封ip。
这个办法我之前尝试过,但是并不稳定。
再后来,了解到一种方式----基于中间人攻击的方式抓取陌陌公众帐号文章,别被标题吓到,说简单点就是借助代理软件抓包,然后把解析抓包内容。 这里推荐几个开源的代理软件:
go语言的代理软件 sheepbao/gomitmproxy
nodejs 语言实现的代理 alibaba/anyproxy
有了代理层以后,又是开源的,可以直接更改源代码。
在代理层中,匹配出陌陌文章详情页链接,然后抓取这个链接的内容,详情页的链接并不限制在陌陌客户端打开。
这个知乎专栏写的比较详尽。知乎专栏
再找到通过代理的方式以后,我也实现了自己的代码。但是问题是,在客户端上怎样模拟点击文章链接实现上去并不是挺好。