微信公众号文章采集方法

优采云 发布时间: 2020-08-13 21:00

  没有准备上传具体的代码,因为我好多地方都是借用他人的代码,然后按照自己的业务稍为写了点代码而已。所以,这里主要是想分享思路,和自己在做陌陌公众文章采集的时侯遇到的问题和解决办法。

  单篇陌陌文章的爬取并没有哪些难度,难的就是入口,微信是一个封闭的生态,不同于其他的网站可以轻而易举的领到入口链接。

  那么就从陌陌文章的入口来说起。

  在最开始我还能想到的是通过陌陌搜狗搜索查找到文章的列表页。但是通过搜狗搜出来的列表页的链接有时效性。而且频繁地爬取会被搜狗封ip。

  这个办法我之前尝试过,但是并不稳定。

  再后来,了解到一种方式----基于中间人攻击的方式抓取陌陌公众帐号文章,别被标题吓到,说简单点就是借助代理软件抓包,然后把解析抓包内容。 这里推荐几个开源的代理软件:

  go语言的代理软件 sheepbao/gomitmproxy

  nodejs 语言实现的代理 alibaba/anyproxy

  有了代理层以后,又是开源的,可以直接更改源代码。

  在代理层中,匹配出陌陌文章详情页链接,然后抓取这个链接的内容,详情页的链接并不限制在陌陌客户端打开。

  这个知乎专栏写的比较详尽。知乎专栏

  再找到通过代理的方式以后,我也实现了自己的代码。但是问题是,在客户端上怎样模拟点击文章链接实现上去并不是挺好。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线