可采集文章( 微信采集微信公众号之苦吧!(第一弹))
优采云 发布时间: 2021-09-04 19:03可采集文章(
微信采集微信公众号之苦吧!(第一弹))
你们,你们一定被采集微信公号深深的折磨了!尤其! ! ! ! ! !公众账号历史信息! ! !除了通过中间代理采集APP,获取数据真的没有什么技巧!
直到············
前段时间,微信官方发布了一条文章:
嗯,妈妈!这不就是一直需要的采集接口吗!嘿,上帝也帮助我!来吧...让我们谈谈一般的方法。
1、 首先你需要一个订阅账号!不知道公众号和企业号是否可行。因为我没有...
2、其次需要登录!
我没仔细看微信公众号登录。
暂且不说,我用selenium的方法来驱动浏览器获取cookies来达到登录的效果。
3、使用requests携带cookies,登录获取URL的token(这个很重要,每次请求都需要带上)如下:
4、使用获取到的token和公众号的微信账号(即数字+字符)获取公众号的fakeid(可以了解公众号的身份)
当我们搜索公众号时,浏览器以GET方式向带参数的红框中的URL发起请求。请求参数如下:
请求如下:
代码如下:
好的,让我们继续:
5、点击我们搜索到的公众号后,发现了另一个请求:
请求参数如下:
返回如下:
代码如下:
好的......最后一步就是把所有文章需要处理翻页的事情搞定了。翻页请求如下:
我看了一下。极客学院每页至少有5条信息,也就是文章数/5的总数就是有多少页。但是有小数,我们四舍五入,然后加1得到总页数。
代码如下:
item.get(‘link’)是我们需要连接的公众号文章!继续请求这个网址提取里面的内容!
结束。