通过关键词采集文章采集api(微信公众号数据的采集有两个途径,你知道吗?)
优采云 发布时间: 2022-04-03 21:01通过关键词采集文章采集api(微信公众号数据的采集有两个途径,你知道吗?)
微信公众号数据采集有两种方式:
1、搜狗微信:因为搜狗和微信合作,所以可以用搜狗微信采集;这个公众号只能采集最新的10条,如果你想获取历史文章。并注意爬行的频率。如果频率高,就会有验证码。本平台只能进行少量数据的采集,不推荐。
2.微信公众号平台:这个微信公众号平台,你必须先申请一个公众号(因为微信最近开放了在公众号中插入其他公众号链接的功能,这样可以存储数据采集) ,然后进入创作管理-图文素材-列表视图-新建创作-新建图文-点击超链接进行爬虫操作。这样可以爬取历史文章,推荐的方式。(但需要注意的是,如果频率太快,或者爬的太多,账号会被封,24小时,不是ip,而是账号。目前没有什么好的办法,我个人使用随机缓存time ,模拟人们浏览的方式,为结果牺牲时间。)
主要基于第二种方式(微信公众号平台):
1、首先使用selenium模拟登录微信公众号,获取对应的cookie并保存。
2.获取cookie和请求url后,会跳转到个人主页(因为cookie)。这时候url有一个token,每个请求都是不同的token。使用正则表达式获取它。
3.构造数据包,模拟get请求,返回数据(这个可以打开F12看到)。
4. 获取数据并分析数据。
这是基于微信公众号平台的data采集思路。网上有很多具体的代码。我不会在这里发布我的。,解析数据的步骤,代码很简单,大家可以按照自己的思路尝试编写。
注意:恶意爬虫是一种危险行为,切记不要恶意爬取某个网站,遵守互联网爬虫规范,简单学习即可。