微信文章自动化爬取过程中出现的问题及解决办法!
优采云 发布时间: 2021-08-21 03:30微信文章自动化爬取过程中出现的问题及解决办法!
实现功能
微信账号目前可以获取具体指标:biz、昵称、微信ID、头像、二维码、*敏*感*词*、认证、认证信息、账号主题、归属地等
WeChat文章目前可用的具体指标(包括但不限于):阅读数、点赞(浏览)数、评论内容和总评论数、正文内容、图片、视频地址、是否原创、永久链接原文等
实施技术和工具
经过大量长期测试,保证微信客户端采集300公众号每天文章数据稳定运行,不会被封号。如果您频繁访问微信公众号的历史消息页面,将被禁止24小时。
目前比较好的策略:访问文章页面后休眠5秒,访问微信公众号历史消息页面后休眠150秒。
微信购买渠道qq客服:1653925422 60元购买了一个非实名微信账号。购买账号后,不得添加好友,否则将被微信账号永久屏蔽为营销账号。仅用于访问微信。公众号文章不会被封。
详细设计
1、 先准备一批微信公众号biz,爬进redis队列。
数据库设计
两个redis消息队列
1、微信公众号业务队列待抓取
wechat_biz_quene list 先进先出队列
复制代码
2、获取的微信文章detail页面url队列用于遍历获取的历史文章对应的阅读、点赞、评论。
<p>2、在模拟器中打开微信atx框架,模拟点击要运行的第一个公众号拼接的历史消息界面,后续流程和数据流逻辑如下图所示