采集的文章内容不能直接发布(微信公众号内容的批量采集与应用微信抓取的难点 )

优采云 发布时间: 2021-08-29 17:10

  采集的文章内容不能直接发布(微信公众号内容的批量采集与应用微信抓取的难点

)

  双十一快到了,快来凑热闹,发个重量级的文章吧。如何抢微信公众号文章

  一、简介

  在学习微信爬虫之前,看过知乎有大神写的一个比较完整的例子。我被启发完成了整个微信公众号的抓取。微信公众号采集内容大头及应用微信爬取难点:1.微信公众号信息无法获取(微信不提供列表)2.微信公众号历史无法从客户端获取信息页3.可以获取文章内容页,但是离开客户端后无法获取点赞和阅读数据

  因此,该过程的一部分取决于移动客户端。如果要抓取大量微信公众号信息,必须依赖大量客户端抓取(准备好自己的手机、微信、电费、说明书)

  使用的基本方法和知乎大神说的一样,就是中间人代理攻击。

  一、抓住要使用的工具

  知乎大神用的是nodejs,post做php处理,而且github上大部分都是用这个方法,还是纯nodejs的方法,个人觉得限制性太大,主要是我不会nodejs,我学了一点,但是使用anyproxy,还是会有一些无法解决的问题,不能长期应用采集

  python3.5+mitmproxy 其他包插件使用二、微信 抓单客户端公众号历史消息列表页面基本应用规则,每天访问次数不能超过1300次,安全点,最好唐访问次数不超过1000次,会提示无法打开页面或操作频繁。 24小时后会自动解锁。不要使用客户端大量访问文章content页面,会直接导致出现标题,知乎大神,必须访问文章content页面。这是单个客户端抢多个文章的阅读和喜欢的禁忌。时间间隔必须超过2秒,否则会返回unknown error错误。单个客户端每天抓取和阅读赞不能超过6000,否则会返回错误三、Grab 基本逻辑

  获取公众号-访问公众号历史列表页面-抓取第一页文章列表数据和cookie信息-其他脚本抓取喜欢、阅读、评论和小程序信息

  四、tutorial start1.安装必备包

  假设项目目录在/var/www/project下

  安装python3、virtualenv,pip工具,自己百度,搭建python虚拟环境

  virtualenv -p python路径 --no-site-packages venv

source venv/bin/activate

  安装必要的软件包

  pip install mitmproxy

pip install requests

其他mysql、redis或队列的包, 自己根据需要安装即可

  2. 抓取历史详情页数据

  # content.py

分析内容中的文章列表并保存

以及将cookie保存起来, 假设保存到redis中

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线