采集的文章内容不能直接发布(微信公众号内容的批量采集与应用微信抓取的难点 )

优采云发布时间: 2021-08-29 17:10

　　采集的文章内容不能直接发布(微信公众号内容的批量采集与应用微信抓取的难点

)

　　双十一快到了，快来凑热闹，发个重量级的文章吧。如何抢微信公众号文章

　　一、简介

　　在学习微信爬虫之前，看过知乎有大神写的一个比较完整的例子。我被启发完成了整个微信公众号的抓取。微信公众号采集内容大头及应用微信爬取难点：1.微信公众号信息无法获取（微信不提供列表）2.微信公众号历史无法从客户端获取信息页3.可以获取文章内容页，但是离开客户端后无法获取点赞和阅读数据

　　因此，该过程的一部分取决于移动客户端。如果要抓取大量微信公众号信息，必须依赖大量客户端抓取（准备好自己的手机、微信、电费、说明书）

　　使用的基本方法和知乎大神说的一样，就是中间人代理攻击。

　　一、抓住要使用的工具

　　知乎大神用的是nodejs，post做php处理，而且github上大部分都是用这个方法，还是纯nodejs的方法，个人觉得限制性太大，主要是我不会nodejs，我学了一点，但是使用anyproxy，还是会有一些无法解决的问题，不能长期应用采集

　　python3.5+mitmproxy 其他包插件使用二、微信抓单客户端公众号历史消息列表页面基本应用规则，每天访问次数不能超过1300次，安全点，最好唐访问次数不超过1000次，会提示无法打开页面或操作频繁。 24小时后会自动解锁。不要使用客户端大量访问文章content页面，会直接导致出现标题，知乎大神，必须访问文章content页面。这是单个客户端抢多个文章的阅读和喜欢的禁忌。时间间隔必须超过2秒，否则会返回unknown error错误。单个客户端每天抓取和阅读赞不能超过6000，否则会返回错误三、Grab 基本逻辑

　　获取公众号-访问公众号历史列表页面-抓取第一页文章列表数据和cookie信息-其他脚本抓取喜欢、阅读、评论和小程序信息

　　四、tutorial start1.安装必备包

　　假设项目目录在/var/www/project下

　　安装python3、virtualenv，pip工具，自己百度，搭建python虚拟环境

　　virtualenv -p python路径 --no-site-packages venv

source venv/bin/activate

　　安装必要的软件包

　　pip install mitmproxy

pip install requests

其他mysql、redis或队列的包, 自己根据需要安装即可

　　2. 抓取历史详情页数据

　　# content.py

分析内容中的文章列表并保存

以及将cookie保存起来, 假设保存到redis中

0

2021-08-29

采集的文章内容不能直接发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集的文章内容不能直接发布(微信公众号内容的批量采集与应用微信抓取的难点 )

0 个评论

发起人

AI时代内容工厂

采集的文章内容不能直接发布(微信公众号内容的批量采集与应用微信抓取的难点 )

0 个评论

发起人

相关问题