微信公众号采集,历史文章采集,通用密钥采集,例如阅读评论采集
优采云 发布时间: 2020-08-05 14:12微信采集的重点是与微信公众号相关的数据,主要是发表文章,即阅读,官方账号的信息等. 下面将解释如何采集以及对采集的一些限制.
第一个是数据源,主要分为两部分. 客户集合和搜狗微信集合.
搜狗微信的采集相对简单. 它主要解决了IP问题,并连续模拟了搜索文章和搜索官方帐户的两种操作,非常方便地采集我们想要的文章. 但是,搜狗微信的局限性也很明显. 1.信息不全面. 据估计,公共账户的覆盖率应该只有80%左右. 2.没有诸如阅读之类的信息. 3.在“搜索公用号码”部分下采集的文章链接是临时链接,在一段时间后或达到一定点击次数后,它们将变为无效. 此值需要特定的演示. 注意: 无效链接仍然可以通过微信客户端打开. 当然,也有将临时链接转换为永久链接的方法.
我们的重点仍然是解释客户如何执行收款. 首先,让我们看一下微信文章永久链接的格式: #wechat_redirect
关键参数1. Biz是微信公众号的ID. 2.中间文章的ID. 3. idx文章在文章组中的顺序. 4. sn(加密值,暂时不知道如何生成).
接下来,通过打开客户端上的链接并抓取一个包,我们可以看到下面的链接明显长于上面的链接,并带有更多的参数. 这里主要关注的是关键和关键. 使用您自己的微信ID和密钥来表示密钥. 通过更改公共号码BIZ,我们可以发现此密钥的使用范围仅对当前公共号码有效,也就是说,您只能访问与此BIZ相关的链接. 所以问题是,当我们需要访问大量不同的公共帐户时,我们将如何处理它. 接下来,将介绍通用密钥的概念. 顾名思义,您可以使用此密钥访问任何BIZ. 通过以上分析,我们大概可以知道,只要可以获得通用密钥,就可以通过不断改变BIZ来进行公用号的物品采集工作. 因此,现在的重点是如何自动批量获取通用密钥并测试使用通用密钥的规则.
%3D%3D&devicetype = Windows + 7&version = 62060619&lang = zh_CN&pass_ticket = MDrfvfr9bp1x7iCQWQ1tsjbc%2Bq4nDXrsrtj3afjg0vBfdOr9yOfHdIx8x4sXRlyM&winzoom = 1
首先,获取通用密钥
目前,只能通过客户端获得通用密钥,这意味着我们必须采集设备(手机)+微信ID才能获得通用密钥. 测试时,我们可以使用Android*敏*感*词*进行验证(通过多个打开的*敏*感*词*生成密钥很容易被阻止,尤其是新注册的微信帐户). 我当前的方法是将脚本嵌入到采集设备中,并安装Android版本的数据包捕获软件. 连续执行脚本所生成的数据包将被加密并发送到Web服务,最后输入数据库. 然后从库中取出呼叫. 对于批量采集,您只能投入大量的采集资源,即手机+微信. 使用通用密钥方法,每天采集将近150W公开号码文章. 搜狗还有更多〜
两个,使用规则
1. 采集的一般过程是先访问列表,获取列表中的文章链接,然后采集特定文章. 微信公众号采集也不例外. 第一个是列表页面,微信公众号列表通过访问公众号历史新闻页面进行. 由于访问速度较慢且限制越来越多,我们最早在香港使用微信链接已被放弃. ,当前链接是大陆. 当前历史记录页面上的限制主要是每天访问每个微信帐户的总次数(不是太快)以及每天大约1300次访问. 如果超过该限制,它将返回“频繁操作”并在24小时后自动解除阻止.
2. 点赞和阅读的次数之间的时间间隔应大于2秒,无论如何,都会返回异常. 同时,每天的访问总数约为6000.
3. 采集帐户的主要信息,主要是不要太快. 大约是6到8S. 注意,这里不仅需要不同的通用密钥,而且IP也受到限制. 如果您不小心被阻止,则解锁时间约为2小时.
4. 密钥的有效期为2小时,如果访问列表超过2小时,则访问列表将返回类似{ret: -3,no seesion}的字符串,并且所采集的主题信息将进入验证页面. 所有用于生成和更新通用密钥的脚本通常都在2小时内设置.
主要规则应为上述规则. 最近,我们已经开发了一个应用程序工具,并参考其他微信采集工具,以自动采集具有微信公众号永久链接的文章,包括历史文章(例如阅读等). 如果需要,您可以成为我的豚鼠和请与我联系以进行免费试用〜或有任何疑问,请随时骚扰并一起交流〜