微信文章抓取(1):微信公众号文章抓取常识之临时链接、永久链接

优采云 发布时间: 2020-08-10 14:54

  微信文章抓取(1):微信公众号文章抓取常识之临时链接、永久链接

  曾经尝试过抓取陌陌文章的小伙伴,一定太熟悉搜狗陌陌。搜狗陌陌是腾讯官方提供的搜索引擎,专门拿来搜索微信公众号发表的文章(不收录服务号)。

  对于想要获取陌陌文章进行研究学习的小伙伴,首先探求的途径一般是搜狗陌陌。那么关于搜狗陌陌以及陌陌相关的抓取,需要知晓以下关于陌陌文章链接的常识。

  搜狗陌陌搜索下来的文章链接均为陌陌的临时链接,通过客户端查看的文章链接均为永久链接

  临时链接*UPlviVRt*o2do10V-WJ-lxf8eD5FYWEC8ZMfNhyu1iTwYw9Qel1BqVhNlF8cKAxXIorsK-Bu2BcplG2&new=1

  特点为:

  浏览有效期自生成起6个小时,超出时间直接使用浏览器访问将会显示链接已过期,可以通过陌陌客户端访问(此时将手动转变为陌陌永久链接的短联接方式)链接有效期自生成起约50天,超出该时限的链接将难以在客户端中打开,将显示系统错误。这就是陌陌临时链接在陌陌客户端查看显示系统错误的诱因。临时链接直接在浏览器中浏览不显示阅读数以及点赞数,页面中仅收录biz,mid,idx,不收录sn参数(稍后解释)

  快速识别方式:链接中富含signature数组。

  微信永久链接-原创长链接:

  微信永久链接-短联接:

  特点为:

  永久有效,可直接在浏览器中访问不会有时效限制直接访问依然没有阅读数以及点赞数,页面中收录biz,mid,idx和sn参数短联接可以通过拼接参数的方法还原成长链接,长链接需依靠客户端转为短联接

  微信文章相关参数解释:

  原创长链接和短联接可以通过查看网页源码的形式听到那些参数

  

  biz:微信公众号的惟一标示ID

  mid:每次推送生成一个mid,同一次推送下mid相同

  idx:当次推送的位置(1为首篇,2为第二篇…)

  sn:每一篇文章的惟一ID,也是区别临时链接和永久链接的关键参数

  临时链接的页面上是没有sn的,只能通过临时链接中本身的signature参数来找到该篇文章,但是该参数如前所述是有有效期的。因此抓取到的陌陌临时链接只能保证6小时内可以打开,超出时效后只能复制到陌陌中查看。

  那么陌陌临时链接怎么转为永久链接呢?

  当然方案还是有的,这里又要牵涉到陌陌转换临时链接的机制 uin 以及 key,请继续往下看。

  微信文章抓取(2):微信临时链接转永久链接方式,一招甩掉链接过期苦恼

  那么你们一定会有一个问题:如何使临时链接不再过期?或者说怎样把临时链接转换为永久链接。

  对于这个问题首先跟你们说一个事实,就是不论是临时链接转永久链接还是获取陌陌文章的互动数,都是须要微信号参与进来的。因此这是一个存在成本的问题(微信封号越来越严重等)。那么链接转换到底是怎么做到的?

  通过使用Charles抓包工具研究陌陌客户端的行为我们可以发觉:

  在用户从客户端内点击临时链接时,客户端会赋于该链接两个参数,一个是uin一个是key,含有这两个参数的临时链接将才能手动跳转到永久链接起来。

  那么我们不禁要问了,uin和key又是哪些?

  uin:微信用户惟一标志

  key:转换临时链接到永久链接的凭据,分为公众号key(仅对当前公众号下的文章有效),万能key(可用于任何公众号的转换),有效期约为40分钟~2小时。

  只要你能获得万能key,就意味着你可以随便将临时链接转换为永久链接了。这里需注意的是单个key的有效期,以及使用频度,过于频繁key将直接失效,而获取key过分频繁将造成陌陌帐号被封禁!

  综上来看,转化临时链接的关键在于得到uin和key,而uin和key与陌陌帐号密切相关,所以是须要成本的。但是,如果你厉害到可以破解掉陌陌的客户端(windows、安卓都可以),得到key的生成规则,那你就可以为所欲为了,至于难度和可行度…你懂的。并且如此做并不符合相关法律法规哦…但是不能排除早已有人做到了这一点,毕竟市场上还是有不少数据公司以陌陌数据为生。

  那么作为只是学习以及研究为目的的广大小白朋友,如何使自己抓回去的文章更持久呢?搜狗陌陌在2018年7月下旬更新了分享功能,你会发觉每次搜索下来的文章右侧会多出一个分享按键,而该分享功能所对应的链接并不是临时链接,而是全新的分享链接,其实这个链接就是一个API,当你访问的时侯会立刻跳转到一个全新的临时链接上,由于是刚才生成的因而无论是谁在什么时候点击,打开的临时链接一定是新鲜热乎的。用分享链接代替临时链接保存,可以保证文章永远不会过期。连接方式: api/share…

  

  使用Charles配合自动化点击获得永久链接,具体思路是通过自动化的行为将临时链接发送到陌陌上而且自动化点击查看文章,此时charles将获得文章的真实链接地址。不过须要注意访问频度第三方网站提供的转换工具: 输入临时链接后会返回一个添加了uin和key的链接,也就是说这个网站提供了uin和key给你们使用。

  可以看出方案一才能完全避开使用key而保证临时链接永远不过期。当然若果须要获取互动数还是要选择方案2或则3

  有些小伙伴寻问怎样把公众号列表页面弄成永久链接,这个是不存在的,本文讲的全部是“文章页面”。公众号页面通过添加key可以在浏览器中直接打开,但是有效期一直是与key相同的两个小时。公众号页面不存在所谓的永久有效的联接,不然的话公众号的抓取不就显得十分简单了吗?

  微信文章抓取(3):在封禁的边沿试探搜狗陌陌的反爬策略

  搜狗陌陌早已是我们的老朋友了,但凡是涉及到陌陌文章的抓取一定是绕不开这个渠道的。

  但其实搜狗也不是做慈善的,不会放开使你无限地去抓取陌陌的内容,也就是说搜狗是有反爬策略的。具体的反爬策略通过不断地边沿测试后可以发觉:

  1.搜索结果为陌陌临时链接,浏览有效期为6个小时

  2.搜索结果限制浏览页数为10页,登录后最多可以浏览100页内容

  3.1分钟内连续翻页达到30次以上将出现验证码

  4.文章页面过分频繁访问将被封禁2~24小时,所有陌陌文章将显示请使用陌陌扫码阅读

  5.经常触发验证码的IP将被拉黑,所有搜索均须要先输入验证码

  最后,想要应对以上的限制的方式都是有的,无非是使用代理等一些常见的抓取手段,其实假如你能认真研究的话,你是才能发觉搜狗的验证码是可以绕开的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线