解决方案:持续更新,微信公众号文章批量采集系统的构建

优采云 发布时间: 2020-10-01 13:03

  持续更新,建设微信公众号文章批处理采集系统

  自2014年以来,我一直在批量处理微信官方帐户内容采集。最初的目的是创建html5垃圾邮件内容网站。那时,垃圾站采集到达的微信公众号的内容很容易在公众号中传播。当时,采集批处理特别容易,采集的入口是官方帐户的历史新闻页面。现在这个入口是一样的,但是它越来越难采集。 采集的方法也已更新为许多版本。后来,在2015年,html5垃圾站没有这样做,而是转向采集来定位本地新闻和信息公共帐户,并将前端显示制作为应用程序。这样就形成了可以自动采集正式帐户内容的新闻应用程序。我曾经担心微信技术升级后的一天,采集的内容将不可用,我的新闻应用程序将失败。但是随着微信技术的不断升级,采集方法也得到了升级,这使我越来越有信心。只要存在官方帐户历史记录消息页面,就可以将采集批处理到内容。因此,今天我决定写下采集方法。我的方法来自许多同事的共享精神,因此我将继续这种精神并分享我的结果。

  这篇文章文章将继续更新,并且您所看到的将保证在您看到时可用。

  首先,让我们看一下微信官方帐户历史记录消息页面的链接地址:

  http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=MjM5MzczNjY2NA==#wechat_webview_type=1&wechat_redirect

  ==========更新于2017年1月11日=========

  现在,根据不同的微信个人帐户,将有两个不同的历史消息页面地址。以下是另一个历史消息页面的地址。第一种地址类型的链接将显示302在anyproxy中的跳转:

  https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzA3NDk5MjYzNg==&scene=124#wechat_redirect

  第一个链接地址的页面样式:

  

  第二个链接地址的页面样式:

  

  根据当前信息,这两种页面格式在不同的微信账户中不规则地出现。一些WeChat帐户始终是第一页格式,而某些始终是第二页格式。

  上面的链接是指向微信官方帐户历史新闻页面的真实链接,但是当我们在浏览器中输入此链接时,它将显示:请从微信客户端访问。这是因为实际上此链接地址需要几个参数才能正常显示内容。让我们看一下可以正常显示内容的完整链接:

  //第一种链接

http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=MjM5NTM1NjczMw==&uin=NzM4MTk1ODgx&key=a226a081696afed0d9dfa0972fa431e116e5*敏*感*词*572ce52343178ad4e9a2b94aeaad6a*敏*感*词*dd87de3e56f72209a73a32e9cc2052f68aca4884e36cf726e99f2671630c741d8e4c29abe4a049d1a71eeb2be5&devicetype=android-17&version=2605033c&lang=zh_CN&nettype=WIFI&ascene=1&pass_ticket=zbA7PswOPKySRpyEYI5kDCjRiljxcpzdbTuVMauFGemgdp8R1DY1uQY49srehWab&wx_header=1

//第二种

http://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzA3NDk5MjYzNg==&scene=124&uin=NzM4MTk1ODgx&key=5134ab1cc362a0324183dbd55a2680d11ccbaa34cdb349ee9be58f5b666092ddb17adf8a88dc788831923f3c6087547d651f04209f72334d511c9e118a3800d7b05a324a38903f79cff940cf749ecd5a&devicetype=android-17&version=2605033c&lang=zh_CN&nettype=WIFI&a8scene=3&pass_ticket=Fo3zjtJcbPfijNHKUIQbV%2BeHsAqhbjJCwzTfV48u%2FCZRRGTmI8oqmHDxxfEL8ke%2B&wx_header=1

  在通过微信客户端打开历史消息页面后,使用稍后描述的代理服务器软件获得此地址。有几个参数:

  action =; __ biz =; uin =; key =; devicetype =; version =; lang =; nettype =; scene =; pass_ticket =; wx_header =;

  重要参数是:__biz; uin =; key =; pass_ticket =;这四个参数。

  __ biz是官方帐户的类似ID的参数。每个官方帐户都有一个微信业务。目前,官方帐户的业务更改的可能性很小;

  其余3个参数与用户的ID和令牌票证有关。这3个参数的值由微信客户端生成后会自动添加到地址栏中。因此,我们认为采集官方帐户必须通过微信客户端应用程序。在以前的微信中,这三个参数也可以一次获取,然后在有效期内可以使用多个官方账号。在当前版本中,每次访问正式帐户时都会更改参数值。

  我现在使用的方法只需要注意__biz参数。

  我的采集系统由以下部分组成:

  1、微信客户端:它可以是安装了微信应用程序的手机,也可以是计算机中的Android模拟器。在批次采集中测试的ios的WeChat客户端的崩溃率高于Android系统。为了降低成本,我使用了Android模拟器。

  

<p>2、一个微信个人帐户:对于采集的内容,不仅需要一个微信客户端,而且还需要一个专用于采集的微信个人帐户,因为该微信帐户无法执行其他操作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线