一个微信公众号历史消息页的采集方法整理之后写

优采云发布时间: 2021-08-26 00:01

　　2014年开始做微信公众号内容的批量采集，最初的目的是为了制作一个html5垃圾邮件网站。当时，垃圾站采集到达的微信公众号内容很容易在公众号传播。当时批量采集特别好做，采集入口就是公众号的历史新闻页面。这个条目现在是一样的，但越来越难采集。采集方法也在很多版本中进行了更新。后来到了2015年，html5垃圾站就不做了。而是将采集目标定位在本地新闻资讯公众号，前端展示被做成了一个app。于是一个可以自动采集公号内容的新闻APP就形成了。曾经担心微信技术升级一天后采集内容不可用，我的新闻应用程序失败。但是随着微信的不断技术升级，采集方式也得到了升级，这让我越来越有信心。只要公众号历史消息页面存在，就可以批量采集内容。所以今天整理了一下，决定把采集方法写下来。我的方法来自于很多同事的分享精神，所以我会延续这种精神，分享我的成果。

　　本文文章会持续更新，保证您看到的内容在您看到时可用。

　　首先我们来看一个微信公众号历史消息页面的链接地址：

　　http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=MjM5MzczNjY2NA==&uin=NzM4MTk1ODgx&key=9ed31d4918c154c8e04cb95d0b28d07ae8eda2ba29a25f538d06adfa060e5d7d42a1427e8f9cfb6a4c3ecc0903a1a9ab87d1471e43705a8b04e1a796612405546f901ec1e4ea662122bb9235f4dfea4d&devicetype=android-17&version=26031c34&lang=zh_CN&nettype=WIFI&ascene=3&pass_ticket=iyVknv0cBEc1Z8oR4zVs%2BkLeRwYtW5bbtL4Tj9bm%2FwgjP%2BsobV6en3WohWUOllUU&wx_header=1

　　这里有几个参数：

　　__biz;uin=;key=;devicetype=;version=;lang=;nettype=;ascene=;pass_ticket=;wx_header=;

　　重要的参数是：__biz;uin=;key=;pass_ticket=;这4个参数。

　　__biz 是公众号的类似id的参数。每个公众号都有一个微信。目前公众号的biz变动的可能性很小；

　　其余三个参数与用户的id和tokenticket相关。这三个参数的值只能由微信客户端生成。所以我们认为采集公众号必须通过微信客户端。在之前的微信版本中，这3个参数也可以一次性获取，在有效期内可以使用多个公众号。在当前版本中，每次访问公众号都会更改参数值。

　　我现在使用的方法只需要关注__biz参数即可。

　　我的采集系统由以下部分组成：

　　1、A 微信客户端：可以是安装了微信应用的手机，也可以是电脑中的安卓模拟器。批量采集测试的ios微信客户端崩溃率高于Android系统。为了降低成本，我使用了Android模拟器。

　　2、A微信个人账号：对于采集内容，不仅需要一个微信客户端，还需要一个采集专用的微信个人账号，因为这个微信账号不能做其他事情。

　　3、本地代理服务器系统：目前使用的方法是通过Anyproxy代理服务器将公众号历史消息页面中的文章列表发送到自己的服务器。具体安装方法后面会详细介绍。

　　4、文章List分析入库系统：本人使用php语言编写，下篇将详细介绍如何分析文章lists并建立采集queues实现批量采集内容.

　　步骤

　　一、安装模拟器或使用手机安装微信客户端APP，申请微信个人账号并登录APP。这个就不多介绍了，大家自己做。

　　二、代理服务器系统安装

　　目前我使用 Anyproxy、AnyProxy。这个软件的特点是可以获取https链接的内容。 2016年初，微信公众号和微信文章开始使用https链接。而Anyproxy可以通过修改规则配置，在公众号页面插入脚本代码。下面将介绍安装和配置过程。

　　1、Install NodeJS

　　2、在命令行或终端运行npm install -g anyproxy，mac系统需要添加sudo；

　　3、生成RootCA，https需要这个证书：运行命令sudo anyproxy --root（windows可能不需要sudo）；

　　4、Start anyproxy 运行命令：sudo anyproxy -i;参数-i表示解析HTTPS；

　　5、安装证书，在手机或者安卓模拟器安装证书：

　　方法一：启动anyproxy，打开浏览器：8002/fetchCr...，即可得到rootCA.crt文件

　　方法二：启动anyproxy，:8002/qr_root可以获取认证路径的二维码，手机安装会更方便

　　建议通过二维码将证书安装到手机中。

　　6、Set proxy：安卓模拟器的代理服务器地址是wifi链接的网关。通过dhcp设置为static后就可以看到网关地址了。阅读后不要忘记将其设置为自动。手机中的代理服务器地址就是运行anyproxy的电脑的ip地址。代理服务器默认端口为8001；

　　现在打开微信，点击任意公众号历史消息或者文章，就可以看到在终端滚动的响应码。如果没有出现，请检查手机的代理设置是否正确。

　　现在打开浏览器地址：8002，可以看到anyproxy的web界面。微信点击打开一个历史消息页面，然后在浏览器的web界面查看，历史消息页面的地址会滚动。

　　/mp/getmasssendmsg开头的网址是微信历史消息页面。左边的小锁表示这个页面是 https 加密的。现在我们点击这一行；

　　如果右侧出现html文件内容，则表示解密成功。如果没有内容，请检查anyproxy运行方式是否有参数i，是否生成CA证书，是否在手机上正确安装了证书。

　　现在我们手机中的所有内容都可以明文通过代理服务器了。接下来，我们需要修改代理服务器的配置，以便获取公众号的内容。

　　一、找到配置文件：

　　mac系统中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/；对于windows系统，不知道还请见谅。应该可以根据类似mac的文件夹地址找到这个目录。

　　二、修改文件 rule_default.js

　　找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函数

　　修改函数内容（请注意详细阅读注释，这里只是介绍原理，了解后根据自己的情况修改内容）：

　　replaceServerResDataAsync: function(req,res,serverResData,callback){

if(/mp\/getmasssendmsg/i.test(req.url)){//当链接地址为公众号历史消息页面时

try {//防止报错退出程序

var reg = /msgList = (.*?);\r\n/;//定义历史消息正则匹配规则

var ret = reg.exec(serverResData.toString());//转换变量为string

HttpPost(ret[1],req.url,"getMsgJson.php");//这个函数是后文定义的，将匹配到的历史消息json发送到自己的服务器

var http = require('http');

http.get('http://xxx.com/getWxHis.php', function(res) {//这个地址是自己服务器上的一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxHis.php的原理。

res.on('data', function(chunk){

callback(chunk+serverResData);//将返回的代码插入到历史消息页面中，并返回显示出来

})

});

}catch(e){//如果上面的正则没有匹配到，那么这个页面内容可能是公众号历史消息页面向下翻动的第二页，因为历史消息第一页是html格式的，第二页就是json格式的。

try {

var json = JSON.parse(serverResData.toString());

if (json.general_msg_list != []) {

HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//这个函数和上面的一样是后文定义的，将第二页历史消息的json发送到自己的服务器

}

}catch(e){

console.log(e);//错误捕捉

}

callback(serverResData);//直接返回第二页json内容

}

}else if(/mp\/getappmsgext/i.test(req.url)){//当链接地址为公众号文章阅读量和点赞量时

try {

HttpPost(serverResData,req.url,"getMsgExt.php");//函数是后文定义的，功能是将文章阅读量点赞量的json发送到服务器

}catch(e){

}

callback(serverResData);

}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//当链接地址为公众号文章时（rumor这个地址是公众号文章被辟谣了）

try {

var http = require('http');

http.get('http://xxx.com/getWxPost.php', function(res) {//这个地址是自己服务器上的另一个程序，目的是为了获取到下一个链接地址，将地址放在一个js脚本中，将页面自动跳转到下一页。后文将介绍getWxPost.php的原理。

res.on('data', function(chunk){

callback(chunk+serverResData);

})

});

}catch(e){

callback(serverResData);

}

}else{

callback(serverResData);

}

},

　　以上代码是使用anyproxy修改返回页面内容、向页面注入脚本、将页面内容发送到服务器的功能。利用这个原理批量处理采集公众号内容和阅读量。该脚本中自定义了一个函数，详细说明如下：

　　在 rule_default.js 文件末尾添加以下代码：

　　以上是规则修改的主要部分。您需要将json内容发送到您自己的服务器，并从服务器获取到下一页的跳转地址。这涉及到四个php文件：getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php

　　在详细介绍这4个php文件之前，为了提高采集系统性能，降低崩溃率，我们还可以做一些修改：

　　Android模拟器经常访问一些地址，会导致anyproxy崩溃，找到函数replaceRequestOption：function(req,option)，修改函数内容：

　　replaceRequestOption : function(req,option){

var newOption = option;

if(/google/i.test(newOption.headers.host)){

newOption.hostname = "www.baidu.com";

newOption.port = "80";

}

return newOption;

},

　　以上是anyproxy的规则文件的修改配置。配置修改完成后，重启anyproxy。在mac系统下，按control+c中断程序，然后输入命令sudo anyproxy -i启动；如果报错，程序可能无法干净退出，端口被占用。这时候输入命令ps -a查看占用的pid，然后输入命令“kill -9 pid”将pid替换为查询到的pid号。杀掉进程后，就可以启动anyproxy了。再次请原谅我不熟悉windows命令。

　　接下来详细介绍服务器端接收程序的设计原理：

　　（以下代码不能直接使用，只介绍原理，部分需要根据自己的服务器数据库框架编写）

　　1、getMsgJson.php：该程序负责接收历史消息的json，解析并存入数据库

<p>

0

2021-08-26

文章采集平台

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

一个微信公众号历史消息页的采集方法整理之后写

0 个评论

发起人

AI时代内容工厂

一个微信公众号历史消息页的采集方法整理之后写

0 个评论

发起人

相关问题