基于anyproxy的微信公众号文章爬取,收录阅读数点赞数

优采云 发布时间: 2020-08-27 21:23

  基于anyproxy的微信公众号文章爬取,收录阅读数点赞数

  github项目地址

  录制的视频:点击抵达

  

  基本原理AnyProxy是一个阿里开源的HTTP代理服务器,类似fiddler和charles,但是提供了二次开发能力,可以编撰js代码改变http/https恳求和响应为了爬取一个微信公众号的全部文章,首先就是获取全部文章,然后一篇一篇去打开获取文章标题,作者,阅读数,点赞数(这两个只能在微信浏览器获取)每个微信公众号都提供查看历史消息的功能,点击去打开这个网页,不停下滚,可以查到全部发布文章。在这一步,基于anyproxy,修改了这个网页html,注入一段使页面不停往下滚动的js脚本,当滚到顶部,就获取了全部文章列表。 本质上是中间人攻击。

  获取完全部文章的内容(包括url,标题,发布时间等等)后,下一步就是循环通知陌陌浏览器一个一个去打开这种文章网页。每个文章网页也注入js脚本,功能是不停的检测页面的点赞数和阅读数,检测到,就往某服务器发,后台每成功收到一个文章的点赞数和阅读数,就通知陌陌浏览器打开下一个url。这里我使用了socketio,实现陌陌浏览器和自建的koa服务器之间的通信。

  如图所示:

  

  获取文章列表演示

  

  一篇一篇打开文章链接

  如何运行

  第一步,一定要安装成功anyproxy,这一步请详尽阅读anyproxy的官方教程,写的太详尽,要保证能成功代理https,能查看到https的body内容。

  npm install

npm start

  会手动打开一个result.html,实时查看爬取文章的内容

  点击一个微信公众号,点击查看历史消息,之后历史页面会不停的滚动究竟,滚动完毕,就开始一篇一篇打开文章,爬取内容。

  

  实时结果显示.jpg

  具体过程

  1.第一步,要获取一个公众号的全部历史文章。在早已设置好anyproxy代理的真机上,查看历史消息,这时陌陌会打开历史文章网页。

  获取一个html文档:

  

  ,var msgList就是我们须要的历史文章数据,简单正则匹配下来,替代非法字符,JSON.parse转成我们须要的格式。 基于anyproxy,我们给这个html文档注入一段脚本,目的是使这个网页不停的往下自己滚动,触发浏览器去获得更多的文章。

  var scrollKey = setInterval(function () {

window.scrollTo(0,document.body.scrollHeight);

},1000);

  当网页滚究竟,再次获取文章,这个时侯,同样的是get恳求,但是返回了Content-Type为application/json的格式,这里同样的方式,正则匹配找出并低格成我们须要的格式

  

  同时当can_msg_continue为0时,表示早已拉到底,获取了全部文章。

  至此,获得了一个公众号的全部文章,包括文章标题,作者,url。但是没有阅读数和点赞数,这须要打开具体的文章链接,才能看得到。

  我们还没获得阅读数和点赞数,接下来就是一步一步使微信浏览器不停地打开具体文章,触发陌陌浏览器获取阅读数和点赞数。这里使用了socket.io,让文章页面联接自定义的服务器,服务器主动通知浏览器下一个点开的文章链接,这样单向通信,一个循环才能获取具体文章的阅读数和点赞。

  socket.on('url', function (data) {

window.location = data.url;

});

  阅读数和点赞可以在浏览器端,不停检测dom元素是否渲染下来之后搜集发往服务器,也可以直接anyproxy检测下来(这里我采用前一种)。

  key = setInterval(function () {

var readNum = $('#readNum3').text().trim();

if (!readNum) return;

var likeNum = $('#likeNum3').text().trim();

var postUser = $('#post-user').text().trim();

var postDate = $('#post-date').text().trim() || $('#publish_time').text().trim();

var activityName = $('#activity-name').text().trim();

var js_share_source = $('#js_share_source').attr('href');

socket.emit('crawler', {

readNum: readNum,

likeNum: likeNum,

postUser: postUser,

postDate: postDate,

activityName: activityName,

js_share_source: js_share_source

});

}, 1000);

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线