文章采集程序(如何通过公众号历史消息页面获取到文章地址的列表)

优采云 发布时间: 2021-10-14 13:22

  文章采集程序(如何通过公众号历史消息页面获取到文章地址的列表)

  前面文章详细介绍了如何通过公众号历史消息页面获取文章地址列表,那么获取列表后下一步就是文章采集的内容@> 到你自己的数据库。最近看到一些网站提供的其他公众号文章的爬虫。我以前从未关注过这些。经过观察,发现仍然使用传统的网站采集器形式采集@>搜狗的微信搜索。通过搜狗搜索采集@>公众号历史新闻有几个问题:1、有验证码;2、 历史消息列表只有最近10条群发;3、文章地址有有效期;4、 据说batch采集@>需要改ip;通过我之前的方法文章就没有这个问题了,虽然采集@>系统不如传统采集器写规则爬行那么简单。但是batch采集@>构建一次后的效率还是可以的。而且,采集@>的文章地址是永久有效的,您可以通过采集@>获取一个公众号的所有历史消息。

  先从公众号文章的链接地址说起:

  1、 复制微信右上角菜单中的链接地址:

  http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

  2、历史消息列表中获取的地址:

  http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

  3、完整的真实地址:

  https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

  以上三个地址是同一篇文章文章的地址,在不同位置获取时得到三个完全不同的结果。

  和历史新闻页面一样,微信也有自动添加参数的机制。第一个地址是通过复制链接获得的,看起来像一个变相的代码。其实没用,我们不去想。第二个地址是通过前面文章中介绍的方法,从json文章历史消息列表中获取的链接地址。我们可以将这个地址保存在数据库中。然后就可以通过这个地址从服务器获取文章的内容。第三个链接添加参数后,目的是让文章页面中的阅读js获取阅读和点赞的json结果。在我们之前的文章方法中,由于文章页面是由客户端打开显示的,由于这些参数,文章中的js

  本次文章的内容是根据本专栏前面文章介绍的方法获取大量微信文章,我们将详细研究如何获取内容文章 等的一些有用的信息方法。

  

  (文章 列表保存在我的数据库中,一些字段)

  1、获取文章的源码:

  文章的源码可以通过php函数file_get_content()读入一个变量。由于微信文章的源码可以从浏览器打开,这里就不贴了,以免浪费页面空间。

  2、 源代码中的有用信息:

  1) 原文内容:

  原创内容收录在一个标签中,通过php代码获取:

<p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线