querylist采集微信公众号文章( 搜狗搜索采集公众号历史消息(图)问题解析)

优采云 发布时间: 2021-11-13 14:05

  querylist采集微信公众号文章(

搜狗搜索采集公众号历史消息(图)问题解析)

  PHP如何写微信公众号文章页面采集

  通过搜狗搜索采集公众号的历史新闻有几个问题:

  1、 有验证码;

  2、历史留言列表只有最近10条群发;

  3、文章 地址有有效期;

  4、据说批量采集需要改ip;

  通过我之前的文章方法,没有出现这样的问题,虽然采集的系统搭建不像传统的采集器写规则爬行那么简单。但是batch采集构建一次后的效率还是可以的。而且,采集的文章地址是永久有效的,您可以通过采集获取一个公众号的所有历史消息。

  先从公众号文章的链接地址说起:

  1、 复制微信右上角菜单中的链接地址:

  2、 历史消息列表中获取的地址:

  #wechat_redirect

  3、完整的真实地址:

  %3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%header1D

  以上三个地址是同一篇文章文章的地址,在不同位置获取时得到三个完全不同的结果。

  和历史新闻页面一样,微信也有自动添加参数的机制。第一个地址是通过复制链接获得的,看起来像一个变相的代码。其实没用,我们不去想。第二个地址是通过前面文章中介绍的方法从json文章历史消息列表中得到的链接地址,我们可以将这个地址保存到数据库中。然后就可以通过这个地址从服务器获取文章的内容。第三个链接添加参数后,目的是让文章页面中的阅读js获取阅读和点赞的json结果。在我们之前的文章方法中,由于文章页面是由客户端打开显示的,因为这些参数,文章中的js

  本次文章的内容是根据本专栏前面文章介绍的方法获取大量微信文章,详细研究如何获取文章的内容@文章 和其他一些有用的信息方法。

  

  (文章 列表保存在我的数据库中,一些字段)

  1、获取文章的源码:

  文章的源码可以通过php函数file_get_content()读入一个变量。由于微信文章的源码可以从浏览器打开,这里就不贴了,以免浪费页面空间。

  2、 源代码中的有用信息:

  1) 原文内容:

  原创内容收录在一个标签中,通过php代码获取:

<p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线