采集文章内容(一下如何用PHP写出采集微信公众号文章的方法以及代码详细讲解)
优采云 发布时间: 2021-09-14 00:12采集文章内容(一下如何用PHP写出采集微信公众号文章的方法以及代码详细讲解)
现在微信用户越来越多。当然,他们会关注很多微信公众号。微信公众号里的文章也可以看成是有远见的。今天,我将分析如何在PHP中编写它。 采集微信公号文章的方法和代码都有详细解释,一起来看看吧!
通过搜狗搜索采集公众号的历史记录存在一些问题:
1、有验证码;
2、历史消息列表只有最近10条群发消息;
3、文章地址有有效期;
4、据说批量采集需要改ip;
通过我之前的文章方法,没有出现这样的问题,虽然采集系统设置不像传统的采集器写规则爬行那么简单。但是batch采集构建一次后的效率还是可以的。而采集的文章地址是永久有效的,您可以通过采集获取一个公众账号的所有历史信息。
先从公众号文章的链接地址说起:
1、微信右上角菜单复制的链接地址:
2、从历史消息列表中获取的地址:
#wechat_redirect
3、完整真实地址:
%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&1w_head
以上三个地址是同一篇文章文章的地址,在不同位置获取时得到三个完全不同的结果。
和历史新闻页面一样,微信也有自动添加参数的机制。第一个地址是通过复制链接获得的,看起来像一个变相的代码。其实没用,我们不去想。第二个地址是通过上面文章介绍的方法从json文章历史消息列表中得到的链接地址,我们可以把这个地址保存到数据库中。然后就可以通过这个地址从服务器获取文章的内容了。第三个链接添加参数后,目的是让文章页面中的阅读js获取阅读和点赞的json结果。在我们之前的文章方法中,因为文章页面是由客户端打开显示的,因为有这些参数,文章页面中的js会自动获取阅读量,所以我们可以通过代理服务获取这个文章的阅读量。
本次文章的内容是根据本专栏前面文章介绍的已经获得大量微信文章的方法,详细研究了文章如何获得内容和其他有用的信息方法。
(文章list 保存在我的数据库中,一些字段)
1、Get文章源代码:
文章源代码可以通过php函数file_get_content()读入一个变量。因为微信文章的源码可以从浏览器打开,这里就不贴了,以免浪费页面空间。
2、源代码中的有用信息:
1)原创内容:
原创内容收录在一个标签中,通过php代码获取:
正则模式开头识别
,结束识别
登录