分享文章:PHP写微信公众号文章页采集方法
优采云 发布时间: 2022-09-29 19:12分享文章:PHP写微信公众号文章页采集方法
通过搜狗搜索采集公众号历史新闻有几个问题:
1、有验证码;
2、历史消息列表只有最近10条群发消息;
3、文章地址有效;
4、据说批量采集也需要改ip;
通过我之前的文章的方法,就没有这样的问题了,虽然采集的系统搭建不像传统的采集器写规则爬那么简单。但是,批处理 采集 的效率在一次构建后仍然可以接受。而且,采集的文章地址是永久有效的,可以采集访问公众号的所有历史新闻。
先从一个公众号文章的链接地址说起:
1、复制微信右上角菜单中的链接地址:
2、从历史消息列表中获取的地址:
"///file_images/article/201712/2003.jpg" alt="" />
(文章 列表保存在我的数据库中,部分字段)
1、获取文章源代码:
文章 源代码可以通过 php 函数 file_get_content() 读入变量。微信文章的源码可以从浏览器打开,这里就不贴了,以免浪费页面空间。
2、源代码中有用的信息:
1)原文内容:
原文内容是包含在一个标签中的,通过php代码获取: