采集的文章内容不能直接发布(为什么洪雨需要采集微信公众号文章?)
优采云 发布时间: 2021-09-06 06:12采集的文章内容不能直接发布(为什么洪雨需要采集微信公众号文章?)
由于某些原因,鸿宇需要采集微信公号文章。
废话不多说,只说重点。
最初的想法很简单。本来是用搜狗微信搜索功能到采集的,但是没执行的时候看到了一些评论。
说到搜狗微信,如果采集的文章不完整,采集太多,IP会被封。
所以,我果断放弃了,也没去研究,因为洪宇知道这个搜索引擎的采集比较简单。如果每个人都是采集,确实会对服务器造成压力。
洪宇开始考虑第二套方案,直接采集公号。
公众号的文章链接在网页上是可以打开的,但是公众号文章的历史记录在PC端已经打不开了。有一个问题。找不到采集公号的文章链接。
打开历史文章,洪宇想到了两个办法。一种是用模拟器模拟手机环境,打开链接。另一种是使用网页微信打开公众号历史链接。
当然,直接在网页上使用微信肯定比使用模拟器容易。
洪宇发现网页微信打不开。只有安装客户端才能在PC端打开微信。还好官方账号历史文章还是可以看到的。
这时候问题又来了,如何在模拟器或者客户端获取历史文章内容,然后链接采集。
洪宇首先想到的就是互联网拦截和抓包,现在fiddler比较流行。
但是不能直接批量获取和过滤这些数据,所以想办法直接在宜朗抓包,什么抓包,网络拦截,过程都读...
结果找了半天也没找到简单有效的方法。有模拟器抓包的教程,不过我还是用fiddler抓包...
最后,洪宇想从微信客户端的手柄入手。
使用编程助手获取窗口句柄,洪宇惊讶地发现,原来的公众号内容以内置浏览器的形式显示在微信客户端,包括历史文章。
虽然是谷歌核心浏览器,不能通过填表操作,但是已经很不错了。
我们可以用鼠标模拟的方法制作微信客户端,然后获取内置浏览器的网页源码。有了源代码,一切都很简单。
剩下的就是过滤有用的信息。
只要采集链接到每个文章,一切都OK,因为在PC浏览器中可以打开单个文章链接。也就是说可以直接读取源代码,从采集到文章内容。
现在,完成输入。
整理流程,首先要关注采集公众号,然后登录微信PC客户端,在客户端打开历史文章页面,获取源码,然后使用软件采集到@ 链接到文章。然后直接阅读文章源码,采集文章内容。
作为个人,这是一种相当傻瓜式采集 方法。不需要高难度的技术,也不需要涉及微信公众号等相关开发接口,唯一的缺点就是效率比较慢。
但作为个人采集,应该够了。