全网文章采集(为什么洪雨需要采集微信公众号文章?)
优采云 发布时间: 2021-09-29 05:01全网文章采集(为什么洪雨需要采集微信公众号文章?)
由于某些原因,洪宇需要采集微信公众号文章。
废话不多说,只说重点。
最初的想法非常简单。本来是想用搜狗微信搜索功能到采集,但是没执行的时候,看到了一些评论。
说到搜狗微信,如果采集的文章不完整,采集太多,IP会被封。
于是果断放弃,也没去研究,因为洪宇知道,这种搜索引擎的采集比较简单。如果大家都是采集,确实会对服务器造成压力。
洪宇开始考虑第二套方案,直接采集公众号。
公众号的文章链接在网页上是可以打开的,但是公众号文章的历史在PC端已经不能打开了。有问题,采集公众号的文章链接不可用。
想打开历史文章,洪宇想到了两种方法,一种是用模拟器模拟手机环境,打开链接。另一种是使用网页微信打开公众号历史链接。
当然,直接在网页上使用微信绝对比使用模拟器容易。
洪宇发现网页微信打不开。只有安装客户端才能在PC端打开微信。好在公众号历史文章还是可以看到的。
这时候问题又来了,如何在模拟器或者客户端获取到历史文章的内容,然后链接采集。
洪宇首先想到的就是互联网拦截和抓包,现在fiddler比较流行。
但是不能直接批量获取和过滤这些数据,所以想一想如何在宜浪中直接抓包,什么抓包,网络拦截,过程都是读取...
结果找了半天也没找到简单有效的方法。模拟器上有抓包教程,但是我还是用fiddler抓包...
最后,洪宇想从微信客户端的手柄入手。
使用编程助手获取窗口句柄,洪宇惊讶地发现,原来的公众号内容以内置浏览器的形式显示在微信客户端,包括历史文章。
虽然它是一个谷歌核心浏览器,你不能用它来填表,但它已经很不错了。
我们可以用鼠标模拟的方法制作微信客户端,然后获取内置浏览器的网页源码。有了源代码,一切都很简单。
剩下的就是过滤有用的信息。
只要你采集链接到每个文章,一切都OK,因为在PC浏览器中可以打开单个文章链接。也就是说可以直接读取源码,从采集到文章的内容。
至此,完成手册。
整理流程,首先要关注采集公众号,然后登录微信PC客户端,在客户端打开历史文章页面,获取源码,然后使用软件采集链接到文章。然后直接阅读文章的源码和采集文章的内容。
作为个人,这是一种傻瓜式采集方法。不需要高难度的技术,也不需要涉及微信公众号等的开发接口,唯一的缺点就是效率比较慢。
不过作为个人采集,应该够了。