洪雨需要采集微信公众号文章的思路很简单,直接说重点

优采云 发布时间: 2021-04-24 07:01

  洪雨需要采集微信公众号文章的思路很简单,直接说重点

  由于某些原因,Hong Yu需要采集微信公众号文章。

  别胡说八道,只是说说要点。

  最初的想法很简单。当时是使用搜狗的微信搜索功能来采集,但是当它没有实现时,我看到了一些评论。

  说到搜狗微信,如果采集中的文章不完整,并且采集太多,则IP将被阻止。

  因此,我果断地放弃了,甚至没有研究它,因为Hong Yu知道此搜索引擎的采集相对简单。如果每个人都是采集,则确实会对服务器造成压力。

  Hong Yu开始考虑第二套计划,直接考虑采集官方帐户。

  可以在网络上打开官方帐户的文章链接,但是不能再在PC端打开官方帐户文章的历史记录。这就带来了一个问题,采集官方帐户的文章链接是不可能的。

  要打开历史文章,洪宇想到了两种方法。一种是使用模拟器来模拟手机环境并打开链接。另一种是使用网页微信打开官方帐户历史记录链接。

  当然,直接在网络上使用微信绝对比使用模拟器更容易。

  Hong Yu发现无法打开网页微信。只能安装客户端以在PC上打开微信。幸运的是,仍然可以看到官方帐户文章的历史记录。

  这时,问题又来了,我该如何在模拟器或客户端中获取历史记录文章的内容,然后链接采集。

  洪宇想到的第一件事是互联网拦截和数据包捕获,现在提琴手越来越流行。

  但是您不能直接批量获取和过滤这些数据,因此请考虑直接在Yilang中捕获数据包的方法,读取什么数据包捕获,网络拦截以及整个过程...

  结果,经过长时间的搜索,我找不到一种简单有效的方法。有一个使用模拟器捕获数据包的教程,但是我仍然使用提琴手来捕获数据包...

  最后,Hong Yu想从微信客户端的处理开始。

  使用编程助手获取窗口句柄,Hong Yu惊喜地发现原创官方帐户在微信客户端上以内置浏览器的形式显示,包括历史记录文章。

  尽管它是Google核心的浏览器,但是不能通过填写表格来操作,但是它已经非常好了。

  我们可以使用鼠标模拟方法制作微信客户端,然后获取内置浏览器的网页源代码。有了源代码,一切都变得很容易。

  剩下的就是过滤有用的信息。

  只要采集链接到每个文章文章,就可以了,因为可以在PC浏览器中打开单个文章文章的链接。换句话说,可以直接读取源代码采集至文章。

  现在,完成输入。

  要整理流程,首先必须注意采集的官方帐户,然后登录微信PC客户端,在客户端中打开历史记录文章页面,获取源代码,然后使用软件采集至文章链接。然后直接读取文章的源代码和采集 文章的内容。

  作为个人,这是一种傻瓜式采集方法。它不需要困难的技术,也不需要涉及微信公众号的相关开发接口。唯一的缺点是效率相对较慢。

  但是作为个人采集,应该就足够了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线