分享:易语言微信公众号文章采集思路

优采云 发布时间: 2020-09-03 18:10

  彝语微信公众号文章 采集想法

  由于某些原因,Hong Yu需要采集微信公众号文章。

  别胡说八道,只是说说要点。

  最初的想法很简单。当时是使用搜狗微信搜索功能来采集,但未执行时我看到了一些注释。

  说到搜狗微信,如果采集的文章不完整且采集太多,则会屏蔽IP。

  因此,我果断地放弃了,甚至没有研究它,因为洪宇知道此搜索引擎的采集相对简单。如果每个人都是采集,则确实会对服务器造成压力。

  Hong Yu开始考虑第二套计划,直接考虑采集官方帐户。

  可以在网络上打开官方帐户的文章链接,但不能再在PC端打开官方帐户文章的历史记录。有一个问题,采集官方帐户的文章链接是不可能的。

  要打开历史文章,洪宇想到了两种方法。一种是使用模拟器来模拟手机环境并打开链接。另一种是使用网页微信打开官方帐户历史记录链接。

  当然,直接在网络上使用微信绝对比使用模拟器更容易。

  Hong Yu发现无法打开网页微信。只能安装客户端以在PC上打开微信。幸运的是,仍然可以看到官方帐户文章的历史记录。

  这时,问题又来了,我该如何在模拟器或客户端中获取历史记录文章的内容,然后链接采集。

  洪宇想到的第一件事是互联网拦截和数据包捕获,现在提琴手越来越流行。

  但是您无法直接批量获取和过滤这些数据,因此请考虑直接在Yilang中捕获数据包的方法,捕获的数据包,网络拦截以及已读取过程的方法...

  结果,经过长时间的搜索,我找不到一种简单有效的方法。有一个使用模拟器捕获数据包的教程,但是我仍然使用提琴手来捕获数据包...

  最后,Hong Yu想从微信客户端的句柄开始。

  使用编程助手获取窗口句柄,Hong Yu惊讶地发现原创的官方帐户内容在微信客户端上以内置浏览器的形式显示,包括历史记录文章。

  尽管它是Google核心的浏览器,但无法通过填写表单进行操作,但它已经非常好。

  我们可以使用鼠标模拟方法制作微信客户端,然后获取内置浏览器的网页源代码。有了源代码,一切都很容易。

  剩下的就是过滤有用的信息。

  只要采集链接到每个文章文章,就可以了,因为可以在PC浏览器中打开单个文章文章的链接。换句话说,可以直接读取源代码采集至文章。

  现在,完成输入。

  要组织该过程,我们必须首先注意采集的官方帐户,然后在登录微信的PC客户端中打开历史记录文章页面,获取源代码,然后使用采集至文章软件链接。然后直接读取文章的源代码和采集 文章的内容。

  作为个人,这是一种傻瓜式采集方法。它不需要困难的技术,也不需要涉及微信官方账号的开发。唯一的缺点是效率相对较慢。

  但是作为个人采集,就足够了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线