微信公众号文章采集系统---开箱即用
优采云 发布时间: 2020-08-04 18:00本着开源精神和便于用户,现已将"微信公众号文章采集系统"打包成虚拟机,你只需下载安装虚拟机镜像,即可使用。
系统镜像有6个G,只能通过*敏*感*词*的方式下载了, 镜像*敏*感*词*下载地址
链接: 密码: 7r4d
首先要感谢飯口組組長 把他的采集方案开源出来 。
这里从而称之为系统是因为涉及至的技术很多,这里一一列举:
1、anyproxy 阿里巴巴开源的代理*敏*感*词*,使用的是4.0的版本,可以很方便的更改 response 信息。anyproxy 我在系统中早已安装好了,安装也很简单,先安装nodejs环境,然后用npm安装anyproxy.
anyproxy 4.0开始规则可以成为模块来开发,写好了规则代码然后,不用动其实的代码,只必须在anproxy的参数带上规则文件。这里用到的命令 anproxy --rule weixin.js。 关于anproxy如何设置https 证书问题,可以参考官网。我在虚拟机中设置了全局的代理,所以必须 anyproxy 打开后就能,8001端口可以访问请求能否成功。
规则代码主要的逻辑是针对微信公众号的请求进行拦截,把数据转发到 php。
2、apache+php+mysql 这里主要是作为web服务器来处理anyproxy 拦截的请求,处理微信文章数据和点赞数、阅读数。
拦截过来的数据的处理可以看详细的php代码,逻辑不算很复杂。这里为了便于使用的是phpstudy的集成开发环境。
3、按键精灵,按键精灵是国产的一种类似vb语法的模拟键盘鼠标的工具。这里用到按键精灵来模拟点击windows下的微信客户端。
在处理多个微信公众号的之后,需要客户端来点击,把所有的自动操作通过按键精灵来模拟出来。去查看具体的代码的之后,我在处理点击历史消息使用了一个小技巧,事实是开始想通过直接通过识别照片的方法来找到 “历史消息” 按钮的位置,但是发觉如何也找不到,然后只能 循环向下移动鼠标,直到区域内找到特定的颜色,就是“历史消息”按钮。
在一条思路行不通的之后,就要尝试其他思路。整个系统就是做出来,就是要处理这些看似行得通,实际不通,然后再去尝试,如此反复。
4、windows 微信客户端,其实我尝试过用安卓模拟器,因为我的目标是开箱即用,所以必须把所有的程序都无法装到一起,但是在虚拟机中是无法安装安卓模拟器,也就是说虚拟机中是无法做二次虚拟的。这个坑我终于踩过了,大家就不用踩了,记得之前有人问过,阿里云windows服务器能不能装 安卓模拟器,我想答案是一样的,虚拟机不能做二次虚拟化,阿里云windows服务器不能装安卓模拟器。
所以,当我尝试安卓模拟器后,发现其实微信pc客户端(包括mac)的功能早已做的太完善了,然后就去尝试windows客户端。
5、virtualbox 虚拟机,这个是甲骨文公司出的虚拟机。会涉及到一些网络的配置,比如设置为NAT模式。
现在把虚拟机镜像开源出来,里面所有的代码都在虚拟机中,大家可以随便修改。
从更开始了解公众号文章采集到了解实现原理,再到最后做出镜像,中间经历过诸多困难,耗时耗力,请教各种人,甚至喝水吃饭都在想某个细节的解决方案,有解决问题的快乐,有被问题缠绕时的困惑,感谢这个过程中予以过帮助人。
在安装使用过程中碰到什么问题可以加我微信 ( liuhan199012 )
文章来源:segmentfault,作者:程序员Hani。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:william.shi#ucloud.cn(邮箱中#请改为@)进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
后台-系统设置-扩展变量-手机广告位-内容正文底部