自动采集推送(微信3.2采集方式3.2.1处理流程及解决方案(一))
优采云 发布时间: 2021-08-31 08:11自动采集推送(微信3.2采集方式3.2.1处理流程及解决方案(一))
3.2采集模式
3.@2.1现状
目前微信采集主要有以下三种方式:
(一)通过微信PC版采集,在电脑正常登陆微信PC版后,通过模拟鼠标键盘操作的方式来进行采集。该方式硬件投入较大。
(二)通过微信网页版采集,直接调用程序扫码登录微信网页版,登录后,微信关注的微信公众号,有新的信息推送到微信时,程序会自动获取推送信息。该方式下微信连接容易中断,无法保证采集的稳定性。
(三)直接通过VirtualXposed监控微信。这种方式是程序直接装在手机上,自动拦截推送的信息。通过分析拦截的数据包,解析出有用的数据。该方式成本相对较低,且稳定性较好。
经过各方面的比较,最终选择第三种方式,即通过VirtualXposter直接监控微信app发送和接收的所有请求包,并进行分析,分析满足要求的文章链接
3.@2.2替代方案
由于使用virtualxposted拦截微信推送信息,微信客户端将被篡夺
改变后,腾讯可能会升级技术,导致虚拟Xpose插件无法再使用。或者,腾讯可以通过技术准确检测手机是否安装了VirtualPosted插件,导致大量封条,导致采集无法稳定执行。目前可行的备选方案如下:
(一)使用3.2.1中的第二种方式。该种方式需要微信号在2017年10月份以前注册,否则无法登陆网页版;
(二)使用AnyProxy抓包的方式。该种方式对技术要求较高,目前尚未进行详细的测试。
3.3采集process
微信采集整体流程如下图3-1所示:
图3-1
主要分为三个部分:
1) 公众号的收集与添加;
2) 文章URL获取与解析;
3) 正文分布式采集;
3.@3.1官方帐户的采集和添加
可以通过以下步骤处理正式帐户收款:
1) 遍历ES中八友历史数据,解析文章正文中存在的公众号信息,并保存数据;
2) 根据项目关键词,通过搜狗微信公众号搜索,进行搜索解析并保存入库;
3) 特殊需求的公众号由各个项目自行提供;
新增微信官方账号查看4.3节日
3.@3.2 文章URL获取并解析
微信文章URL处理流程如下图3-2所示:
图3-2
3.@3.3文本采集
文章文本处理流程如下图3-3所示:
图3-3
3.4数据存储
微信采集数据存储过程分为三个部分,一个是微信号和官方账号的存储。这两个是官方账号文章list的存储。第三个是文章文本信息存储。每个模块的存储如下所述
3.@4.1微信号存储
3.@4.2官方帐户存储
3.@4.3 文章URL贮藏
手机手机安装在文章VirtualXposed插件中,接收到微信官方账号后,接收到的数据即被接收。然后数据包加上手机号发送到Redis接口,接口解析数据包,然后文章URL数据存储在redis集群中
根据八友微信界面的日数据量,微信需要在采集处理的较活跃公众号的官方账号为40~50万,而文章的日数据量约为8000~1.2亿。为了便于管理,计划每天在redis集群中生成一个哈希型缓存表。表名格式为:wechat_uuyyyymmdd,其中数据格式为key=URL,value=current addition time。如下图3-4所示
图3-4
3.@4.4采集history存储
微信文章已发布。每个采集脚本都请求redis接口服务获取一定数量的信息文章URL然后采集text被推送到卡夫卡。同时,redis接口将从微信中检索请求的URL信息uyyymmdd从缓存中删除并保存到采集history缓存中。哈希类型的缓存表名格式为微信历史Yyyymmdd,如下图3-2所示。其中key=URL,value=请求时的当前系统时间。如下图3-5所示
图3-5
3.5采集monitoring
整个采集流程中需要监控的节点有:xposed插件;Redis接口服务接收、解析、入库;Text采集(源代码获取、分析、卡夫卡推送)。具体处理如下:
3.@5.1暴露监测
主要分为两个部分:一是监控XPOSE插件,防止长时间运行导致崩溃;第二种是xposed包发送
exposed插件:由于自身有缺陷的机器长时间运行而导致的崩溃。目前,还没有找到好的治疗方法。这只能通过重新启动插件或移动电话来完成
exposed packet:包异常主要反映在调用redis集群接口服务时。当接口服务异常时,需要将获取的数据推送到数据库或写入文件,在接口服务正常时重新发送
3.@5.2Redis接口服务监控
它主要监控xposed包解析和保存的其他两个步骤。发生异常时,将数据写入本地文件,正常时重新处理
3.@5.3文本采集monitoring
文本采集监测点主要包括:采集URL记录、文本源代码下载、文本分析和信息推送卡夫卡
① 已采集URL记录在历史信息表中,保留一个月,用于对采集异常的追溯;
② 正文源码下载:记录请求状态码;
③ 正文解析:记录解析状态;0:成功;1:失败;
④ 信息推送:推送异常数据保存在本地文件,待服务正常时进行二次推送。如果一条信息推送三次均未成功,则表示推送失败,同时删除内容。
同时,有必要监控服务器IP的密封性
3.@5.4将官方帐户添加到监视器
目前一些网站具有官方账户搜索功能。在早期阶段,我们可以使用项目相关信息在这些网站上搜索关键词并获得一些新注册的官方帐户。搜索平台如表3-1所示:
搜狗微信公众号搜索/微信?类型=1&;查询=%E9%93%B6%E8%A1%8C&;ie=utf8&;s_u;from=输入和;sug=y&;苏格型=
微信公众号由/so.aspx wd=%e9%87%91%e8%9e%8d&.推荐。t=伟信;p=16
聚微信/微信/索引/0/1?a=1&;每页=1540页
4采集运行和维护管理
采集官方账号数据采集运维工作,主要在微信号注册、维护号码、启封等工作,至于微信文章@的采集,在*敏*感*词*指标。所有人员应在家中或上下班途中登记微信号并保持号码(发送朋友圈,如聊天)
4.1微信注册
由于微信号监管力度的逐步加强,新登记的微信号被封存的概率较高。因此,微信号在配准过程中需要遵循一定的规则。具体预防措施如下:
① 注册请用官微,不要用那些多开软件注册
② 使用4G网络,千万不要用wifi,不要开GPS。同一个Wifi或GPS多个微信号注册,相当容易被封号的。
③ 每个手机必须提前存3-5个手机号进去,注册成功的时候,可以直接加上微信好友
④ 选择不同位置注册,可使用不同出行方式(公交、地铁、步行),每次注册的距离大于1.5km,每次注册间隔时间大于10分钟,最好分开时间段注册,尽量一批号不要是同一天,最好是分散到 3-5 天注册完成。
⑤ 注册时如果5分钟之内收不到验证码,先暂停该号码注册,不要频繁发送验证码
⑥ 随意关注几个公众号(搜索微信安全中心、京东、爱奇艺搞笑等公众账号)
⑦ 注册后一定先自己任意使用微信,之后注册其他号完成后也要使用一下之前注册的微信
⑧ 注册之后不能将手机关闭
⑨ 新微信号注册,密码不要一样。建议采用:相同字符+手机号的形式,也比较容易记。
⑩ *敏*感*词*的地区一定不要填写,因为一点开就开始获取位置了,这个记录宁可不让微信知道。*敏*感*词*不要一次性全部填完,每天填一点,分批填写,可以增加活跃的权重。
⑪ 设置头像,注意,头像图片必须每张都不一样,如果一定需要设置同样的头像,请通过制图软件修改图片的大小,亮度等,另存成不同的图片,这样对于微信系统来说,可以绕过一定的检测。
⑫ 名字最好多个号都不一样 。
注意事项:
现在有了特别的微信服务,你可以在购买后使用。但出于安全考虑,建议登录一周,在此期间发送一些朋友圈,或添加一些微信,每天随意聊天,以降低异常概率
4.3加
记入官方帐户
,因为每个微信号每天只能关注40-50个公众号,为了保证微信号的稳定性(官方号不是官方号),需要在不同的时间和地点分发公众号。所有采集相关人员均可参加,并根据实际情况给予相应的奖惩
具体实施步骤如下:
(1) 根据手机编号,把每一部手机分配到人;
(2) 根据时间节点,合理安排每人每日需要处理的微信号(每天5台 /人)
(3) 通过自动脚本,给每个人当天负责的每个微信号上,通过聊天的方式,给每个微信号发送需要关注的40~50个公众号文章;
(4) 相关人员在办公室(尽量少)、上下班或者家中,添加微信接收到的文章的公众号为关注;
如上所述
每日可增加官方账号:2400~3000[5(台湾/人日)*40~50(公共)
)
数目)*12(总数)]。40~50官方帐户需要
123个工作日
通过奖惩鼓励相关人员处理,加快进度。详情如下:
① 每周每人需正常关注1200个,每多关注1000个奖励200元。
② 如果未达到正常关注数量,当月考核降一级。
4.4微信号解包
4.4.1导致封印的情况
① 平时微信会封禁的账户类型(诈骗,*敏*感*词*营销,吸粉账号等)。
② 添加好友过于频繁,尤其是新号,必封!
③ 微信信息发布中出现累计超过10次的敏感词语
包含:支付宝、银行、银行卡、汇款、打款、打钱、帐号、帐户、转帐、网银、多少钱、怎么卖、价格”会被封号,或提醒账号有风险(解决方案:信息发布中,不要包含有和钱有关的字语)
④ 微信发送的内容被好友举报。 一般是2-5人的举报就会封号。
⑤ 频繁更换账号登陆,或是同一个账号频繁在不同的手机上登陆。
⑥ 传播*敏*感*词*,暴利,反动,辱骂、QQ号码、手机号码、广告类网址等信息,被发现就会封号
⑦ 手机上安装了 Xposed 、Magisk 框架(激活或者未激活)的用户。
⑧ 一部分只 ROOT 手机的用户(存疑)和使用越狱后 iOS 的用户。
⑨ 使用手机自带/第三方的微信分身功能同时使用多个微信账户。
⑩ 少部分什么都没装无辜躺*敏*感*词*的 Play 商店版微信用户。
⑪ 在多开上注册的微信账号。
⑫ 在聊天过程中频繁使用一些敏感词汇(如:转账、付款、*敏*感*词*等词)。
4.4.2微信号解包
① 永久封号的,可以注销手机号重新申请;
② 临时封号,使用微信的自助解封功能进行处理;
4.5采集部署管理
因为微信采集需要大量手机作为支持。为了保证采集的稳定性和手机(主要是手机电池)的安全,手机的统一管理非常重要。以下步骤主要是为了便于统一管理:
4.5.1手机支架管理
购买统一手机支架:手机支架要求稳定,有利于手机散热、充电、取电等;见下图4-1
图4-1
同时为手机支架编号:
① 对每个手机支架进行编号;
② 对每个支架的每层进行编号;
③ 对每层每个手机位进行编号;
4.5.2移动管理
主要对手机进行编号,分为以下步骤:
① 把购买的手机号添加到信源系统的微信号管理功能下;
② 手机编号规则:手机支架编号+每层编号+手机位编号+信源系统中手机号ID,作为每个手机的编号;
手机支架和手机编号后,在每个支架、支架的每一层和每个手机位置贴上相应的标签;然后,根据规则生成手机号码并粘贴在手机背面。最终效果类似于下图4-2
图4-2
4.5.3手机群控管理系统由内部一套软件和外部一台计算机及多部手机组成。逻辑是模拟手机的手动操作。使用手机本身的流量不容易被阻断。便于号码维护、开封等操作。群控软件的效果如下图4所示-3、4-如图4所示:
图4-3
图4-4
手机群控软件(总控)报价如下:
项目 官方价格
多设备控制 (10) ¥260/年
多设备控制 (20) ¥540/年
多设备控制 (30) ¥800/年
多设备控制 (50) (40) ¥1400/年 (¥1600/年)
多设备控制 (70) (60) ¥2800/年 (¥3200/年)
多设备控制 (100) ¥4460/年 (¥5000/年)
表 4-1
总体控制具有以下主要特点:
① 无需手机root;
② 只适用于Android 4.0以上;
③ 可将手机自定义分组,分组控制/执行各种任务;
④ 消息集中管理;
4.6操作和维护工具的开发
4.6.1自动聊天工具