文章实时采集(文章实时采集并推送给服务器,前端路由好点的话)
优采云 发布时间: 2021-10-04 13:03文章实时采集(文章实时采集并推送给服务器,前端路由好点的话)
文章实时采集并推送给服务器,服务器再推送给客户端。前端路由好点的话,抓包,分析url的utm特征,爬虫最好也接入,能抓一抓也不错,
就题主的问题,
1、抓包容易丢包或中断;
2、人工分析每一次请求中每一个字段,
3、模拟返回很累,
4、别人抓包分析你也不放心;综上,建议题主用第一个方案:一步步弄清每个字段具体含义,分析并获取链接及验证其他参数,最后聚合显示结果。
1、登录:你的每一次访问都会在你自己的服务器上生成一个记录,当你从别人那里登录后,这个登录时间段的记录就会同步到你自己的服务器上。
2、抓包:爬取的是整个站点的数据,一般的服务器都会有默认的模拟ip,打开的网页是无法发起请求的,但是你可以通过修改其他字段发送请求。
3、模拟返回:在访问一些静态文件时,你可以把它模拟成你自己的网站,这样你就能返回给你合适的网站地址,这样你每次浏览这些文件都是获取你的网站地址,顺着网址就可以到对应的服务器上了。
4、聚合:看你的爬虫是不是有收集其他网站数据的,比如ip、cookie这些,如果有的话,你就可以把这些数据爬取过来,用聚合接口就可以聚合到一起。
5、最后,所有的信息统计是比较少的,估计做不下来,更何况你分析这些数据是不是有些数据是重复的,人工统计是比较费力的,如果是数据预处理,还要编写一些特征工程代码,实现这些功能,你不可能每一次都请求数据库把重复的数据过滤出来吧,而且到时候服务器出现问题还要花时间去处理,最后数据的可用性才能得到保证,如果每一次请求都需要使用nginx,你每次请求的数据都需要到nginx的数据库中去查询,然后就把数据保存到数据库中,有一点风险。
最后,根据我的理解,你没必要大费周章,一步步从第一个到后面一个,爬虫总会成熟的,不用有点困难就困难一步,会过的很吃力的。