文章实时采集(文章实时采集并推送给服务器，前端路由好点的话)

优采云发布时间: 2021-10-04 13:03

　　文章实时采集并推送给服务器，服务器再推送给客户端。前端路由好点的话，抓包，分析url的utm特征，爬虫最好也接入，能抓一抓也不错，

　　就题主的问题，

　　1、抓包容易丢包或中断；

　　2、人工分析每一次请求中每一个字段，

　　3、模拟返回很累，

　　4、别人抓包分析你也不放心；综上，建议题主用第一个方案：一步步弄清每个字段具体含义，分析并获取链接及验证其他参数，最后聚合显示结果。

　　1、登录：你的每一次访问都会在你自己的服务器上生成一个记录，当你从别人那里登录后，这个登录时间段的记录就会同步到你自己的服务器上。

　　2、抓包：爬取的是整个站点的数据，一般的服务器都会有默认的模拟ip，打开的网页是无法发起请求的，但是你可以通过修改其他字段发送请求。

　　3、模拟返回：在访问一些静态文件时，你可以把它模拟成你自己的网站，这样你就能返回给你合适的网站地址，这样你每次浏览这些文件都是获取你的网站地址，顺着网址就可以到对应的服务器上了。

　　4、聚合：看你的爬虫是不是有收集其他网站数据的，比如ip、cookie这些，如果有的话，你就可以把这些数据爬取过来，用聚合接口就可以聚合到一起。

　　5、最后，所有的信息统计是比较少的，估计做不下来，更何况你分析这些数据是不是有些数据是重复的，人工统计是比较费力的，如果是数据预处理，还要编写一些特征工程代码，实现这些功能，你不可能每一次都请求数据库把重复的数据过滤出来吧，而且到时候服务器出现问题还要花时间去处理，最后数据的可用性才能得到保证，如果每一次请求都需要使用nginx，你每次请求的数据都需要到nginx的数据库中去查询，然后就把数据保存到数据库中，有一点风险。

　　最后，根据我的理解，你没必要大费周章，一步步从第一个到后面一个，爬虫总会成熟的，不用有点困难就困难一步，会过的很吃力的。

0

2021-10-04

文章实时采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章实时采集(文章实时采集并推送给服务器，前端路由好点的话)

0 个评论

发起人

AI时代内容工厂

文章实时采集(文章实时采集并推送给服务器，前端路由好点的话)

0 个评论

发起人

相关问题