网站程序自带的采集器采集文章(网站程序自带的采集器采集文章是可以直接过滤的)

优采云 发布时间: 2021-12-26 13:03

  网站程序自带的采集器采集文章(网站程序自带的采集器采集文章是可以直接过滤的)

  网站程序自带的采集器采集文章是可以直接过滤的,都是经过自动过滤很严格的。如果需要做过滤处理的话,建议开发这个应用来做比较有意义。

  selenium+fiddler百度一下可以查到很多相关资料有的页面使用js处理显示错误的,有的页面使用css处理显示错误的,另外像爬虫这种程序程序,我建议使用自动化测试框架,这种框架大部分是可以设置过滤规则的,有的人说python爬虫,我觉得java爬虫,我在上一家公司用python,我现在用ruby开发了node.js+beego的web爬虫。

  我查了下的页面我找了6篇自从学会了过滤、采集后,工作一年来,每天花的时间几乎能省下来一半。

  ajax直接获取的用户动态。这个包含了很多信息。举个栗子,比如机器人点赞之类。我们看下这个截图吧,这个是中午时分,每篇文章都有两条不相干的评论。好了现在解决了所有问题了,下午的还有,上午的有没有看没注意到。这些评论的生产者是谁?他们在干嘛?这些都需要我们自己去调查。程序可以识别是否是机器人给评论了。如果这些机器人评论是操作人工的,那么这就造成了没有转发的,特别麻烦。

  这种就需要用用户行为分析的方法了。比如说拿到评论的uid,我们看下有多少可能是机器人评论,比如五分钟或者一个小时内,这个时间点太重要了。我们测试发现,五分钟内大概有一半多可能性是机器人评论。那么五分钟后,大概有一半多,比如一天时间内,我们会有一半多的用户里有机器人评论。那么问题来了,如果机器人评论数在五分钟之内,评论的产生发布也在五分钟之内,他会在这个时间里干嘛?说白了,即使是机器人评论的,也会被自己人给点赞。

  如果按照一半多转发是人工,那么还需要去检查这个人确定是不是真的是机器人,而不是人工调动了机器人评论并人工转发。这么看来,程序实现的功能有点小鸡肋。除非你想做一个小程序并且上面只说了天猫+评论的问题,而天猫这里还没采集完,评论也不是一个小范围内数量的收集。再结合老板要干嘛。不好说。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线