事实:自动采集数据过滤掉了不重复的数据怎么用？

优采云发布时间: 2022-11-08 19:21

　　自动采集数据都是过滤掉了不重复的数据，这样就不存在这个问题。目前的网页采集工具做到的是网页的网址之间有相互绑定的情况，通过循环抓取，但是这样无法做到自动获取相关页面的数据。

　　针对您的问题，多久采集完全取决于你采集下来的网页有多少个页面。如果是每个页面有1k以上，那就基本上1w天不用再管了。另外，页面数量也取决于你获取的方式。如果全都需要进行过滤，建议淘宝，一个数据接口接4-5万页面比较合适。

　　torrent分析工具了解一下

　　可以写爬虫的，国内一个很厉害的爬虫，叫斯千亿，你可以看一下他的开源爬虫，就是用scrapy框架的。可以从他的开源地址下，很好用的爬虫教程，少看视频，多看代码，主要看他写了什么爬虫和怎么用爬虫。

　　写爬虫的话，是可以做到的，我用过好多线程池做爬虫，每个线程采集1k页面，然后将其中重复的页面采集了，之后再统一合并。可以满足你100万这个规模的数据量爬取。

　　你把采集结果再下载出来就够了

　　采集下来还不如自己写爬虫。那种循环获取重复页面的做法只适合做页面简单的过滤吧，对于复杂网站还是无能为力。另外爬虫本身效率低，成本高，并发还不好定时提醒用户；对于运维方来说肯定更麻烦。

0

2022-11-08

自动采集数据

0 个评论

要回复文章请先登录或注册