文章采集完(天猫店铺文章采集完成后,首先要去重吗?)
优采云 发布时间: 2021-12-14 20:04文章采集完成后,首先要去重,有些会为了节省采集和去重的工作量,会自动去重一部分数据,可以算出来是重复的,其次看一下数据的维度是否全,每个维度是否符合要求,特别是按省、市,甚至国家去看,比如有全国的数据,分布是否符合要求。1.关于数据采集1.1海量天猫店铺数据爬取、天猫上的每个天猫店铺都是由店铺所有者或者经营者提供,只要能够抓取到店铺名、店铺logo、店铺描述、店铺简介这五个点,全部能够获取。
缺点就是店铺不好去重,一个店铺数据可能多次出现,这个需要去人工筛选,后期去除重复数据即可。1.2ip地址采集通过抓包和代理ip,也能获取天猫店铺的ip地址,然后需要获取采集到的ip地址,再到通过爬虫工具进行代理ip。1.3访客ip抓取通过访客ip可以抓取天猫店铺评论数、评论店铺、店铺内部商品名、店铺简介、店铺宝贝名、店铺的销量等,不过访客ip抓取到的店铺名存在一定的规律,当出现一个大中小块一致的情况时,那么店铺的评论数就存在很大的可能性。
这种情况就需要去人工筛选,存在规律的访客ip,再去爬取。2.关于爬虫工具2.1scrapy爬虫工具2.2celery爬虫工具2.3spider通过web框架搭建celery爬虫2.4google+爬虫工具2.5hipchat工具2.6pymysql工具3.采集效果3.1销量排名情况3.2销量+问答情况3.3销量+差评情况4.总结4.1数据清洗5.后记后续有关于采集的更多问题都可以在知乎进行交流。