自动采集机器爬虫发一份爬虫文档给你,一劳永逸方法
优采云 发布时间: 2022-06-06 09:00自动采集机器爬虫发一份爬虫文档给你,一劳永逸方法
自动采集机器爬虫,发一份爬虫文档给你,一劳永逸方法,从url延迟一段时间到发请求成功,然后每天利用发请求把当天的数据抓过来,然后每天从发请求的服务器取重复上一次成功的请求,利用反爬虫机制,直接把所有的数据全抓取进去。不懂的去爬虫ui瞅一下,可以爬来他们的html源码,变成xml或者json这样子,你可以直接用js接口接收反爬虫的xml或者json这样子就可以抓数据了。
采集数据的话,fiddler,他的爬虫也可以自动采集到,非采集数据用guppy,他可以提供多种爬虫框架,
谢邀~用的是免费的ce爬虫框架:
scrapy
如果要数据收集,requests+beautifulsoup这就够了。如果要把数据存储,mongodb这些都可以。redis其实也可以,但是你必须会装,不然会出问题。python的话其实可以用requests+beautifulsoup构造http抓包和数据请求。就是需要安装一下tcpdump和beautifulsoup,我没装所以这里就不说了。数据库的话mongodb或者mysql都可以。
推荐scrapy!
之前刚好给其他问题写过教程,