自动采集机器人用的是scrapy吧?怎么办?
优采云 发布时间: 2022-08-14 17:07自动采集机器人用的是scrapy吧?怎么办?
自动采集机器人是可以的。采集机器人用的是scrapy,是个lib库,lib库本身是可以用来采集数据的。目前市面上有关机器人的源码看起来是国人搞的,要不然就是做cms的仿照下selenium。要不然就是用c++搞的dowmagic。可以看看wangstief。有详细的架构图,功能,
现在做采集系统scrapy就可以。如果你使用mysql来存储数据库的话,后期还可以使用mongodb或者redis。
1.架构的话,现在主流架构用的都是scrapy吧?这些是框架的代码,scrapy能够做的工作,这些框架都有,就是有没有写实现的函数?2.spider很多,机器人也有很多,要看看你的机器人怎么写,能不能直接调用spider的功能。主要的功能就是定位,查询和异常处理,注意有些异常处理,spider也可以做到,不过一般来说,主程序就要写好,然后通过它来完成异常处理。
3.不是说机器人只能定位到url,也可以用web程序来实现查询处理,用的东西都是一样的,比如,定位到列表页,用phpstorm的select。
用户采集网站一般用免费的api接口,你的机器人代码也用api做出来,可以定位到想要的页面。不会成网站的,知乎可以使用,但建议你不要用这个方式,直接使用带get参数的api接口就可以了。