采集器采集源(采集器采集源数据应该是指客户端或者服务器?)
优采云 发布时间: 2022-02-17 04:03采集器采集源数据应该是指客户端或者服务器?那采集方式又有两种,定制或者通用。定制模式比较简单,采用的采集方式是现成的接口。通用模式是客户自定义ip,mac,端口。服务器,采用通用接口或者定制模式都可以。
应该是定制或者通用
两种实现方式,一种定制,一种通用,定制有好多种,
我是做web的,我们定制了如图一种,通用版本太麻烦,我们已经放弃。
如果采集规模小,数据量也小,可以采用像scrapy这种内置了ipcookie或端口的爬虫方式,也可以通过其他源接口来实现,只要登录授权后能看到正确结果就行。如果采集规模较大的采集器,且需要验证请求是否合法性,可以通过expnet这样的程序来实现,内置了身份验证,可以直接由客户端提供身份验证接口给爬虫,爬虫再反爬虫,就完美了。
这个难么?你再问难你就完蛋了,是吧。采集器,采集效率靠爬虫效率,爬虫效率靠定制网站效率。我们公司用爬虫,主要服务全国百万级的网站。当然了,也不排除特殊的因素,效率比全部采集网站还高。记住采集对象是万里挑一啊。几十万上百万条数据量,也不够一个爬虫运行的。所以我们的爬虫都很少变动。单个爬虫技术难不难?理论上没难度。
对于爬虫的影响爬虫是不是这个网站的产品?如果用户所在城市特别低,那么涉及采集,你肯定要谈的,爬虫稳定性是很多问题。采集不要小看。用全部用户的流量,你采集一万一万条,就很难。大部分的时候,会出现多少多少条数据你连响应都没有的情况。如果你采集a网站,对方网站是b网站,那么你几十万字的话,就有点难度了。搜索引擎想爬取数据都不容易,更何况采集器?但是,会难不难,有一个前提,你网站不是原封不动的拿到的。
如果是全国原封不动的采集,可以用简单的爬虫软件来实现,先爬爬a,再爬爬b,后面的生意越来越难。这个都在你自己的规划和定制上。