采集器采集源(采集器采集源数据应该是指客户端或者服务器？)

优采云发布时间: 2022-02-17 04:03

　　采集器采集源数据应该是指客户端或者服务器？那采集方式又有两种，定制或者通用。定制模式比较简单，采用的采集方式是现成的接口。通用模式是客户自定义ip，mac，端口。服务器，采用通用接口或者定制模式都可以。

　　应该是定制或者通用

　　两种实现方式，一种定制，一种通用，定制有好多种，

　　我是做web的，我们定制了如图一种，通用版本太麻烦，我们已经放弃。

　　如果采集规模小，数据量也小，可以采用像scrapy这种内置了ipcookie或端口的爬虫方式，也可以通过其他源接口来实现，只要登录授权后能看到正确结果就行。如果采集规模较大的采集器，且需要验证请求是否合法性，可以通过expnet这样的程序来实现，内置了身份验证，可以直接由客户端提供身份验证接口给爬虫，爬虫再反爬虫，就完美了。

　　这个难么？你再问难你就完蛋了，是吧。采集器，采集效率靠爬虫效率，爬虫效率靠定制网站效率。我们公司用爬虫，主要服务全国百万级的网站。当然了，也不排除特殊的因素，效率比全部采集网站还高。记住采集对象是万里挑一啊。几十万上百万条数据量，也不够一个爬虫运行的。所以我们的爬虫都很少变动。单个爬虫技术难不难？理论上没难度。

　　对于爬虫的影响爬虫是不是这个网站的产品？如果用户所在城市特别低，那么涉及采集，你肯定要谈的，爬虫稳定性是很多问题。采集不要小看。用全部用户的流量，你采集一万一万条，就很难。大部分的时候，会出现多少多少条数据你连响应都没有的情况。如果你采集a网站，对方网站是b网站，那么你几十万字的话，就有点难度了。搜索引擎想爬取数据都不容易，更何况采集器？但是，会难不难，有一个前提，你网站不是原封不动的拿到的。

　　如果是全国原封不动的采集，可以用简单的爬虫软件来实现，先爬爬a，再爬爬b，后面的生意越来越难。这个都在你自己的规划和定制上。

0

2022-02-17

采集器采集源

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集器采集源(采集器采集源数据应该是指客户端或者服务器？)

0 个评论

发起人

AI时代内容工厂

采集器采集源(采集器采集源数据应该是指客户端或者服务器？)

0 个评论

发起人

相关问题