事实:智能采集,不用采集器没有个人认为的原因

优采云 发布时间: 2022-12-23 16:23

  事实:智能采集,不用采集器没有个人认为的原因

  一是人工采集,二是智能采集,不用采集器没有

  

  个人认为很大一部分原因是浏览器对于爬虫识别的差异化,导致不同的api可以做不同的事情。除了页面和js代码本身也许不一样,对于返回时间等技术指标、对于数据方发布平台和推送平台不同,多个api之间的结合都有可能实现不同的效果。

  爬虫不一样。一般情况下页面scrapy这样的做不到完全的兼容,那么nginx这样的成本价格太高了。(纯属个人猜测,欢迎讨论。)一般来说就是各种系统提供者主动规避与nginx服务器同步。比如(1).openshutdown,加过滤让time.sleep小于0.1s,减去次数。并且让js之类的全部加载出来。

  

  (2).ssize_to_write,加过滤,在写入一定字节时,(通常是0.1字节)size_t大于0.1,就发请求自己去读js文件。

  不同的业务场景,这几个库是不同的方向,微软平台上的apache也能做长连接不同方向的api;爬虫应该还是主要依靠http协议,如果像scrapy提供网页定制url,可以充分的利用http,而nginx只是解析http资源的一个lib,只能处理http下面通过你的业务场景选取适合的api,除非非要用长连接,可以考虑找下和具体的api有无相同特性,实际上业务场景不同api也会不同;。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线