事实:智能采集,不用采集器没有个人认为的原因

优采云发布时间: 2022-12-23 16:23

　　一是人工采集,二是智能采集,不用采集器没有

　　个人认为很大一部分原因是浏览器对于爬虫识别的差异化，导致不同的api可以做不同的事情。除了页面和js代码本身也许不一样，对于返回时间等技术指标、对于数据方发布平台和推送平台不同，多个api之间的结合都有可能实现不同的效果。

　　爬虫不一样。一般情况下页面scrapy这样的做不到完全的兼容，那么nginx这样的成本价格太高了。（纯属个人猜测，欢迎讨论。）一般来说就是各种系统提供者主动规避与nginx服务器同步。比如(1).openshutdown，加过滤让time.sleep小于0.1s，减去次数。并且让js之类的全部加载出来。

　　(2).ssize_to_write，加过滤，在写入一定字节时，（通常是0.1字节）size_t大于0.1，就发请求自己去读js文件。

　　不同的业务场景，这几个库是不同的方向，微软平台上的apache也能做长连接不同方向的api；爬虫应该还是主要依靠http协议，如果像scrapy提供网页定制url，可以充分的利用http，而nginx只是解析http资源的一个lib，只能处理http下面通过你的业务场景选取适合的api，除非非要用长连接，可以考虑找下和具体的api有无相同特性，实际上业务场景不同api也会不同；。

0

2022-12-23

一是人工采集,二是智能采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

事实:智能采集,不用采集器没有个人认为的原因

0 个评论

发起人

AI时代内容工厂

事实:智能采集,不用采集器没有个人认为的原因

0 个评论

发起人

相关问题