解决方案:自动采集脚本设置代理,网页抓取时检查源代码页面是否有js文件

优采云 发布时间: 2022-11-24 15:34

  解决方案:自动采集脚本设置代理,网页抓取时检查源代码页面是否有js文件

  自动采集编写脚本设置代理,网页抓取时检查源代码页面是否有js文件如果只是普通页面自动采集还能用webdriver,但抓网页就没那么方便了,

  如果是一般的小网站,比如新浪的门户网站之类的,可以用mysql的monitor监控浏览器,对浏览器进行监控。一旦浏览器有更新,就用monitor推送更新结果给程序,程序根据相应抓取到的数据分页。但如果你是开发web的应用,估计这样做抓取效率不高,一是数据库服务器不好搞,二是这样会导致cookie类的东西被很多人浏览了。

  

" />

  为了兼容需要的人,可以增加一些连接池,每个页面轮询。对于大型网站,可以把一个mysqldb放多台,一定要控制好访问速度。

  原理很简单了呀,

  如果不需要手动更新数据,那就多线程去抓呗,比如看视频有的时候还要看一下缓存,那就用线程抓咯..反正你是一般站,

  

" />

  开放ip抓取

  抓蜘蛛还要像线程那样分页你确定要实现?1.分页的实现:服务器端自己定ip和端口做抓取,带上抓取规则给客户端。2.大量数据库查询写成代码,框架定页面分页规则。以上是性能问题,如果没有性能问题,服务器端一定要自己实现分页(对客户端数据和页面做分页的代码是可以在php写的)。代码可以很简单,比如for循环显示一页等等我觉得没有必要把复杂代码放到mail里,那是人力资源的问题,而且php本身并不复杂。

  抓取有一个难点是如何“高效"抓取,复杂的页面通常不会有那么多可抓的机会。当然你要是钱多人傻想自己做,那就好办。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线