php抓取网页是每秒刷新几十次的,原本是用javascript写的
优采云 发布时间: 2022-06-09 12:01php抓取网页是每秒刷新几十次的,原本是用javascript写的
php抓取网页,原本是用javascript写的,javascript抓取网页是每秒刷新几十次的,我们每秒抓取300多次比较正常,要达到每秒300次,就得每秒把它刷新至3000次以上,基本是做不到的,网页是用图片存储,比如图片一旦加载就不容易变化了,图片越大,变化越慢,小图片很快就存在gzip下,越大文件越大,所以对于爬虫来说,网页抓取一定是用更大的图片来进行保存和读取,图片保存是用最大容量的文件,是可以实现每秒抓取3000次的,但是对于重要的图片,要放大抓取,进行n倍就比较难了,所以用web服务器抓取网页时候,会有缓存功能实现服务器保存抓取到的信息。
js加载太慢了,而且你网页网站用了多线程,每秒加载的数据量都差不多,请求次数多了以后会被自动终止。
我想到的原因有二:1.把3000的pv设置成热点。2.页面pdf太多了。
为了减少你每次读取的时间。
请求是根据id来发包的,而现在网站那么多,id相同的请求会发好几个包,你一个包加载完了,另一个包没有加载出来,这时就会等待的时间变长。同时每秒3000个请求,一次请求过来2000个,1000个包,页面的pdf更多,所以导致页面的渲染时间变长。所以如果页面大小一样,请求数量相同的情况下,页面pdf越多,页面渲染时间越长。
有多少请求就会有多少缓存,缓存占用页面内存比较多,还有一点就是你每次读取pdf的时候,他不是立即就能读到内容的,而是写到一个叫header的东西里面,你每次读取页面时都会从这个header上读到,这样慢慢来增加页面pdf中的数据。好像和代码实现无关,但你要是想代码实现的话,我觉得没有可能实现,人家一秒3000次操作,你给你1万次读取,没啥意义。