php抓取网页是每秒刷新几十次的，原本是用javascript写的

优采云发布时间: 2022-06-09 12:01

　　php抓取网页，原本是用javascript写的，javascript抓取网页是每秒刷新几十次的，我们每秒抓取300多次比较正常，要达到每秒300次，就得每秒把它刷新至3000次以上，基本是做不到的，网页是用图片存储，比如图片一旦加载就不容易变化了，图片越大，变化越慢，小图片很快就存在gzip下，越大文件越大，所以对于爬虫来说，网页抓取一定是用更大的图片来进行保存和读取，图片保存是用最大容量的文件，是可以实现每秒抓取3000次的，但是对于重要的图片，要放大抓取，进行n倍就比较难了，所以用web服务器抓取网页时候，会有缓存功能实现服务器保存抓取到的信息。

　　js加载太慢了，而且你网页网站用了多线程，每秒加载的数据量都差不多，请求次数多了以后会被自动终止。

　　我想到的原因有二：1.把3000的pv设置成热点。2.页面pdf太多了。

　　为了减少你每次读取的时间。

　　请求是根据id来发包的，而现在网站那么多，id相同的请求会发好几个包，你一个包加载完了，另一个包没有加载出来，这时就会等待的时间变长。同时每秒3000个请求，一次请求过来2000个，1000个包，页面的pdf更多，所以导致页面的渲染时间变长。所以如果页面大小一样，请求数量相同的情况下，页面pdf越多，页面渲染时间越长。

　　有多少请求就会有多少缓存，缓存占用页面内存比较多，还有一点就是你每次读取pdf的时候，他不是立即就能读到内容的，而是写到一个叫header的东西里面，你每次读取页面时都会从这个header上读到，这样慢慢来增加页面pdf中的数据。好像和代码实现无关，但你要是想代码实现的话，我觉得没有可能实现，人家一秒3000次操作，你给你1万次读取，没啥意义。

0

2022-06-09

php 抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页是每秒刷新几十次的，原本是用javascript写的

0 个评论

发起人