php抓取网页源码(php抓取网页源码时抓取http信息要比抓取https来的更高效)

优采云 发布时间: 2021-10-15 14:02

  php抓取网页源码(php抓取网页源码时抓取http信息要比抓取https来的更高效)

  php抓取网页源码时抓取http信息要比抓取https来的更高效更快捷,php抓取http信息的效率低,requesterror率高,好处是解析html的速度快,相对其他编程语言抓取https来说更快。一般的应用都是从后端获取html,没有对域名的屏蔽,只要是php的就行,但是正是这一特性导致了php抓取https失败率高(特别是抓取购物网站)。

  现在经过很多网络爬虫,php抓取https的效率已经非常接近http了,特别是zoomeye-php不过谷歌的proxy服务器也会抓取https,所以测试的话也是从后端抓取https就可以了。但是正如前面的回答者说的那样,php里的https是httpgzip(部分源码可以使用https),部分https也是uri,有时域名匹配会让php抓取到一个错误的源码,导致requesterror率增加。

  解决方法主要有两种,一是url抓取使用标准的https的url或是加个js限制二是jsonp抓取一般推荐使用这种方法。https抓取json网页源码效率更高,但是会遇到一个没有经过验证的json报文解析api,有些时候需要绕过jsonapi,需要安装swoole+autoload。requesterror率一般是由https本身带来的。解决方法主要是从后端抓取token抓取,前端返回https或是使用jsonp,获取返回信息。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线