php抓取网页所有图片(什么是网页抓取?()的代码-)
优采云 发布时间: 2021-11-13 00:09php抓取网页所有图片(什么是网页抓取?()的代码-)
什么是网页抓取?
您是否曾经需要从不提供 API 的站点获取信息?我们可以通过网页爬取,然后从目标网站的HTML中获取我们想要的信息来解决这个问题。当然,我们也可以手动提取这些信息,但是手动操作很繁琐。因此,通过爬虫来自动化这个过程会更有效率。
在本教程中,我们将从 Pexels 中抓取一些猫的照片。本网站提供优质免费素材图片。他们提供 API,但这些 API 的请求频率限制为 200 次/小时。
文件
发起并发请求
在网络爬虫中使用异步 PHP 的最大优势(与使用同步方法相比)是可以在更短的时间内完成更多的工作。使用异步 PHP 可以让我们一次请求尽可能多的网页,而不是一次只请求一个网页并等待结果回来。因此,一旦请求结果返回,我们就可以开始处理了。
首先,我们从 GitHub 中拉取名为 buzz-react 的异步 HTTP 客户端的代码——它是一个简单的基于 ReactPHP 的异步 HTTP 客户端,专用于并发处理大量 HTTP 请求:
composer require clue/buzz-react
现在,我们可以在 pexels 上请求图片页面:
<p>