php curl抓取网页数据(我用就是抓取数据的抓取技巧(二))
优采云 发布时间: 2021-10-28 06:05php curl抓取网页数据(我用就是抓取数据的抓取技巧(二))
我使用php和curl主要是为了抓取数据。当然,我们也可以使用其他方法来抓取数据,比如fsockopen、file_get_contents等,但是只能抓取那些可以直接访问的页面。如果要抓取有页面访问控制的页面,或者登录后的页面,就比较困难了。
1.获取文件没有访问控制
2.使用代理进行爬取
为什么要使用代理进行抓取?以谷歌为例。如果你抓取谷歌的数据,如果你在短时间内频繁抓取它,你将无法抓取它。Google 限制您的 IP 地址。这时候可以换个proxy再抓一次。
3.post数据后,抓取数据
单独说一下数据提交数据,因为在使用curl的时候,经常会有数据交互,所以比较重要。
在upload.php文件中,print_r($_post); 使用 curl 捕获upload.php数组的输出([name] => test [sex] => 1 [birth] => 20101010)
4. 获取一些带有页面访问控制的页面
之前写过一篇文章。有兴趣的可以看看页面访问控制的3种方法。
如果使用上述方法捕获,会报如下错误
您无权查看此页面
您无权使用您提供的凭据查看此目录或页面,因为您的 Web 浏览器正在发送 Web 服务器未配置为接受的 www-authenticate 标头字段。
这时候我们会使用 curlopt_userpwd 来验证
上面php curl常用的五个经典例子,都是小编分享的内容。希望能给大家一个参考,也希望大家多多支持万千网。