php curl抓取网页数据(我用就是抓取数据的抓取技巧(二))

优采云 发布时间: 2021-10-28 06:05

  php curl抓取网页数据(我用就是抓取数据的抓取技巧(二))

  我使用php和curl主要是为了抓取数据。当然,我们也可以使用其他方法来抓取数据,比如fsockopen、file_get_contents等,但是只能抓取那些可以直接访问的页面。如果要抓取有页面访问控制的页面,或者登录后的页面,就比较困难了。

  1.获取文件没有访问控制

  2.使用代理进行爬取

  为什么要使用代理进行抓取?以谷歌为例。如果你抓取谷歌的数据,如果你在短时间内频繁抓取它,你将无法抓取它。Google 限制您的 IP 地址。这时候可以换个proxy再抓一次。

  3.post数据后,抓取数据

  单独说一下数据提交数据,因为在使用curl的时候,经常会有数据交互,所以比较重要。

  在upload.php文件中,print_r($_post); 使用 curl 捕获upload.php数组的输​​出([name] => test [sex] => 1 [birth] => 20101010)

  4. 获取一些带有页面访问控制的页面

  

  之前写过一篇文章。有兴趣的可以看看页面访问控制的3种方法。

  如果使用上述方法捕获,会报如下错误

  您无权查看此页面

  您无权使用您提供的凭据查看此目录或页面,因为您的 Web 浏览器正在发送 Web 服务器未配置为接受的 www-authenticate 标头字段。

  这时候我们会使用 curlopt_userpwd 来验证

  上面php curl常用的五个经典例子,都是小编分享的内容。希望能给大家一个参考,也希望大家多多支持万千网。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线