php抓取网页数据实例( 下一节:PHP读写文件高并发处理操作实例详解PHP编程技术)

优采云 发布时间: 2022-04-04 12:25

  php抓取网页数据实例(

下一节:PHP读写文件高并发处理操作实例详解PHP编程技术)

  [CLI] 使用 Curl 下载文件的实时进度条显示

  前言

  最近在命令行下的编程中,下载文件总是一个比较难的过程。如果有进度条就更好了!!!

  之前进度条的扩展包还是不错的(本地下载)

  效果图:

  

  还是好看的!

  卷曲有什么用?

  用php,curl主要是抓取数据,当然我们也可以通过其他方法抓取,比如fsockopen,file_get_contents等,但是只能抓取那些可以直接访问的页面。如果要抓取有页面访问控制的页面,或者登录后的页面,就比较难了。

  使用卷曲

  curl是PHP很常用的一种下载方式,这里有一个简单的使用方法;

  

// 初始化一个 curl

$ch = curl_init();

// 设置请求的 url

curl_setopt($ch, CURLOPT_URL, $url);

//

curl_setopt($ch, CURLOPT_HEADER, 0);

// 不直接输出,而是通过 curl_exec 返回

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

if (false === ($stream = curl_exec($ch))) {

throw new \Exception(curl_errno($ch));

}

curl_close($ch);

return $stream;

  上面是一个非常简单的例子。如果文件很大,用户需要等待很长时间。这时候我们应该添加进度条的效果:

  

class Request

{

protected $bar;

// 是否下载完成

protected $downloaded = false;

public function __construct()

{

// 初始化一个进度条

$this->bar = new CliProgressBar(100);

$this->bar->display();

$this->bar->setColorToRed();

}

function download($url)

{

$ch = curl_init();

// 从配置文件中获取根路径

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);

// 开启进度条

curl_setopt($ch, CURLOPT_NOPROGRESS, 0);

// 进度条的触发函数

curl_setopt($ch, CURLOPT_PROGRESSFUNCTION, 'progress');

// ps: 如果目标网页跳转,也跟着跳转

// curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);

if (false === ($stream = curl_exec($ch))) {

throw new \Exception(curl_errno($ch));

}

curl_close($ch);

return $stream;

}

/**

* 进度条下载.

*

* @param $ch

* @param $countDownloadSize 总下载量

* @param $currentDownloadSize 当前下载量

* @param $countUploadSize

* @param $currentUploadSize

*/

public function progress($ch, $countDownloadSize, $currentDownloadSize, $countUploadSize, $currentUploadSize)

{

// 等于 0 的时候,应该是预读资源不等于0的时候即开始下载

// 这里的每一个判断都是坑,多试试就知道了

if (0 === $countDownloadSize) {

return false;

}

// 有时候会下载两次,第一次很小,应该是重定向下载

if ($countDownloadSize > $currentDownloadSize) {

$this->downloaded = false;

// 继续显示进度条

}

// 已经下载完成还会再发三次请求

elseif ($this->downloaded) {

return false;

}

// 两边相等下载完成并不一定结束,

elseif ($currentDownloadSize === $countDownloadSize) {

return false;

}

// 开始计算

$bar = $currentDownloadSize / $countDownloadSize * 100;

$this->bar->progress($bar);

}

}

(new Request)->download('http://www.shiguopeng.cn/database.sql');

  下载回调的判断中一定要注意坑!!!

  还有一个问题:如果跳转到下载并设置curl跟随跳转,返回的文件会有问题。

  我下载了一个zip文件,它会导致文件头有第一个请求的HTTP响应头的内容,

  所以你需要 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);

  总结

  以上就是这个文章的全部内容。希望本文的内容对您的学习或工作有一定的参考和学习价值。有问题可以留言交流,感谢大家对编程宝的支持。

  下一节:PHP编程技术详解

  本文介绍PHP中读写文件的高并发处理操作。分享给大家参考,具体如下: 背景:最近公司游戏开发需要了解游戏加载的流失率。因为,我们做的是网页游戏。玩过网页游戏的人都知道,进入游戏前必须加载一些资源。最后...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线