php抓取网页数据实例( 下一节:PHP读写文件高并发处理操作实例详解PHP编程技术)
优采云 发布时间: 2022-04-04 12:25php抓取网页数据实例(
下一节:PHP读写文件高并发处理操作实例详解PHP编程技术)
[CLI] 使用 Curl 下载文件的实时进度条显示
前言
最近在命令行下的编程中,下载文件总是一个比较难的过程。如果有进度条就更好了!!!
之前进度条的扩展包还是不错的(本地下载)
效果图:
还是好看的!
卷曲有什么用?
用php,curl主要是抓取数据,当然我们也可以通过其他方法抓取,比如fsockopen,file_get_contents等,但是只能抓取那些可以直接访问的页面。如果要抓取有页面访问控制的页面,或者登录后的页面,就比较难了。
使用卷曲
curl是PHP很常用的一种下载方式,这里有一个简单的使用方法;
// 初始化一个 curl
$ch = curl_init();
// 设置请求的 url
curl_setopt($ch, CURLOPT_URL, $url);
//
curl_setopt($ch, CURLOPT_HEADER, 0);
// 不直接输出,而是通过 curl_exec 返回
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
if (false === ($stream = curl_exec($ch))) {
throw new \Exception(curl_errno($ch));
}
curl_close($ch);
return $stream;
上面是一个非常简单的例子。如果文件很大,用户需要等待很长时间。这时候我们应该添加进度条的效果:
class Request
{
protected $bar;
// 是否下载完成
protected $downloaded = false;
public function __construct()
{
// 初始化一个进度条
$this->bar = new CliProgressBar(100);
$this->bar->display();
$this->bar->setColorToRed();
}
function download($url)
{
$ch = curl_init();
// 从配置文件中获取根路径
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);
// 开启进度条
curl_setopt($ch, CURLOPT_NOPROGRESS, 0);
// 进度条的触发函数
curl_setopt($ch, CURLOPT_PROGRESSFUNCTION, 'progress');
// ps: 如果目标网页跳转,也跟着跳转
// curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
if (false === ($stream = curl_exec($ch))) {
throw new \Exception(curl_errno($ch));
}
curl_close($ch);
return $stream;
}
/**
* 进度条下载.
*
* @param $ch
* @param $countDownloadSize 总下载量
* @param $currentDownloadSize 当前下载量
* @param $countUploadSize
* @param $currentUploadSize
*/
public function progress($ch, $countDownloadSize, $currentDownloadSize, $countUploadSize, $currentUploadSize)
{
// 等于 0 的时候,应该是预读资源不等于0的时候即开始下载
// 这里的每一个判断都是坑,多试试就知道了
if (0 === $countDownloadSize) {
return false;
}
// 有时候会下载两次,第一次很小,应该是重定向下载
if ($countDownloadSize > $currentDownloadSize) {
$this->downloaded = false;
// 继续显示进度条
}
// 已经下载完成还会再发三次请求
elseif ($this->downloaded) {
return false;
}
// 两边相等下载完成并不一定结束,
elseif ($currentDownloadSize === $countDownloadSize) {
return false;
}
// 开始计算
$bar = $currentDownloadSize / $countDownloadSize * 100;
$this->bar->progress($bar);
}
}
(new Request)->download('http://www.shiguopeng.cn/database.sql');
下载回调的判断中一定要注意坑!!!
还有一个问题:如果跳转到下载并设置curl跟随跳转,返回的文件会有问题。
我下载了一个zip文件,它会导致文件头有第一个请求的HTTP响应头的内容,
所以你需要 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
总结
以上就是这个文章的全部内容。希望本文的内容对您的学习或工作有一定的参考和学习价值。有问题可以留言交流,感谢大家对编程宝的支持。
下一节:PHP编程技术详解
本文介绍PHP中读写文件的高并发处理操作。分享给大家参考,具体如下: 背景:最近公司游戏开发需要了解游戏加载的流失率。因为,我们做的是网页游戏。玩过网页游戏的人都知道,进入游戏前必须加载一些资源。最后...