php多线程抓取网页(PHP线程处理框架异步任务 )
优采云 发布时间: 2022-02-23 02:15php多线程抓取网页(PHP线程处理框架异步任务
)
1 使用 fastcgi_finish_request()
如果 PHP 和 web 服务器使用 PHP-FPM(FastCGI Process Manager),fastcgi_finish_request() 函数可以立即结束会话,PHP 线程可以继续在后台运行。
echo "program start...";
file_put_contents('log.txt','start-time:'.date('Y-m-d H:i:s'), FILE_APPEND);
fastcgi_finish_request();
sleep(1);
echo 'debug...';
file_put_contents('log.txt', 'start-proceed:'.date('Y-m-d H:i:s'), FILE_APPEND);
sleep(10);
file_put_contents('log.txt', 'end-time:'.date('Y-m-d H:i:s'), FILE_APPEND);
从输出中可以看出,页面打印program start...,而session在输出第一行到log.txt后就返回了,所以浏览器上不会显示下面的debug...,而log。 txt 文件 可以完整接收三个完成时间。
2 使用 fsockopen()
使用 fsockopen() 打开网络连接或 Unix 套接字连接,然后使用 stream_set_blocking() 以非阻塞模式请求:
$fp = fsockopen("www.example.com", 80, $errno, $errstr, 30);
if (!$fp) {
die('error fsockopen');
}
// 转换到非阻塞模式
stream_set_blocking($fp, 0);
$http = "GET /save.php / HTTP/1.1\r\n";
$http .= "Host: www.example.com\r\n";
$http .= "Connection: Close\r\n\r\n";
fwrite($fp, $http);
fclose($fp);
3 使用卷曲
使用 cURL 中的 curl_multi_* 函数发送异步请求
$cmh = curl_multi_init();
$ch1 = curl_init();
curl_setopt($ch1, CURLOPT_URL, "http://localhost/");
curl_multi_add_handle($cmh, $ch1);
curl_multi_exec($cmh, $active);
echo "End\n";
4 使用 Gearman/Swoole 扩展
Gearman 是一个分布式异步处理框架,带有 php 扩展,可以处理大批量的异步任务。
Swoole最近很流行,异步方法很多,好用。
5 使用缓存和队列
使用缓存和redis等队列将数据写入缓存,使用后台定时任务实现异步数据处理。
这种方法在常见的高流量架构中应该很常见。
6 调用系统命令
极端情况下可以调用系统命令,将数据传给后台任务执行,个人效率不是很高。
$cmd = 'nohup php ./processd.php $someVar >/dev/null &';
`$cmd`
7 使用 pcntl_fork()
安装 pcntl 扩展并使用 pcntl_fork() 生成子进程来异步执行任务在我看来是最方便的,但也容易出现僵尸进程。
$pid = pcntl_fork()
if ($pid == 0) { child_func(); //子进程函数,主进程运行
} else { father_func(); //主进程函数
}
echo "Process " . getmypid() . " get to the end.\n"; function father_func() { echo "Father pid is " . getmypid() . "\n";
}
function child_func() { sleep(6); echo "Child process exit pid is " . getmypid() . "\n"; exit(0);
}