php网页抓取工具(一个php内置函数file_get_contents($url))
优采云 发布时间: 2022-03-28 10:21php网页抓取工具(一个php内置函数file_get_contents($url))
我们一般需要抓取一个网站静态页面来完成我们的需求,其实有很多方法可以完成,
php 内置函数 file_get_contents();file();readfile();可以用于网页抓取,但这种方法毕竟很大
有限,比如我们要访问一个需要登录的网站,我们需要登录并验证信息。这是因为php的内置功能较弱。
于是我们找到了一个php扩展类curl来帮助我们做这种事情,curl是我们只需要安装它的php扩展之一
并在 php.ini 文件中打开他的扩展来使用它。我们不会在这里详细介绍。实际上,curl 使用起来非常简单。
我们给出一个简单的演示:
$url = "";//以百度为例
$data = 数组();
$curl = curl_init();//初始化一个curl会话;
curl_setopt($curl,CURLOPT_URL,$url);//指定要访问的url
curl_setopt($curl,CURLOPT_POST,$data);//post请求的参数,
curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);//获取的信息作为文件流返回
$data = curl_exec($curl);//执行curl;
var_dump($data);
curl_close($curl); // 关闭 CURL 会话
这样就完成了一个 curl 会话,你不觉得它没有什么特别之处吗? ,别着急,我们来看看他的本质是可以传参数,当然是什么cookies!这些东西的验证都可以通过这个来完成,
curl参数很多,这里就不一一介绍了;
另外推荐大家看看snoopy爬虫类也是不错的工具,simple_html_dom文档解析也很不错。
原文: