php网页抓取工具(一个php内置函数file_get_contents($url))

优采云 发布时间: 2022-03-28 10:21

  php网页抓取工具(一个php内置函数file_get_contents($url))

  我们一般需要抓取一个网站静态页面来完成我们的需求,其实有很多方法可以完成,

  php 内置函数 file_get_contents();file();readfile();可以用于网页抓取,但这种方法毕竟很大

  有限,比如我们要访问一个需要登录的网站,我们需要登录并验证信息。这是因为php的内置功能较弱。

  于是我们找到了一个php扩展类curl来帮助我们做这种事情,curl是我们只需要安装它的php扩展之一

  并在 php.ini 文件中打开他的扩展来使用它。我们不会在这里详细介绍。实际上,curl 使用起来非常简单。

  我们给出一个简单的演示:

  $url = "";//以百度为例

  $data = 数组();

  $curl = curl_init();//初始化一个curl会话;

  curl_setopt($curl,CURLOPT_URL,$url);//指定要访问的url

  curl_setopt($curl,CURLOPT_POST,$data);//post请求的参数,

  curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);//获取的信息作为文件流返回

  $data = curl_exec($curl);//执行curl;

  var_dump($data);

  curl_close($curl); // 关闭 CURL 会话

  这样就完成了一个 curl 会话,你不觉得它没有什么特别之处吗? ,别着急,我们来看看他的本质是可以传参数,当然是什么cookies!这些东西的验证都可以通过这个来完成,

  curl参数很多,这里就不一一介绍了;

  另外推荐大家看看snoopy爬虫类也是不错的工具,simple_html_dom文档解析也很不错。

  原文:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线