抓取网页url php(实习导师又没得项目让我一起一边瞎东西那闲着)

优采云 发布时间: 2022-03-16 09:24

  抓取网页url php(实习导师又没得项目让我一起一边瞎东西那闲着)

  我最近在实习,导师没有项目让我一起做,所以我坐在一旁摆弄着。

  /imgrdrct/https://img-blog.csdn.net/20180723135708723?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwNjkxMjA4/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

  那是闲的,我想写爬虫

  百度百科对爬虫的定义如下

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中更常称为网络追逐者)是根据一定规则自动从万维网上爬取信息的程序或脚本。其他不太常用的名称是 ant、autoindex、emulator 或 worm。

  即从网页中抓取你想要的数据,得到的数据可以做进一步的处理。

  因为实习是PHP,那就用PHP写吧,环境是Win10+php7.1+nginx

  首先打开curl扩展,去掉php.ini中extension=php_curl.dll前面的分号,然后重启php和nginx

  然后开始写最简单的爬虫,在本地抓取百度首页的内容。

  //初始话curl句柄$ch = curl_init(); //要抓取的网页$url = "https://www.baidu.com";//设置访问的URL,curl_setopt就是设置连接参数 curl_setopt($ch, CURLOPT_URL, $url); //不需要报文头curl_setopt($ch, CURLOPT_HEADER, FALSE); //跳过https验证,访问https网站必须加上这两句curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE); //返回响应信息而不是直接输出,默认将抓取的页面直接输出的curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE); //开始执行if (!$output = curl_exec($ch)) { echo "Curl Error:". curl_error($ch); }//执行结束后必须将句柄关闭curl_close($ch); //保存页面信息$html = fopen('D:/baidu_data.html', 'w');fwrite($html, $output);fclose($html);echo '保存成功';

  好了,现在页面已经被抓取了,我们来处理数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线