php抓取网页表格信息(有个检查的话,感觉既费时又无聊,所以我就想用采集)

优采云 发布时间: 2021-12-19 00:19

  php抓取网页表格信息(有个检查的话,感觉既费时又无聊,所以我就想用采集)

  最近有个任务需要我查一些网站。手动检查既费时又乏味。所以我想使用采集。这个想法其实很简单。先下载网站采集的源码,然后用正则表达式匹配匹配的链接,最后把标题和URL放入数据库中分析。因为我用的最多的是php,所以打算用php做网页采集。

  第一步是链接数据库,取出需要检查的网站和正则规则。

  数据库我用的是postgresql,数据库和表都按照要求建好了。因为默认的配置环境是centos系统加上nginx、mysql和php,所以首先要配置环境。具体配置这里就不说了,下次总结一下。环境配置好后,在php中使用pg_connect连接数据库。这里我连接了两个不同的数据库。

  

$conn_1=pg_connect("host=xxx.xxx.xxx.xxx port=5432 dbname=mydb1 user=postgres password=xxxxxx") ;

$conn_2=pg_connect("host=xxx.xxx.xxx.xxx port=5432 dbname=mydb2 user=postgres password=xxxxxx") ;

  第二步,取出网页源代码,对源代码进行初步处理。

  不同的网站编码格式不同,需要先将编码转换为utf-8,否则存储后会出现乱码。

<p>

//获取网页源码

//$url='https://zhangnq.com/' ;

$str = file_get_contents($url);

//使用preg_match和正则表达式取出编码

$wcharset = preg_match("/

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线