php抓取网页表格信息(有个检查的话,感觉既费时又无聊,所以我就想用采集)
优采云 发布时间: 2021-12-19 00:19php抓取网页表格信息(有个检查的话,感觉既费时又无聊,所以我就想用采集)
最近有个任务需要我查一些网站。手动检查既费时又乏味。所以我想使用采集。这个想法其实很简单。先下载网站采集的源码,然后用正则表达式匹配匹配的链接,最后把标题和URL放入数据库中分析。因为我用的最多的是php,所以打算用php做网页采集。
第一步是链接数据库,取出需要检查的网站和正则规则。
数据库我用的是postgresql,数据库和表都按照要求建好了。因为默认的配置环境是centos系统加上nginx、mysql和php,所以首先要配置环境。具体配置这里就不说了,下次总结一下。环境配置好后,在php中使用pg_connect连接数据库。这里我连接了两个不同的数据库。
$conn_1=pg_connect("host=xxx.xxx.xxx.xxx port=5432 dbname=mydb1 user=postgres password=xxxxxx") ;
$conn_2=pg_connect("host=xxx.xxx.xxx.xxx port=5432 dbname=mydb2 user=postgres password=xxxxxx") ;
第二步,取出网页源代码,对源代码进行初步处理。
不同的网站编码格式不同,需要先将编码转换为utf-8,否则存储后会出现乱码。
<p>
//获取网页源码
//$url='https://zhangnq.com/' ;
$str = file_get_contents($url);
//使用preg_match和正则表达式取出编码
$wcharset = preg_match("/