php抓取网页匹配url(两种方法获取网站的meta信息,第一种方法是使用get )
优采云 发布时间: 2021-09-14 19:01php抓取网页匹配url(两种方法获取网站的meta信息,第一种方法是使用get
)
php获取网页元信息(包括标题、关键字、描述)的两种方法
时间:2016-06-23
在网页采集的过程中,我们需要获取网站的元信息,比如标题、关键词、描述等。这个文章介绍了两种获取网站元信息的方式,第一一种方法是使用get_meta_tags函数,第二种方法是使用正则表达式匹配的方法来获取。
使用 get_meta_tags 函数获取元信息
比如我们要获取这个网页的meta信息,可以直接使用php内置函数get_meta_tags来获取,代码如下:
结果输出:
使用正则表达式获取元信息
PHP代码如下:
<p>
$site = "http://www.manongjc.com";
$content = get_sitemeta($site);
print_r($content);
/** 获取META信息 */
function get_sitemeta($url) {
$data = file_get_contents($url);
$meta = array();
if (!empty($data)) {
#Title
preg_match('/([\w\W]*?)/si', $data, $matches);
if (!empty($matches[1])) {
$meta['title'] = $matches[1];
}
#Keywords
preg_match('/