php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)
优采云 发布时间: 2022-02-25 07:16php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)
我用了两天的 php 的 Snoopy 类,发现它非常好用。要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有文本信息,使用fetchtext(内部还是使用正则表达式处理),还有很多其他功能,比如模拟提交表单等。
使用方法:
先下载Snoopy类,下载地址:
先实例化一个对象,然后调用对应的方法获取爬取的网页信息
代码如下:
包括'snoopy/Snoopy.class.php';
$snoopy = 新的史努比();
$sourceURL = "//";
$snoopy->fetchlinks($sourceURL);
$a = $snoopy->结果;
没有提供获取网页中所有图片地址的方法。我需要获取页面中所有 文章 列表中的图像地址。然后我自己写了一个,主要是因为规律性很重要匹配。
代码如下:
//正则表达式匹配图片
$reTag = "/
/i";
因为特殊需要,只需要抓取htp://开头的图片(外站的图片可能会做防盗链,所以想先抓取本地)
1.爬取指定网页并过滤掉所有预期的文章地址;
2.循环获取第一步中文章的地址,然后用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
3.根据图片后缀和ID保存图片(这里只有gif,jpg)---如果图片文件存在,先删除再保存。
代码如下: