php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)
优采云 发布时间: 2021-11-08 19:13php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)
本文文章主要介绍php的Snoopy类案例讲解。本文文章通过一个简单的案例来解释对这项技术的理解和使用。以下是详细内容。有需要的朋友可以参考。
用于 php 的史努比类
要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有的文本信息,使用fetchtext(还是用正则表达式处理),还有很多其他的功能,比如模拟提交表单。
指示:
1、 首先下载史努比类,下载地址:
2、先实例化一个对象,然后调用对应的方法获取爬取的网页信息
例子:
include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;
不提供获取网页中所有图片地址的方法。它自身的需求之一是获取页面上文章列表中的所有图片地址。然后我自己写了一个,主要是因为常规比赛很重要。
//匹配图片的正则表达式 $reTag = "//i";
由于特殊需要,只需要抓取htp://开头的图片(外网的图片可能是防盗的,我想先抓取本地的)
实现思路:
1、抓取指定网页,过滤掉所有预期的文章地址;
2、循环抓取第一步中的文章地址,然后使用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
3、 根据图片后缀和ID保存图片(这里只有gif,jpg)---如果这个图片文件存在,先删除再保存
<p>