php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)

优采云 发布时间: 2022-02-25 07:16

  php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)

  我用了两天的 php 的 Snoopy 类,发现它非常好用。要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有文本信息,使用fetchtext(内部还是使用正则表达式处理),还有很多其他功能,比如模拟提交表单等。

  使用方法:

  先下载Snoopy类,下载地址:

  先实例化一个对象,然后调用对应的方法获取爬取的网页信息

  代码如下:

  包括'snoopy/Snoopy.class.php';

  $snoopy = 新的史努比();

  $sourceURL = "//";

  $snoopy->fetchlinks($sourceURL);

  $a = $snoopy->结果;

  没有提供获取网页中所有图片地址的方法。我需要获取页面中所有 文章 列表中的图像地址。然后我自己写了一个,主要是因为规律性很重要匹配。

  代码如下:

  //正则表达式匹配图片

  $reTag = "/

  /i";

  因为特殊需要,只需要抓取htp://开头的图片(外站的图片可能会做防盗链,所以想先抓取本地)

  1.爬取指定网页并过滤掉所有预期的文章地址;

  2.循环获取第一步中文章的地址,然后用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;

  3.根据图片后缀和ID保存图片(这里只有gif,jpg)---如果图片文件存在,先删除再保存。

  代码如下:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线