php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)

优采云 发布时间: 2021-11-08 19:13

  php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)

  本文文章主要介绍php的Snoopy类案例讲解。本文文章通过一个简单的案例来解释对这项技术的理解和使用。以下是详细内容。有需要的朋友可以参考。

  用于 php 的史努比类

  要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有的文本信息,使用fetchtext(还是用正则表达式处理),还有很多其他的功能,比如模拟提交表单。

  指示:

  1、 首先下载史努比类,下载地址:

  2、先实例化一个对象,然后调用对应的方法获取爬取的网页信息

  例子:

   include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;

  不提供获取网页中所有图片地址的方法。它自身的需求之一是获取页面上文章列表中的所有图片地址。然后我自己写了一个,主要是因为常规比赛很重要。

   //匹配图片的正则表达式 $reTag = "//i";

  由于特殊需要,只需要抓取htp://开头的图片(外网的图片可能是防盗的,我想先抓取本地的)

  实现思路:

  1、抓取指定网页,过滤掉所有预期的文章地址;

  2、循环抓取第一步中的文章地址,然后使用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;

  3、 根据图片后缀和ID保存图片(这里只有gif,jpg)---如果这个图片文件存在,先删除再保存

<p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线