php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)

优采云发布时间: 2021-11-08 19:13

　　本文文章主要介绍php的Snoopy类案例讲解。本文文章通过一个简单的案例来解释对这项技术的理解和使用。以下是详细内容。有需要的朋友可以参考。

　　用于 php 的史努比类

　　要获取请求网页中的所有链接，可以直接使用 fetchlinks。获取所有的文本信息，使用fetchtext（还是用正则表达式处理），还有很多其他的功能，比如模拟提交表单。

　　指示：

　　1、首先下载史努比类，下载地址：

　　2、先实例化一个对象，然后调用对应的方法获取爬取的网页信息

　　例子：

　　 include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;

　　不提供获取网页中所有图片地址的方法。它自身的需求之一是获取页面上文章列表中的所有图片地址。然后我自己写了一个，主要是因为常规比赛很重要。

　　 //匹配图片的正则表达式 $reTag = "//i";

　　由于特殊需要，只需要抓取htp://开头的图片（外网的图片可能是防盗的，我想先抓取本地的）

　　实现思路：

　　1、抓取指定网页，过滤掉所有预期的文章地址；

　　2、循环抓取第一步中的文章地址，然后使用匹配图片的正则表达式进行匹配，得到页面中所有符合规则的图片地址；

　　3、根据图片后缀和ID保存图片（这里只有gif，jpg）---如果这个图片文件存在，先删除再保存

<p>

0

2021-11-08

php抓取网页snoopy

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)

0 个评论

发起人

AI时代内容工厂

php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)

0 个评论

发起人

相关问题