snoopy php网页抓取工具( Snoopy采集类的一些特点及特点以及LAMP采集方法介绍)

优采云 发布时间: 2022-02-16 02:11

  snoopy php网页抓取工具(

Snoopy采集类的一些特点及特点以及LAMP采集方法介绍)

  Snoopy PHP采集类使用说明

  Snoopy 是一个 php 类,它模拟浏览器获取网页内容和提交表单的功能。

  Snoopy 要求您的服务器具有 PHP 4 或更高版本,并支持 PCRE(Perl 兼容正则表达式)以及基本的 LAMP 服务。

  一、Snoopy采集类的一些特点:

  1.获取网页内容fetch

  2.获取网页的文本内容(去掉HTML标签)fetchtext

  3.获取网页链接,form fetchlinks fetchform

  4.支持代理主机

  5.支持基本的用户名/密码认证

  6.支持设置user_agent、referer(来)、cookies和头内容(头文件)

  7.支持浏览器重定向,控制重定向深度

  8.可以将网页中的链接扩展成高质量的url(默认)

  9.提交数据并获取返回值

  10.支持跟踪 HTML 帧

  11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。

  二、Snoopy采集类方法:

  1、获取($URI)

  这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每一帧跟踪到一个数组中,然后存储

  $this->结果。

  2、fetchtext($URI)

  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。

  3、fetchform($URI)

  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。

  4、fetchlinks($URI)

  这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。

  5、提交($URI,$formvars)

  此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。

  6、提交文本($URI,$formvars)

  该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。

  7、提交链接($URI)

  该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。

  默认情况下,相对链接将自动完成并转换为完整的 URL。

  三、Snoopy采集类属性:(括号内为默认值)

  $host 要连接的主机

  $port 连接端口

  $proxy_host 使用的代理主机,如果有的话

  $proxy_port 使用的代理主机端口,如果有的话

  $agent 用户代理伪装(史努比 v0.1)

  $referer 信息,如果有的话

  $cookies cookie,如果有的话

  $rawheaders 额外的标题,如果有的话

  $maxredirs 最大重定向次数,0=不允许(5)

  $offsiteok 是否允许异地重定向。 (真)

  $expandlinks 是否将所有链接作为完整地址完成(true)

  $user 认证用户名,如果有的话

  $pass 验证用户名,如果有的话

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线