php抓取网页snoopy(php,类,抓取网页的特点及LAMP服务都支持)
优采云 发布时间: 2022-03-25 17:16php抓取网页snoopy(php,类,抓取网页的特点及LAMP服务都支持)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoop y 正常运行需要你的服务器的PHP版本在4以上,并且支持PCRE(patible Regular Expressions),并且支持基本的LAMP服务。 一、 Snoopy 的一些特性: 1. 抓取网页内容fetch 2. 抓取网页文本内容(去掉HTML标签) fetchtext 3. 抓取链接,形成网页的fetchlinks fetchform 4.支持代理主机5.支持基本用户名/密码认证6.支持设置user_agent、referer(返回)、cookies和header内容(头文件)7.@ >支持浏览器重定向和控制重定向深度8.可以将网页中的链接扩展为高质量的url(默认)9.提交数据并获取返回值10.支持跟踪HTML框架11. 支持重定向时传递cookie,需要php4以上,因为是php的一个类,不需要扩展支持,服务器不支持curl时的最佳选择。 二、类方法:fetch($URI) ————这是用来获取网页内容的方法。
$URI参数是被抓取网页的URL地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后是 $this->results。 fetchtext($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。 fetchform($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的表单内容(表单)。 fetchlinks($URI) ———— 这个方法和fetch()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 submit($URI, $formvars) ———————— 该方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。 submittext($URI, $formvars) ———————————该方法与 submit() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回文本内容登录后的网页。
submitlinks($URI) ———— 这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 三、 类属性:(括号内为默认值) $host 要连接的主机 $port 要连接的端口 $proxy_host 使用的代理主机,如果有 $proxy_port 要使用的代理主机端口,如果任何 $agent 用户代理伪装(Snoopy v0.1) $referer 信息,如果有 $cookies cookie,如果有 $rawheaders 其他头信息,如果有 $maxredirs 最大权重定位数,