snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))
优采云 发布时间: 2021-09-13 11:01snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))
Snoopy 是一个php类,用来模拟浏览器的功能,可以获取网页内容并发送表单。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。
一、Snoopy 的一些特点:
1. 抓取网页内容 fetch
2.Fetch 网页的文字内容(去除 HTML 标签)fetchtext
3.抓取网页链接,表单fetchlinks fetchform
4.支持代理主机
5. 支持基本的用户名/密码验证
6. 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
7.支持浏览器重定向,可以控制重定向的深度
8.可以将网页中的链接扩展为高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪HTML框架
11.支持重定向时传递cookies,要求php4以上。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
二、Class 方法:
获取($URI)
——————
这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
fetchtext($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
fetchlinks($URI)
—————-
这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
提交($URI,$formvars)
———————-
此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
——————————
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
提交链接($URI)
—————-
这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
三、Class 属性:(括号内为默认值)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies cookies,如果有的话
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。(true)
$expandlinks 是否完成所有链接以完成地址(真实)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话