php抓取网页snoopy(Snoopy是什么?Snoopy的一些特点:方便网页网页的内容)
优采云 发布时间: 2022-04-13 02:17php抓取网页snoopy(Snoopy是什么?Snoopy的一些特点:方便网页网页的内容)
什么是史努比?
Snoopy 是一个模仿网络浏览器功能的 php 类,可以执行诸如获取网页内容和发送表单等任务。
史努比的一些特点:
* 轻松抓取网页内容
* 轻松抓取网页文本内容(去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码认证
* 支持设置user_agent、referer(来)、cookies和header内容(头文件)
* 支持浏览器转向,可以控制转向深度
* 可以将网页中的链接扩展为高质量的网址(默认)
* 方便提交数据并获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 重定向时支持传递cookie(v0.92增加)
要求:
史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
开发和测试的
类方法:
获取($URI)
------------
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
---------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
---------------
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的表单内容(form)。
获取链接($URI)
----------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
----------
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
---------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
----------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话