php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
优采云 发布时间: 2021-12-08 08:11php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
Snoopy是一个php采集类,用于模拟浏览器获取网页内容并发送表单。
以下是史努比的一些功能:
易于抓取网页内容
轻松抓取页面文字(去除HTML标签)
易于抓取网页内的链接
支持代理爬取
支持基本用户名密码认证
支持设置 user-agent、referer、cookies 和 header 内容
支持浏览器转向,控制转向深度
可以将页面上的链接转化为高质量的链接
轻松提交数据并获取返回值
能够跟踪 HTML 框架
支持在重定向时传递 cookie
史努比类,方法:
获取($URI)
用于抓取网页内容的方法。$URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 连接的主机
$port 要连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies,如果有的话
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。(真的)
$expandlinks 是否完成所有链接以完成地址(true)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话