php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

优采云发布时间: 2021-12-08 08:11

　　Snoopy是一个php采集类，用于模拟浏览器获取网页内容并发送表单。

　　以下是史努比的一些功能：

　　易于抓取网页内容

　　轻松抓取页面文字（去除HTML标签）

　　易于抓取网页内的链接

　　支持代理爬取

　　支持基本用户名密码认证

　　支持设置 user-agent、referer、cookies 和 header 内容

　　支持浏览器转向，控制转向深度

　　可以将页面上的链接转化为高质量的链接

　　轻松提交数据并获取返回值

　　能够跟踪 HTML 框架

　　支持在重定向时传递 cookie

　　史努比类，方法：

　　获取（$URI）

　　用于抓取网页内容的方法。$URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧，史努比会跟踪每一帧并将其存储在一个数组中，然后将其存储在 $this->results 中。

　　获取文本（$URI）

　　该方法与fetch()类似，唯一不同的是该方法会去除HTML标签等无关数据，只返回网页中的文本内容。

　　fetchform($URI)

　　该方法与fetch()类似，唯一不同的是该方法会去除HTML标签等无关数据，只返回网页中的表单内容（form）。

　　获取链接（$URI）

　　该方法与fetch()类似，唯一不同的是，该方法会去除HTML标签等无关数据，只返回网页中的链接。默认情况下，相对链接将自动完成并转换为完整的 URL。

　　提交（$URI，$formvars）

　　此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。

　　提交文本（$URI，$formvars）

　　该方法与submit()类似，唯一不同的是，该方法会去除HTML标签等无关数据，并且只返回登录后网页中的文本内容。

　　提交链接（$URI）

　　该方法与submit()类似，唯一不同的是，该方法会去除HTML标签等无关数据，只返回网页中的链接。默认情况下，相对链接将自动完成并转换为完整的 URL。

　　类属性：（括号内为默认值）

　　$host 连接的主机

　　$port 要连接的端口

　　$proxy_host 使用的代理主机，如果有的话

　　$proxy_port 使用的代理主机端口，如果有的话

　　$agent 用户代理伪装（史努比 v0.1)

　　$referer 传入信息，如果有的话

　　$cookies，如果有的话

　　$rawheaders 其他头信息，如果有的话

　　$maxredirs 最大重定向次数，0=不允许 (5)

　　$offsiteok 是否允许异地重定向。（真的）

　　$expandlinks 是否完成所有链接以完成地址(true)

　　$user 认证用户名，如果有的话

　　$pass 认证用户名，如果有的话

0

2021-12-08

php抓取网页snoopy

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

0 个评论

发起人

AI时代内容工厂

php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

0 个评论

发起人

相关问题