php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

优采云发布时间: 2021-10-05 04:09

　　Snoopy是一个PHP类，用于模拟浏览器的功能。它可以获取web内容、发送表单以及开发一些采集程序和小偷程序

　　史努比的一些特点：

　　获取网页的内容

　　抓取网页的文本内容（删除HTML标记）抓取文本

　　抓取网页链接，表单获取链接获取表单

　　支持代理主机

　　支持基本用户名/密码身份验证

　　支持设置用户代理、引用、cookie和标题内容

　　支持浏览器重定向并控制重定向深度

　　可以将网页中的链接扩展为高质量URL（默认）

　　提交数据并获取返回值

　　支持跟踪HTML框架

　　支持重定向时传输cookie

　　PHP4或以上就足够了。因为它是一个PHP类，所以不需要扩展来支持它。当服务器不支持curl时，它是最佳选择

　　Snoopy类方法和示例：

　　获取（$URI）

　　这是一种用于获取网页内容的方法

　　$URI参数是已爬网网页的URL地址

　　获取的结果存储在$this->results中

　　如果您正在抓取一帧，Snoopy将跟踪每个帧并将其存储在数组中，然后存储$this->results

　　fetchtext（$URI）

　　此方法类似于fetch（）。唯一的区别是，此方法将删除HTML标记和其他无关数据，并且只返回网页中的文本内容

　　fetchform（$URI）

　　此方法类似于fetch（）。唯一的区别是，此方法将删除HTML标记和其他不相关的数据，并且只返回网页中的表单内容

　　获取链接（$URI）

　　此方法类似于fetch（）。唯一的区别是，此方法将删除HTML标记和其他无关数据，并且只返回网页中的链接

　　默认情况下，相对链接会自动完成并转换为完整URL

　　提交（$URI，$formvars）

　　此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组

　　submittext（$URI，$formvars）

　　此方法类似于submit（）。唯一的区别是，此方法将删除HTML标记和其他无关数据，并且仅在登录后返回网页中的文本内容

　　提交链接（$URI）

　　此方法类似于submit（）。唯一的区别是，此方法将删除HTML标记和其他无关数据，并且只返回网页中的链接

　　默认情况下，相对链接会自动完成并转换为完整URL

　　史努比采集类属性：（默认值在括号中）

　　$host连接的主机

　　$port连接端口

　　$proxy\主机使用的代理主机（如果有）

　　$proxy\端口使用代理主机端口（如果有）

　　$agent用户代理伪装（史努比V0.1)

　　$referer源信息（如果有）

　　$cookies饼干，如有

　　$rawheads其他标题信息（如有）

　　$maxredrs最大重定向时间，0=不允许（5)

　　$offsiteok是否允许场外重定向。（true）

　　$expandlinks是否完成指向完整地址的所有链接（true）

　　$user authentication username（如果有）

　　$pass身份验证用户名（如果有）

0

2021-10-05

php抓取网页snoopy

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

0 个评论

发起人

AI时代内容工厂

php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

0 个评论

发起人

相关问题