php抓取网页snoopy( 下载snoopySnoopy的一些特点(一)(组图))
优采云 发布时间: 2021-09-27 08:14php抓取网页snoopy(
下载snoopySnoopy的一些特点(一)(组图))
Snoopy是一个PHP类,用于模拟浏览器的功能。您可以获取web内容并发送表单
Snoopy需要服务器的PHP版本在4以上才能正确运行,并且支持PCRE(Perl兼容的正则表达式),这是基本lamp服务所支持的
下载史努比
史努比的一些特点:
一,。获取网页的内容
二,。抓取网页的文本内容(删除HTML标记)抓取文本
三,。抓取网页的链接和抓取表单
四,。支持代理主机
五,。支持基本用户名/密码身份验证
六,。支持设置用户代理、引用、cookie和标题内容
七,。支持浏览器重定向并控制重定向深度
八,。它可以将网页中的链接扩展为高质量的URL(默认)
九,。提交数据并获取返回值
十,。支持跟踪HTML框架
十一,。支持在重定向期间传递cookie
PHP4或以上就足够了。因为它是一个PHP类,所以不需要扩展来支持它。当服务器不支持curl时,它是最佳选择
类方法:
获取($URI)
---–
这是一种用于获取网页内容的方法
$URI参数是已爬网网页的URL地址
捕获的结果存储在$this->;结果
如果您正在抓取帧,Snoopy将跟踪每个帧并将其存储在阵列中,然后存储$this->;结果
fetchtext($URI)
-----
此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
fetchform($URI)
-----
此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
获取链接($URI)
------
此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
默认情况下,相对链接会自动完成并转换为完整URL
提交($URI,$formvars)
--------
此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
submittext($URI,$formvars)
--------–
此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
提交链接($URI)
------
此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
默认情况下,相对链接会自动完成并转换为完整URL
Class属性:(默认值在括号中)
$host连接的主机
$port连接端口
$proxy\主机使用的代理主机(如果有)
$proxy\端口使用代理主机端口(如果有)
$agent用户代理伪装(史努比V0.1)
$referer源信息(如果有)
$cookies饼干,如有
$rawheads其他标题信息(如有)
$maxredrs最大重定向时间,0=不允许(5)
$offsiteok是否允许场外重定向。(true)
$expandlinks是否完成指向完整地址的所有链接(true)
$user authentication username(如果有)
$pass身份验证用户名(如果有)