php抓取网页snoopy(php类模拟浏览器Snoopy(\$URI)的特点)
优采云 发布时间: 2021-09-21 04:05php抓取网页snoopy(php类模拟浏览器Snoopy(\$URI)的特点)
snoopy是一个php类,用于模拟浏览器的功能,获取Web内容,发送表单。 snoopy运行了在4个或更多的服务器的PHP版本,并支持PCRE(Perl兼容的正则表达式),基本灯泡服务支持。
一、 snoopy一些功能
1.爬行内容获取
2. grabed文本内容(删除html标记)fetchtext
3. crawl链接,表单fetchlinks fetchform
4.支持代理主机
5.支持基本用户名/密码验证
6.支持set user_agent,treeer,cookie和header内容(头文件)
7.支持浏览器重定向,并控制重定向深度
8.可以将网页中的链接扩展为高质量的URL(默认)
9.提交数据并获取返回值
1 0.支持跟踪HTML帧
1 1.支持重定向,传递cookie,需要php4或更多,因为它是一类PHP,无需支持,服务器不支持卷曲选择
二、方法
获取(\ $ uri)
这是用于捕获网页内容的方法。 \ $ URI参数是网页捕获的URL地址。结果存储在\ $ this-和gt中;结果。如果您爬行是一个框架,史努比将每个框架存储到一个数组中,然后存入\ $ this->结果。
fetchtext(\ $ uri)
此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。
fetchform(\ $ uri)
此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。
fetchlinks(\ $ uri)此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
提交(\ $ uri,\ $ formvars)
此方法将确认表单发送到由\ $ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。
submittext(\ $ uri,\ $ formvars)
此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。
submitlinks(\ $ uri)
此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
三、 class属性(括号中的默认值)
\ $ host连接主机
\ $端口连接端口
\ $ proxy_host由代理主机使用,如果有的话,
\ $ proxy_port使用的代理主机端口,如果有的话,
\ $代理用户代理伪装(snoopy v 0.1)
\ $相关信息,如果有任何单词
\ $ cookie cookie,如果有的话
$ rawheaders其他标题信息,如果有的话,
\ $ maxredirs最大重定向,0 =不允许(5)
\ $ offsiteok whers或不允许从现场重定向。 (true)
\ $ odernlinks完成完整地址(true)
的链接
\ $用户认证的用户名,如果有的话,
\ $传递身份验证用户名,如果有任何单词