php抓取网页snoopy(php类模拟浏览器Snoopy(\$URI)的特点)

优采云 发布时间: 2021-09-21 04:05

  php抓取网页snoopy(php类模拟浏览器Snoopy(\$URI)的特点)

  snoopy是一个php类,用于模拟浏览器的功能,获取Web内容,发送表单。 snoopy运行了在4个或更多的服务器的PHP版本,并支持PCRE(Perl兼容的正则表达式),基本灯泡服务支持。

  一、 snoopy一些功能

  1.爬行内容获取

  2. grabed文本内容(删除html标记)fetchtext

  3. crawl链接,表单fetchlinks fetchform

  4.支持代理主机

  5.支持基本用户名/密码验证

  6.支持set user_agent,treeer,cookie和header内容(头文件)

  7.支持浏览器重定向,并控制重定向深度

  8.可以将网页中的链接扩展为高质量的URL(默认)

  9.提交数据并获取返回值

  1 0.支持跟踪HTML帧

  1 1.支持重定向,传递cookie,需要php4或更多,因为它是一类PHP,无需支持,服务器不支持卷曲选择

  二、方法

  获取(\ $ uri)

  这是用于捕获网页内容的方法。 \ $ URI参数是网页捕获的URL地址。结果存储在\ $ this-和gt中;结果。如果您爬行是一个框架,史努比将每个框架存储到一个数组中,然后存入\ $ this->结果。

  fetchtext(\ $ uri)

  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。

  fetchform(\ $ uri)

  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。

  fetchlinks(\ $ uri)此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。

  提交(\ $ uri,\ $ formvars)

  此方法将确认表单发送到由\ $ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。

  submittext(\ $ uri,\ $ formvars)

  此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。

  submitlinks(\ $ uri)

  此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。

  三、 class属性(括号中的默认值)

  \ $ host连接主机

  \ $端口连接端口

  \ $ proxy_host由代理主机使用,如果有的话,

  \ $ proxy_port使用的代理主机端口,如果有的话,

  \ $代理用户代理伪装(snoopy v 0.1)

  \ $相关信息,如果有任何单词

  \ $ cookie cookie,如果有的话

  $ rawheaders其他标题信息,如果有的话,

  \ $ maxredirs最大重定向,0 =不允许(5)

  \ $ offsiteok whers或不允许从现场重定向。 (true)

  \ $ odernlinks完成完整地址(true)

  的链接

  \ $用户认证的用户名,如果有的话,

  \ $传递身份验证用户名,如果有任何单词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线