php抓取网页snoopy(:Snoopy是什么?的一些特点:方便抓取网页的内容)

优采云 发布时间: 2021-09-21 04:09

  php抓取网页snoopy(:Snoopy是什么?的一些特点:方便抓取网页的内容)

  目录

  []

  当您使用PHP时,并希望执行一些采集任务,那么您应该了解史努比。

  什么是snoopy?

  snoopy是模拟Web浏览器的功能的PHP类,可以完成获取Web内容并发送表单的任务。

  snoopy的声音:

  *方便捕获网页

  *方便捕获网页的文本内容(删除HTML标记)

  *方便捕获网页的链接

  *支持代理主机

  *支持基本用户名/密码验证

  *支持set user_agent,referer,cookie和header内容(头文件)

  *支持浏览器转向并控制转向深度

  *可以将网页中的链接扩展为高质量的URL(默认)

  *有助于数据并获取返回值

  *支持跟踪HTML帧(v 0. 92添加)

  *支持重新转向,通过cookie(v 0. 92增加)

  *支持重新转向,通过cookie

  要求:

  Snoopy需要PHP使用PCRE(Perl兼容的正则表达式),

  哪个商店是php 3.0. 9和Up。对于读取超时支持,它需要

  PHP 4 beta 4或更高版本。史努比是通过PHP 3.0. 1 2.

  测试和测试

  方法:

  获取($ uri)

  ----

  这是用于捕获网页内容的方法。

  $ uri参数是网页捕获的URL地址。

  结果存储在$ this-和gt;结果。

  如果您正在抓取框架,Snoopy将每个框架存储到数组中,然后存入$ this->结果。

  fetchtext($ uri)

  -----

  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。

  fetchform($ uri)

  -----

  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。

  fetchlinks($ uri)

  ------

  此方法类似于fetch(),唯一的区别是该方法删除HTML标记和其他不相关的数据,仅在网页中的链接(链接)。

  默认情况下,相对链接将自动完成,转换为完整的URL。

  提交($ uri,$ formvars)

  --------

  此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是存储表单个参数的数组。

  submittext($ uri,$ formvars)

  ---------

  此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。

  submitlinks($ uri)

  ------

  此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。

  默认情况下,相对链接将自动完成,转换为完整的URL。

  类属性:(括号中的默认值)

  $ host连接主机

  $端口连接端口

  $ proxy_host使用代理主机(如果有),

  $ proxy_port由代理主机端口使用,如果有的话,

  $代理用户代理伪装(snoopy v 0.1)

  $ crew it写入信息,如果有的话,

  $ cookie cookie,如果有的话

  $ rawheaders其他标题信息,如果有的话,

  $ maxredirs最大重定向,0 =不允许(5)

  $ offsiteok是否允许从现场重定向。 (true)

  $ odernlinks完成链接到完整地址(true)

  $用户认证的用户名,如果有的话,

  $ pass身份验证的用户名,如果有任何单词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线