php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

优采云 发布时间: 2021-10-05 04:09

  php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

  Snoopy是一个PHP类,用于模拟浏览器的功能。它可以获取web内容、发送表单以及开发一些采集程序和小偷程序

  史努比的一些特点:

  获取网页的内容

  抓取网页的文本内容(删除HTML标记)抓取文本

  抓取网页链接,表单获取链接获取表单

  支持代理主机

  支持基本用户名/密码身份验证

  支持设置用户代理、引用、cookie和标题内容

  支持浏览器重定向并控制重定向深度

  可以将网页中的链接扩展为高质量URL(默认)

  提交数据并获取返回值

  支持跟踪HTML框架

  支持重定向时传输cookie

  PHP4或以上就足够了。因为它是一个PHP类,所以不需要扩展来支持它。当服务器不支持curl时,它是最佳选择

  Snoopy类方法和示例:

  获取($URI)

  这是一种用于获取网页内容的方法

  $URI参数是已爬网网页的URL地址

  获取的结果存储在$this->results中

  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results

  fetchtext($URI)

  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容

  fetchform($URI)

  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容

  获取链接($URI)

  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接

  默认情况下,相对链接会自动完成并转换为完整URL

  提交($URI,$formvars)

  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组

  submittext($URI,$formvars)

  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容

  提交链接($URI)

  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接

  默认情况下,相对链接会自动完成并转换为完整URL

  史努比采集类属性:(默认值在括号中)

  $host连接的主机

  $port连接端口

  $proxy\主机使用的代理主机(如果有)

  $proxy\端口使用代理主机端口(如果有)

  $agent用户代理伪装(史努比V0.1)

  $referer源信息(如果有)

  $cookies饼干,如有

  $rawheads其他标题信息(如有)

  $maxredrs最大重定向时间,0=不允许(5)

  $offsiteok是否允许场外重定向。(true)

  $expandlinks是否完成指向完整地址的所有链接(true)

  $user authentication username(如果有)

  $pass身份验证用户名(如果有)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线