snoopy php网页抓取工具(php开发工程师扩支持服务器的使用教程(一))

优采云 发布时间: 2021-12-13 00:31

  snoopy php网页抓取工具(php开发工程师扩支持服务器的使用教程(一))

  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章介绍snoopy详细使用教程。

  史努比的一些特点:

  抓取网页内容抓取

  获取网页的文本内容(去除HTML标签)fetchtext

  获取网页链接,表单获取链接获取表单

  支持代理主机

  支持基本的用户名/密码验证

  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)

  支持浏览器重定向并控制重定向深度

  可以将网页中的链接扩展为高质量的网址(默认)

  提交数据并获取返回值

  支持跟踪 HTML 框架

  支持重定向时传递cookie

  需要 php4 或更高版本。既然是php类,不需要初级php开发工程师扩展支持。服务器不支持curl时的最佳选择,

  史努比类方法和示例:

  获取($URI)

  这是用于抓取网页内容的方法。

  $URI 参数是被抓取网页的 URL 地址。

  获取的结果存储在 $this->results 中。

  如果你在抓一个PHP自动签入函数实现框架,Snoopy会跟踪每个框架并存入一个数组,然后存入$this->results。

  fetchtext($URI)

  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。

  fetchform($URI)

  此方法与fetch()类似,唯一不同的是此方法会去除HTML标签等无关数据,只返回石家庄php网页(formphp扩展开发教程)中的表单内容。

  fetchlinks($URI微信公众号php开发框架)

  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。

  默认情况下,相对链接会自动补全并转换成完整的网址。

  提交(

  

  $URI,$formvars)

  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。

  提交文本($URI,$formvars)

  这个方法和submit()类似,唯一不同的是这个php post文件上传方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。

  提交链接($URI)

  这个方法类似于submphp插入mysql乱码it(),唯一不同的是这个方法会去掉HTML标签等无关数据,只返回网页中的链接。

  默认情况下,相对链接会自动补全并转换成完整的网址。

  Snoopy采集Class 属性:(括号内为默认值)

  $host 连接的主机

  $port 连接的端口

  $proxy_host 使用的代理主机,如果有的话

  $proxy_port 使用的代理主机端口,如果有的话

  $agent 用户代理伪装(史努比 v0.1)

  $referer 传入信息,如果有的话

  $cookies cookies(如果有)

  $rawheaders 其他头信息,如果有的话

  $maxredirs 最大重定向次数,0=不允许 (5)

  $offsiteok 是否允许异地重定向。 (真)

  $expandlinks 是否完成所有链接以完成地址(真实)

  $user 认证用户名,如果有的话

  $pass 认证用户名,如果有的话

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线