php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))

优采云 发布时间: 2021-10-27 06:04

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))

  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。

  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。

  官网(下载):

  主要功能

  获取网页内容(fetch)

  获取网页的文本内容(去除HTML标签)(fetchtext)

  获取网页的链接和表单(fetchlinks fetchform)

  支持代理主机

  支持基本的用户名/密码验证

  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)

  支持浏览器重定向并控制重定向深度

  可以将网页中的链接扩展为高质量的网址(默认)

  提交数据并获取返回值

  支持跟踪 HTML 框架

  支持重定向时传递cookie

  接口或方法

  获取($URI)

  抓取网页的内容,$URI为要抓取的网页的网址,抓取的结果存放在$this->results中。如果抓取一帧,会抓取每一帧,并将结果保存在一个数组中。

  fetchtext($URI)

  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。

  fetchform($URI)

  只返回被抓取网页上的表单元素。

  fetchlinks($URI)

  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。

  提交($URI,$formvars)

  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。

  提交文本($URI,$formvars)

  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。

  提交链接($URI)

  返回的是一个链接。

  史努比采集类属性(史努比.class.php)

  $host 连接的主机

  $port 连接的端口

  $proxy_host 使用的代理主机,如果有的话

  $proxy_port 使用的代理主机端口,如果有的话

  $agent 用户代理伪装(史努比 v0.1)

  $referer 传入信息,如果有的话

  $cookies cookies(如果有)

  $rawheaders 其他头信息,如果有的话

  $maxredirs 最大重定向次数,0=不允许 (5)

  $offsiteok 是否允许异地重定向。 (真实)

  $expandlinks 是否完成所有链接以完成地址(真实)

  $user 认证用户名,如果有的话

  $pass 认证用户名,如果有的话

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线