snoopy php网页抓取工具(PHP类Snoopy的一些特点:*方便网页的文本内容)

优采云 发布时间: 2021-11-17 09:00

  snoopy php网页抓取工具(PHP类Snoopy的一些特点:*方便网页的文本内容)

  大家知道史努比在PHP类中是什么吗?

  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。

  PHP Snoopy 的一些特性:

  * 方便抓取网页内容

  * 方便抓取网页文字内容(去除HTML标签)

  * 方便抓取网页链接

  * 支持代理主机

  * 支持基本的用户名/密码验证

  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)

  * 支持浏览器转向,可控制转向深度

  * 可以将网页中的链接扩展为高质量的url(默认)

  * 方便提交数据和获取返回值

  * 支持跟踪 HTML 框架(v0.92 添加)

  * 支持再次重定向时传递 cookie(v0.92 增加)

  PHP类Snoopy的正确运行需要您服务器的PHP版本为4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持所有基本的LAMP服务。

  它提供了以下接口或方法:

  获取($URI)

  这个方法是抓取网页的内容,$URI是要抓取的网页的网址,结果存放在$this->results中。如果抓取一帧,每一帧都会被抓取,结果保存在一个数组中。

  fetchtext($URI)

  该方法与fetch()大致相同,只是结果是文本,不包括HTML标签等无关信息。

  fetchform($URI)

  该方法只返回被抓取网页上的表单元素。

  fetchlinks($URI)

  该方法只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。

  提交($URI,$formvars)

  此方法将表单提交到指定的 $URI。 $formvars 是要传递的表单变量数组。

  提交文本($URI,$formvars)

  该方法与submit()基本相同,只是返回的是文本,不包括html标签等无关数据。

  提交链接($URI)

  此方法返回链接。

  上一篇:几种主流PHP框架的优缺点对比_PHP教程

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线