snoopy php网页抓取工具(PHP类Snoopy的一些特点:*方便网页的文本内容)
优采云 发布时间: 2021-11-17 09:00snoopy php网页抓取工具(PHP类Snoopy的一些特点:*方便网页的文本内容)
大家知道史努比在PHP类中是什么吗?
Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
PHP Snoopy 的一些特性:
* 方便抓取网页内容
* 方便抓取网页文字内容(去除HTML标签)
* 方便抓取网页链接
* 支持代理主机
* 支持基本的用户名/密码验证
* 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
* 支持浏览器转向,可控制转向深度
* 可以将网页中的链接扩展为高质量的url(默认)
* 方便提交数据和获取返回值
* 支持跟踪 HTML 框架(v0.92 添加)
* 支持再次重定向时传递 cookie(v0.92 增加)
PHP类Snoopy的正确运行需要您服务器的PHP版本为4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持所有基本的LAMP服务。
它提供了以下接口或方法:
获取($URI)
这个方法是抓取网页的内容,$URI是要抓取的网页的网址,结果存放在$this->results中。如果抓取一帧,每一帧都会被抓取,结果保存在一个数组中。
fetchtext($URI)
该方法与fetch()大致相同,只是结果是文本,不包括HTML标签等无关信息。
fetchform($URI)
该方法只返回被抓取网页上的表单元素。
fetchlinks($URI)
该方法只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
提交($URI,$formvars)
此方法将表单提交到指定的 $URI。 $formvars 是要传递的表单变量数组。
提交文本($URI,$formvars)
该方法与submit()基本相同,只是返回的是文本,不包括html标签等无关数据。
提交链接($URI)
此方法返回链接。
上一篇:几种主流PHP框架的优缺点对比_PHP教程