snoopy php网页抓取工具(Snoopy-thePHPnetclientv1.2.4Snoopy的特点分析)
优采云 发布时间: 2022-03-05 10:17snoopy php网页抓取工具(Snoopy-thePHPnetclientv1.2.4Snoopy的特点分析)
史努比-PHP网络客户端v1.2.4
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
史努比的特点:
1、获取网页内容fetch
2、获取网页的文本内容(去掉HTML标签)fetchtext
3、获取网页链接,form fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码认证
6、支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7、支持浏览器重定向,控制重定向深度
8、可以将网页中的链接展开成高质量的url(默认)
9、提交数据并获取返回值
10、支持跟踪 HTML 帧
11、支持重定向时传递cookie
需要php4以上就够了。由于是php的一个类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
总结方法:
1 include "Snoopy.class.php";
2 $snoopy = new Snoopy;
3
4 $snoopy->fetchtext("http://www.php.net/");
5 print $snoopy->results;
6
7 $snoopy->fetchlinks("http://www.phpbuilder.com/");
8 print $snoopy->results;
9
10 $submit_url = "http://lnk.ispi.net/texis/scripts/msearch/netsearch.html";
11
12 $submit_vars["q"] = "amiga";
13 $submit_vars["submit"] = "Search!";
14 $submit_vars["searchhost"] = "Altavista";
15
16 $snoopy->submit($submit_url,$submit_vars);
17 print $snoopy->results;
18
19 $snoopy->maxframes=5;
20 $snoopy->fetch("http://www.ispi.net/");
21 echo "\n";
22 echo htmlentities($snoopy->results[0]);
23 echo htmlentities($snoopy->results[1]);
24 echo htmlentities($snoopy->results[2]);
25 echo "
\n";2627$snoopy->fetchform("");28 打印 $snoopy->results;29