snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)
优采云 发布时间: 2021-10-02 17:23snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)
史努比:一个非常强大的PHP类。下面是对snoopy.class.php源文件的详细介绍。Snoopy是一个PHP类,用于模拟浏览器的功能。您可以获取web内容并发送表单。Snoopy的一些功能:抓取网页的内容,抓取网页的文本内容(删除HTML标记),抓取文本,抓取网页的链接,表单fetchlinks fetchform支持设置用户代理、引用者、cookies和headercontent提交数据,并获取返回值10。支持跟踪HTML框架11。支持重定向时,传递cookie需要PHP4或更高。因为它是一个PHP类,所以不需要扩展支持。服务器不支持curl时的最佳选择。Class method:fetch($URI)这是一个用于获取网页内容的方法$URI参数是已爬网网页的URL地址。捕获的结果存储在$this->results中。如果捕获一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后将其存储在$this->results中。Fetchtext($URI)此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
Fetchform($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他无关数据,并且只返回网页中的表单内容(表单)。Fetchlinks($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Submit($URI,$formvars)此方法向$URL指定的链接地址发送确认表单$formvars是存储表单参数的数组。Submittext($URI,$formvars)此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容。SubmitLink($URI)此方法类似于submit()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Class属性:(默认值在括号中)$host connected host$port connected port$proxy\主机使用的代理主机,如果有,$proxy\ port使用代理主机端口。如果有,$agent用户代理伪装(Snoopy V0.1)$referer origin information,如果有,$cookies,如果有,$rawheads其他头信息,如果有,$maxeditors最大重定向,0=否$offsiteokwhere allowereDirections off site.(true)$expandlinks是否完成指向完整地址的所有链接(true)$user authentication user name,如果有,$pass authentication user name,如果有,$accept HTTP accept type(image/GIF,image/x-xbitmap,image/jpeg,image/pjpeg,$error,如果有,$response\u code从服务器返回的响应代码$headers从服务器返回的头信息$MaxLength最大返回数据长度$read\u timeout读取操作超时)(requires PHP设置为0,表示没有超时$timed_out。如果读取操作超时,此属性返回true(需要PHP$maxframes允许跟踪的最大帧数$HTTP捕获状态$temp_dir web服务器可以写入的临时文件目录(/tmp)如果没有curl二进制文件,$curl_path curl binary的目录被设置为false。下面是一个简单的示例。例如,我们抓取我的博客的文本,包括“Snoopy.Class.PHP”newssnoopy echo$Snoopy include“Snoopy.Class.PHP”newssnoopy