snoopy php网页抓取工具(文档介绍:SnoopyPHP网页抓取工具是什么特征?)
优采云 发布时间: 2021-12-03 20:16snoopy php网页抓取工具(文档介绍:SnoopyPHP网页抓取工具是什么特征?)
文档介绍:
史努比 PHP 网络爬虫
Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
以下是它的一些功能:
1、方便抓取网页内容
2、方便抓取网页文字(去掉HTML代码)
3、促进网页链接的抓取
4、支持代理主机
5、支持基本的用户/密码认证方式
6、支持自定义用户代理、引用者、cookies和标题内容
7、支持浏览器转向,可以控制转向深度
8、可以将网页中的链接扩展成高质量的url(默认)
9、方便提交数据和获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持再次重定向时传递cookie
12、支持袜子
类属性:(括号内为默认值)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies cookies,如果有的话
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks?是否完成所有链接完成地址(true)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话