php抓取网页snoopy(:Snoopy是什么?的一些特点:方便抓取网页的内容)
优采云 发布时间: 2021-09-21 04:09php抓取网页snoopy(:Snoopy是什么?的一些特点:方便抓取网页的内容)
目录
[]
当您使用PHP时,并希望执行一些采集任务,那么您应该了解史努比。
什么是snoopy?
snoopy是模拟Web浏览器的功能的PHP类,可以完成获取Web内容并发送表单的任务。
snoopy的声音:
*方便捕获网页
*方便捕获网页的文本内容(删除HTML标记)
*方便捕获网页的链接
*支持代理主机
*支持基本用户名/密码验证
*支持set user_agent,referer,cookie和header内容(头文件)
*支持浏览器转向并控制转向深度
*可以将网页中的链接扩展为高质量的URL(默认)
*有助于数据并获取返回值
*支持跟踪HTML帧(v 0. 92添加)
*支持重新转向,通过cookie(v 0. 92增加)
*支持重新转向,通过cookie
要求:
Snoopy需要PHP使用PCRE(Perl兼容的正则表达式),
哪个商店是php 3.0. 9和Up。对于读取超时支持,它需要
PHP 4 beta 4或更高版本。史努比是通过PHP 3.0. 1 2.
测试和测试
方法:
获取($ uri)
----
这是用于捕获网页内容的方法。
$ uri参数是网页捕获的URL地址。
结果存储在$ this-和gt;结果。
如果您正在抓取框架,Snoopy将每个框架存储到数组中,然后存入$ this->结果。
fetchtext($ uri)
-----
此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。
fetchform($ uri)
-----
此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。
fetchlinks($ uri)
------
此方法类似于fetch(),唯一的区别是该方法删除HTML标记和其他不相关的数据,仅在网页中的链接(链接)。
默认情况下,相对链接将自动完成,转换为完整的URL。
提交($ uri,$ formvars)
--------
此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是存储表单个参数的数组。
submittext($ uri,$ formvars)
---------
此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。
submitlinks($ uri)
------
此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。
默认情况下,相对链接将自动完成,转换为完整的URL。
类属性:(括号中的默认值)
$ host连接主机
$端口连接端口
$ proxy_host使用代理主机(如果有),
$ proxy_port由代理主机端口使用,如果有的话,
$代理用户代理伪装(snoopy v 0.1)
$ crew it写入信息,如果有的话,
$ cookie cookie,如果有的话
$ rawheaders其他标题信息,如果有的话,
$ maxredirs最大重定向,0 =不允许(5)
$ offsiteok是否允许从现场重定向。 (true)
$ odernlinks完成链接到完整地址(true)
$用户认证的用户名,如果有的话,
$ pass身份验证的用户名,如果有任何单词