
php抓取网页snoopy
php抓取网页snoopy(snoopyphp类完成获取网页内容和发送表单的任务的特征)
网站优化 • 优采云 发表了文章 • 0 个评论 • 60 次浏览 • 2022-04-17 17:25
摘要:Snoopy是一个模仿网页浏览器功能的php类,可以完成抓取网页内容和发送表单的任务。以下是它的一些特点:1、易于抓取网页内容2、...
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。
以下是它的一些功能:
1、轻松抓取网页内容
2、轻松抓取网页文字(去掉HTML代码)
3、便于抓取网页的链接
4、支持代理主机
5、支持基本用户/密码认证方式
6、支持自定义用户代理、referer、cookies和header内容
7、支持浏览器转向和控制转向深度
8、可以将网页中的链接扩展为高质量的url(默认)
9、方便提交数据并获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持重定向时传递cookie
具体使用请参考下载文件中的说明。
复制代码代码如下:
MyIASM 是 IASM 表的新版本,具有以下扩展:
二进制级别的可移植性。
NULL 列索引。
与 ISAM 表相比,可变长度行的碎片更少。
支持大文件。
更好的索引压缩。
更好的键?统计分布。
更好更快的自动增量处理。
以下是一些细节和实现差异:
1.InnoDB 不支持 FULLTEXT 类型的索引。
2.InnoDB并没有保存表的具体行数,也就是说在执行selectcount(*)fromtable时,InnoDB需要扫描整个表来计算有多少行,但是MyISAM 只需读取并保存大量行即可。请注意,当 count(*) 语句收录 where 条件时,两个表的操作是相同的。
3.对于AUTO_INCREMENT类型的字段,InnoDB必须只收录该字段的索引,但在MyISAM表中,可以与其他字段建立联合索引。
4.DELETEFROMtable,InnoDB不会重新创建表,而是逐行删除。
5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决方法是先把InnoDB表改成MyISAM表,导入数据再改成InnoDB表,但是对于使用的额外InnoDB特性(比如外键)是不适用的。
另外,InnoDB 表的行锁不是绝对的。如果MySQL在执行SQL语句时无法确定要扫描的范围,InnoDB表也会锁定整个表,如updatetablesetnum=1wherenamelike"%aaa%"
任何一种桌子都不是灵丹妙药。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。 查看全部
php抓取网页snoopy(snoopyphp类完成获取网页内容和发送表单的任务的特征)
摘要:Snoopy是一个模仿网页浏览器功能的php类,可以完成抓取网页内容和发送表单的任务。以下是它的一些特点:1、易于抓取网页内容2、...
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。
以下是它的一些功能:
1、轻松抓取网页内容
2、轻松抓取网页文字(去掉HTML代码)
3、便于抓取网页的链接
4、支持代理主机
5、支持基本用户/密码认证方式
6、支持自定义用户代理、referer、cookies和header内容
7、支持浏览器转向和控制转向深度
8、可以将网页中的链接扩展为高质量的url(默认)
9、方便提交数据并获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持重定向时传递cookie
具体使用请参考下载文件中的说明。
复制代码代码如下:
MyIASM 是 IASM 表的新版本,具有以下扩展:
二进制级别的可移植性。
NULL 列索引。
与 ISAM 表相比,可变长度行的碎片更少。
支持大文件。
更好的索引压缩。
更好的键?统计分布。
更好更快的自动增量处理。
以下是一些细节和实现差异:
1.InnoDB 不支持 FULLTEXT 类型的索引。
2.InnoDB并没有保存表的具体行数,也就是说在执行selectcount(*)fromtable时,InnoDB需要扫描整个表来计算有多少行,但是MyISAM 只需读取并保存大量行即可。请注意,当 count(*) 语句收录 where 条件时,两个表的操作是相同的。
3.对于AUTO_INCREMENT类型的字段,InnoDB必须只收录该字段的索引,但在MyISAM表中,可以与其他字段建立联合索引。
4.DELETEFROMtable,InnoDB不会重新创建表,而是逐行删除。
5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决方法是先把InnoDB表改成MyISAM表,导入数据再改成InnoDB表,但是对于使用的额外InnoDB特性(比如外键)是不适用的。
另外,InnoDB 表的行锁不是绝对的。如果MySQL在执行SQL语句时无法确定要扫描的范围,InnoDB表也会锁定整个表,如updatetablesetnum=1wherenamelike"%aaa%"
任何一种桌子都不是灵丹妙药。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。
php抓取网页snoopy(Snoopy是什么?Snoopy的一些特点:方便网页网页的内容)
网站优化 • 优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-04-13 02:17
什么是史努比?
Snoopy 是一个模仿网络浏览器功能的 php 类,可以执行诸如获取网页内容和发送表单等任务。
史努比的一些特点:
* 轻松抓取网页内容
* 轻松抓取网页文本内容(去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码认证
* 支持设置user_agent、referer(来)、cookies和header内容(头文件)
* 支持浏览器转向,可以控制转向深度
* 可以将网页中的链接扩展为高质量的网址(默认)
* 方便提交数据并获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 重定向时支持传递cookie(v0.92增加)
要求:
史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
开发和测试的
类方法:
获取($URI)
------------
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
---------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
---------------
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的表单内容(form)。
获取链接($URI)
----------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
----------
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
---------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
----------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy是什么?Snoopy的一些特点:方便网页网页的内容)
什么是史努比?
Snoopy 是一个模仿网络浏览器功能的 php 类,可以执行诸如获取网页内容和发送表单等任务。
史努比的一些特点:
* 轻松抓取网页内容
* 轻松抓取网页文本内容(去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码认证
* 支持设置user_agent、referer(来)、cookies和header内容(头文件)
* 支持浏览器转向,可以控制转向深度
* 可以将网页中的链接扩展为高质量的网址(默认)
* 方便提交数据并获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 重定向时支持传递cookie(v0.92增加)
要求:
史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
开发和测试的
类方法:
获取($URI)
------------
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
---------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
---------------
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的表单内容(form)。
获取链接($URI)
----------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
----------
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
---------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
----------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
网站优化 • 优采云 发表了文章 • 0 个评论 • 148 次浏览 • 2022-03-31 12:14
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4.0以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。 Snoopy类的下载地址为:
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接展开成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4.0以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。 Snoopy类的下载地址为:
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接展开成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(php,类,抓取网页的特点及LAMP服务都支持)
网站优化 • 优采云 发表了文章 • 0 个评论 • 104 次浏览 • 2022-03-25 17:16
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoop y 正常运行需要你的服务器的PHP版本在4以上,并且支持PCRE(patible Regular Expressions),并且支持基本的LAMP服务。 一、 Snoopy 的一些特性: 1. 抓取网页内容fetch 2. 抓取网页文本内容(去掉HTML标签) fetchtext 3. 抓取链接,形成网页的fetchlinks fetchform 4.支持代理主机5.支持基本用户名/密码认证6.支持设置user_agent、referer(返回)、cookies和header内容(头文件)7.@ >支持浏览器重定向和控制重定向深度8.可以将网页中的链接扩展为高质量的url(默认)9.提交数据并获取返回值10.支持跟踪HTML框架11. 支持重定向时传递cookie,需要php4以上,因为是php的一个类,不需要扩展支持,服务器不支持curl时的最佳选择。 二、类方法:fetch($URI) ————这是用来获取网页内容的方法。
$URI参数是被抓取网页的URL地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后是 $this->results。 fetchtext($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。 fetchform($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的表单内容(表单)。 fetchlinks($URI) ———— 这个方法和fetch()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 submit($URI, $formvars) ———————— 该方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。 submittext($URI, $formvars) ———————————该方法与 submit() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回文本内容登录后的网页。
submitlinks($URI) ———— 这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 三、 类属性:(括号内为默认值) $host 要连接的主机 $port 要连接的端口 $proxy_host 使用的代理主机,如果有 $proxy_port 要使用的代理主机端口,如果任何 $agent 用户代理伪装(Snoopy v0.1) $referer 信息,如果有 $cookies cookie,如果有 $rawheaders 其他头信息,如果有 $maxredirs 最大权重定位数, 查看全部
php抓取网页snoopy(php,类,抓取网页的特点及LAMP服务都支持)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoop y 正常运行需要你的服务器的PHP版本在4以上,并且支持PCRE(patible Regular Expressions),并且支持基本的LAMP服务。 一、 Snoopy 的一些特性: 1. 抓取网页内容fetch 2. 抓取网页文本内容(去掉HTML标签) fetchtext 3. 抓取链接,形成网页的fetchlinks fetchform 4.支持代理主机5.支持基本用户名/密码认证6.支持设置user_agent、referer(返回)、cookies和header内容(头文件)7.@ >支持浏览器重定向和控制重定向深度8.可以将网页中的链接扩展为高质量的url(默认)9.提交数据并获取返回值10.支持跟踪HTML框架11. 支持重定向时传递cookie,需要php4以上,因为是php的一个类,不需要扩展支持,服务器不支持curl时的最佳选择。 二、类方法:fetch($URI) ————这是用来获取网页内容的方法。
$URI参数是被抓取网页的URL地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后是 $this->results。 fetchtext($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。 fetchform($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的表单内容(表单)。 fetchlinks($URI) ———— 这个方法和fetch()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 submit($URI, $formvars) ———————— 该方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。 submittext($URI, $formvars) ———————————该方法与 submit() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回文本内容登录后的网页。
submitlinks($URI) ———— 这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 三、 类属性:(括号内为默认值) $host 要连接的主机 $port 要连接的端口 $proxy_host 使用的代理主机,如果有 $proxy_port 要使用的代理主机端口,如果任何 $agent 用户代理伪装(Snoopy v0.1) $referer 信息,如果有 $cookies cookie,如果有 $rawheaders 其他头信息,如果有 $maxredirs 最大权重定位数,
php抓取网页snoopy(php采集利器snoopy应用[转]应用应用)
网站优化 • 优采云 发表了文章 • 0 个评论 • 114 次浏览 • 2022-03-25 17:02
php采集利器snoopy应用[转]
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
Snoopy 要求您的服务器具有 PHP 4 或更高版本,并支持 PCRE(Perl 兼容正则表达式)、基本 LAMP 服务。
下载史努比
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php采集利器snoopy应用[转]应用应用)
php采集利器snoopy应用[转]
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
Snoopy 要求您的服务器具有 PHP 4 或更高版本,并支持 PCRE(Perl 兼容正则表达式)、基本 LAMP 服务。
下载史努比
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy的一些特点:1抓取网页的文本内容())
网站优化 • 优采云 发表了文章 • 0 个评论 • 90 次浏览 • 2022-03-25 16:26
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy的一些特点:1抓取网页的文本内容())
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(PHP采集利器:Snoopy试用心得)
网站优化 • 优采云 发表了文章 • 0 个评论 • 206 次浏览 • 2022-03-24 22:16
PHP采集工具:史努比试用体验
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(PHP采集利器:Snoopy试用心得)
PHP采集工具:史努比试用体验
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
网站优化 • 优采云 发表了文章 • 0 个评论 • 60 次浏览 • 2022-03-06 20:11
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(php类Snoopy的特点及特点分析-上海怡健医学)
网站优化 • 优采云 发表了文章 • 0 个评论 • 82 次浏览 • 2022-02-28 04:04
Snoopy是一个php类,用来模拟浏览器的一些简单功能,可以获取网页内容,发送表单等操作。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。由于是php类,不需要扩展,所以在服务器不支持curl的情况下是最好的选择。
史努比的特点:
1、获取网页内容fetch
2、获取网页的文本内容(去掉HTML标签)fetchtext
3、获取网页链接,form fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码认证
6、支持设置user_agent、referer(return)、cookies和header内容(头文件)
7、支持浏览器重定向,控制重定向深度
8、可以将网页中的链接扩展成高质量的url(默认)
9、提交数据并获取返回值
10、支持跟踪HTML帧
11、支持重定向时传递cookie
史努比类下载地址:
史努比类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
史努比类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php类Snoopy的特点及特点分析-上海怡健医学)
Snoopy是一个php类,用来模拟浏览器的一些简单功能,可以获取网页内容,发送表单等操作。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。由于是php类,不需要扩展,所以在服务器不支持curl的情况下是最好的选择。
史努比的特点:
1、获取网页内容fetch
2、获取网页的文本内容(去掉HTML标签)fetchtext
3、获取网页链接,form fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码认证
6、支持设置user_agent、referer(return)、cookies和header内容(头文件)
7、支持浏览器重定向,控制重定向深度
8、可以将网页中的链接扩展成高质量的url(默认)
9、提交数据并获取返回值
10、支持跟踪HTML帧
11、支持重定向时传递cookie
史努比类下载地址:
史努比类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
史努比类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)
网站优化 • 优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-02-25 07:16
我用了两天的 php 的 Snoopy 类,发现它非常好用。要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有文本信息,使用fetchtext(内部还是使用正则表达式处理),还有很多其他功能,比如模拟提交表单等。
使用方法:
先下载Snoopy类,下载地址:
先实例化一个对象,然后调用对应的方法获取爬取的网页信息
代码如下:
包括'snoopy/Snoopy.class.php';
$snoopy = 新的史努比();
$sourceURL = "//";
$snoopy->fetchlinks($sourceURL);
$a = $snoopy->结果;
没有提供获取网页中所有图片地址的方法。我需要获取页面中所有 文章 列表中的图像地址。然后我自己写了一个,主要是因为规律性很重要匹配。
代码如下:
//正则表达式匹配图片
$reTag = "/
/i";
因为特殊需要,只需要抓取htp://开头的图片(外站的图片可能会做防盗链,所以想先抓取本地)
1.爬取指定网页并过滤掉所有预期的文章地址;
2.循环获取第一步中文章的地址,然后用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
3.根据图片后缀和ID保存图片(这里只有gif,jpg)---如果图片文件存在,先删除再保存。
代码如下: 查看全部
php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)
我用了两天的 php 的 Snoopy 类,发现它非常好用。要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有文本信息,使用fetchtext(内部还是使用正则表达式处理),还有很多其他功能,比如模拟提交表单等。
使用方法:
先下载Snoopy类,下载地址:
先实例化一个对象,然后调用对应的方法获取爬取的网页信息
代码如下:
包括'snoopy/Snoopy.class.php';
$snoopy = 新的史努比();
$sourceURL = "//";
$snoopy->fetchlinks($sourceURL);
$a = $snoopy->结果;
没有提供获取网页中所有图片地址的方法。我需要获取页面中所有 文章 列表中的图像地址。然后我自己写了一个,主要是因为规律性很重要匹配。
代码如下:
//正则表达式匹配图片
$reTag = "/
/i";
因为特殊需要,只需要抓取htp://开头的图片(外站的图片可能会做防盗链,所以想先抓取本地)
1.爬取指定网页并过滤掉所有预期的文章地址;
2.循环获取第一步中文章的地址,然后用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
3.根据图片后缀和ID保存图片(这里只有gif,jpg)---如果图片文件存在,先删除再保存。
代码如下:
php抓取网页snoopy(php一个Snoopy的功能特点及特点分析-苏州安嘉 )
网站优化 • 优采云 发表了文章 • 0 个评论 • 70 次浏览 • 2022-02-14 21:12
)
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。官方网站
史努比的一些特点:
需要php4或更高版本。由于是php类,不需要扩展,是服务器不支持curl时的最佳选择。
类方法
1.获取($uri)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
2.fetchtext($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
3.fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
4.fetchlinks($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
5.提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
6.提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
7.提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
类属性(括号内为默认值)
演示
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn"))
{
echo "".htmlspecialchars($snoopy->results)."
n"; } elseecho "获取文档时出错:".$snoopy->error."n";
获取指定url的内容:
表单提交:
现在表单已经提交,可以做很多事情。接下来,我们伪装ip,伪装浏览器:
完整示例:
/**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = '238472834723489';
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:
";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
使用史努比类完成一张简单的图片采集:
<p> 查看全部
php抓取网页snoopy(php一个Snoopy的功能特点及特点分析-苏州安嘉
)
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。官方网站
史努比的一些特点:
需要php4或更高版本。由于是php类,不需要扩展,是服务器不支持curl时的最佳选择。
类方法
1.获取($uri)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
2.fetchtext($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
3.fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
4.fetchlinks($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
5.提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
6.提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
7.提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
类属性(括号内为默认值)
演示
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn"))
{
echo "".htmlspecialchars($snoopy->results)."
n"; } elseecho "获取文档时出错:".$snoopy->error."n";
获取指定url的内容:
表单提交:
现在表单已经提交,可以做很多事情。接下来,我们伪装ip,伪装浏览器:
完整示例:
/**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = '238472834723489';
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:
";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
使用史努比类完成一张简单的图片采集:
<p>
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
网站优化 • 优采云 发表了文章 • 0 个评论 • 73 次浏览 • 2022-01-30 02:17
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建了一个html文件,用于后面的分析。
$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';
3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限™"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3)根据读取的URL地址列表,抓取指定页面。
$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态 查看全部
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建了一个html文件,用于后面的分析。

$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';

3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限™"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。

for($i = 1; $i attr('href')); //医院详情
}
}

3)根据读取的URL地址列表,抓取指定页面。

$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}

FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
网站优化 • 优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-01-29 14:15
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(蜘蛛访问网站时wordpressrobotstxt)
网站优化 • 优采云 发表了文章 • 0 个评论 • 68 次浏览 • 2022-01-18 04:08
搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为 bot wordpress robots txt。当搜索引擎蜘蛛访问网站的页面时,它类似于普通用户使用浏览器。蜘蛛程序发送页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高搜索引擎的爬取和爬取速度,都使用了多只蜘蛛进行分布式爬取。
当蜘蛛访问 网站 时,wordpress robots txt 会首先访问 网站 根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些网页或内容,或者 网站,则蜘蛛会遵循协议而不抓取。
蜘蛛也有自己的代理名称。在站长的日志中可以看到蜘蛛爬行的痕迹,这也是为什么很多站长总是说要先查看网站日志的原因(作为优秀的SEO你必须有能力查看网站日志而不任何软件,并且对其代码的含义非常熟悉)wordpress robots txt。
wordpress robots txt,搜索引擎蜘蛛的一个基本原理
搜索引擎蜘蛛是Spiderwordpress robots txt,这是一个很形象的名字。互联网被比作蜘蛛网,所以蜘蛛就是在互联网上四处爬行的蜘蛛。
网络蜘蛛通过网页的链接地址寻找网页,从网站的某个页面(通常是首页)开始,读取网页的内容,寻找网页中的其他链接地址,然后通过这些链接地址寻找下一页。一个网页,以此类推,直到这个网站的所有网页都被爬取完毕。
如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理爬取互联网上的所有网页。
搜索引擎蜘蛛的基本原理和工作流程
对于搜索引擎来说,几乎不可能爬取互联网上的所有网页。根据目前公布的数据,容量最大的搜索引擎只爬取了网页总数的40%左右。
造成这种情况的原因之一是爬虫技术的瓶颈。100 亿个网页的容量是 100×2000G 字节。就算能存起来,下载也还是有问题(按照一台机器每秒下载20K,需要340台机器保存一年才能下载完所有网页),同时,由于数据量大,在提供搜索时也会对效率产生影响。
因此,很多搜索引擎的网络蜘蛛只抓取那些重要的网页,而在抓取时评估重要性的主要依据是某个网页的链接深度。
由于不可能爬取所有的网页,所以有些网络蜘蛛为一些不太重要的网站设置了要访问的层数,例如,如下图所示:
搜索引擎蜘蛛的基本原理和工作流程
A为起始页,属于第0层,B,C,D,E,F属于第1层,G,H属于第2层,I属于第3层,如果设置访问层数by the web spider 2, Web page I will not be access,这也使得某些网站网页可以在搜索引擎上搜索到,而其他部分则无法搜索到。
对于网站设计师来说,扁平的网站设计有助于搜索引擎抓取更多的网页。
网络蜘蛛在访问网站网页时,经常会遇到加密数据和网页权限的问题。某些网页需要会员权限才能访问。
当然,网站的站长可以让网络蜘蛛不按约定爬取,但是对于一些卖报告的网站,他们希望搜索引擎可以搜索到他们的报告,但不是完全免费的为了让搜索者查看,需要向网络蜘蛛提供相应的用户名和密码。
网络蜘蛛可以通过给定的权限抓取这些网页,从而提供搜索,当搜索者点击查看网页时,搜索者也需要提供相应的权限验证。
二、点击链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随网页上的链接,从一个页面爬到下一页,就像蜘蛛在蜘蛛网上爬行一样,这就是名字所在的地方搜索引擎蜘蛛的来源。因为。
整个互联网网站是由相互连接的链接组成的,也就是说,搜索引擎蜘蛛最终会从任何一个页面开始爬取所有页面。
搜索引擎蜘蛛的基本原理和工作流程
当然,网站和页面链接的结构过于复杂,蜘蛛只能通过一定的方法爬取所有页面。据了解,最简单的爬取策略有以下三种:
1、最好的第一
最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。算法预测为“有用”的网页。
一个问题是爬虫爬取路径上的很多相关网页可能会被忽略,因为最佳优先级策略是一种局部最优搜索算法,所以需要结合特定应用的最佳优先级进行改进才能跳出当地。最好的一点,据研究,这样的闭环调整可以将不相关网页的数量减少30%到90%。
2、深度优先
深度优先是指蜘蛛沿着找到的链接爬行,直到前面没有其他链接,然后返回第一页,沿着另一个链接爬行。
3、广度优先
广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一路跟随一个链接,而是爬取页面上的所有链接,然后进入第二层页面并跟随第二层找到的链接层。翻到第三页。
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬取整个互联网。
在实际工作中,蜘蛛的带宽资源和时间都不是无限的,也无法爬取所有页面。其实最大的搜索引擎只是爬取和收录互联网的一小部分,当然不是搜索。引擎蜘蛛爬得越多越好。
因此,为了尽可能多地捕获用户信息,深度优先和广度优先通常是混合使用的,这样可以照顾到尽可能多的网站,同时也照顾到部分网站 的内页。
三、搜索引擎蜘蛛工作中的信息采集
信息采集模块包括“蜘蛛控制”和“网络蜘蛛”两部分。“蜘蛛”这个名字形象地描述了信息采集模块在网络数据形成的“Web”上获取信息的功能。
一般来说,网络爬虫都是从种子网页开始,反复下载网页,从文档中搜索不可见的URL,从而访问其他网页,遍历网页。
而它的工作策略一般可以分为累积爬取(cumulative crawling)和增量爬取(incremental crawling)两种。
1、累积爬取
累积爬取是指从某个时间点开始,遍历系统允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积爬取策略可以保证爬取相当大的网页集合。
似乎由于网络数据的动态特性,集合中的网页被爬取的时间点不同,页面更新的时间点也不同。因此,累计爬取的网页集合实际上无法与真实环境中的网页数据进行比较。始终如一。
2、增量爬取
与累积爬取不同的是,增量爬取是指在一定规模的网页集合的基础上,通过更新数据,在现有集合中选择过期的网页,以保证抓取到的网页被抓取。数据与真实网络数据足够接近。
增量爬取的前提是系统已经爬取了足够多的网页,并且有这些页面被爬取的时间的信息。在针对实际应用环境的网络爬虫设计中,通常会同时收录累积爬取和增量爬取策略。
累积爬取一般用于数据集合的整体建立或大规模更新,而增量爬取主要用于数据集合的日常维护和即时更新。
爬取策略确定后,如何充分利用网络带宽,合理确定网页数据更新的时间点,成为网络蜘蛛运营策略中的核心问题。
总体而言,在合理利用软硬件资源对网络数据进行实时捕捉方面,已经形成了较为成熟的技术和实用的解决方案。我认为这方面需要解决的主要问题是如何更好地处理动态的web数据问题(比如越来越多的Web2.0数据等),以及更好地基于网页质量。
四、数据库
为了避免重复爬取和爬取网址,搜索引擎会建立一个数据库来记录已发现未爬取的页面和已爬取的页面。那么数据库中的URLs是怎么来的呢?
1、手动输入种子网站
简单来说就是我们建站后提交给百度、谷歌或者360的URL收录。
2、蜘蛛爬取页面
如果搜索引擎蜘蛛在爬取过程中发现了新的连接URL,但不在数据库中,则将其存入待访问的数据库中(网站观察期)。
爬虫根据重要程度从要访问的数据库中提取URL,访问并爬取页面,然后从要访问的地址库中删除该URL,放入已经访问过的地址库中。因此,建议站长在网站观察,期间有必要尽可能定期更新网站。
3、站长提交网站
一般而言,提交网站只是将网站保存到要访问的数据库中。如果网站是持久化的,不更新spider,就不会光顾搜索引擎的页面了收录是spider自己点链接。
因此,将其提交给搜索引擎对您来说不是很有用。后期根据你的网站更新程度来考虑。搜索引擎更喜欢沿着链接本身查找新页面。当然,如果你的SEO技术足够成熟,并且有这个能力,你可以试试,说不定会有意想不到的效果。不过对于一般站长来说,还是建议让蜘蛛爬行,自然爬到新的站点页面。
五、吸引蜘蛛
虽然理论上说蜘蛛可以爬取所有页面,但在实践中是不可能的,所以想要收录更多页面的SEO人员不得不想办法引诱蜘蛛爬取。
既然不能爬取所有的页面,就需要让它爬取重要的页面,因为重要的页面在索引中起着重要的作用,直接影响排名因素。哪些页面更重要?对此,我特意整理了以下几个我认为比较重要的页面,具有以下特点:
1、网站 和页面权重
优质老网站被赋予高权重,而这个网站上的页面爬取深度更高,所以更多的内页会是收录。
2、页面更新
蜘蛛每次爬取时都会存储页面数据。如果第二次爬取发现页面内容和第一次收录完全一样,说明页面没有更新,蜘蛛不需要经常爬取再爬取。
如果页面内容更新频繁,蜘蛛就会频繁爬爬,那么页面上的新链接自然会被蜘蛛更快地跟踪和爬取,这也是为什么需要每天更新文章@ >
3、导入链接
无论是外部链接还是同一个网站的内部链接,为了被蜘蛛爬取,必须有传入链接才能进入页面,否则蜘蛛不会知道页面的存在一点也不。这时候URL链接就起到了非常重要的作用,内部链接的重要性就发挥出来了。
另外,我个人觉得高质量的入站链接也往往会增加页面上的出站链接被爬取的深度。
这就是为什么大多数网站管理员或 SEO 都想要高质量的附属链接,因为蜘蛛 网站 从彼此之间爬到你 网站 的次数和深度更多。 查看全部
php抓取网页snoopy(蜘蛛访问网站时wordpressrobotstxt)
搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为 bot wordpress robots txt。当搜索引擎蜘蛛访问网站的页面时,它类似于普通用户使用浏览器。蜘蛛程序发送页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高搜索引擎的爬取和爬取速度,都使用了多只蜘蛛进行分布式爬取。
当蜘蛛访问 网站 时,wordpress robots txt 会首先访问 网站 根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些网页或内容,或者 网站,则蜘蛛会遵循协议而不抓取。
蜘蛛也有自己的代理名称。在站长的日志中可以看到蜘蛛爬行的痕迹,这也是为什么很多站长总是说要先查看网站日志的原因(作为优秀的SEO你必须有能力查看网站日志而不任何软件,并且对其代码的含义非常熟悉)wordpress robots txt。
wordpress robots txt,搜索引擎蜘蛛的一个基本原理
搜索引擎蜘蛛是Spiderwordpress robots txt,这是一个很形象的名字。互联网被比作蜘蛛网,所以蜘蛛就是在互联网上四处爬行的蜘蛛。
网络蜘蛛通过网页的链接地址寻找网页,从网站的某个页面(通常是首页)开始,读取网页的内容,寻找网页中的其他链接地址,然后通过这些链接地址寻找下一页。一个网页,以此类推,直到这个网站的所有网页都被爬取完毕。
如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理爬取互联网上的所有网页。
搜索引擎蜘蛛的基本原理和工作流程
对于搜索引擎来说,几乎不可能爬取互联网上的所有网页。根据目前公布的数据,容量最大的搜索引擎只爬取了网页总数的40%左右。
造成这种情况的原因之一是爬虫技术的瓶颈。100 亿个网页的容量是 100×2000G 字节。就算能存起来,下载也还是有问题(按照一台机器每秒下载20K,需要340台机器保存一年才能下载完所有网页),同时,由于数据量大,在提供搜索时也会对效率产生影响。
因此,很多搜索引擎的网络蜘蛛只抓取那些重要的网页,而在抓取时评估重要性的主要依据是某个网页的链接深度。
由于不可能爬取所有的网页,所以有些网络蜘蛛为一些不太重要的网站设置了要访问的层数,例如,如下图所示:
搜索引擎蜘蛛的基本原理和工作流程
A为起始页,属于第0层,B,C,D,E,F属于第1层,G,H属于第2层,I属于第3层,如果设置访问层数by the web spider 2, Web page I will not be access,这也使得某些网站网页可以在搜索引擎上搜索到,而其他部分则无法搜索到。
对于网站设计师来说,扁平的网站设计有助于搜索引擎抓取更多的网页。
网络蜘蛛在访问网站网页时,经常会遇到加密数据和网页权限的问题。某些网页需要会员权限才能访问。
当然,网站的站长可以让网络蜘蛛不按约定爬取,但是对于一些卖报告的网站,他们希望搜索引擎可以搜索到他们的报告,但不是完全免费的为了让搜索者查看,需要向网络蜘蛛提供相应的用户名和密码。
网络蜘蛛可以通过给定的权限抓取这些网页,从而提供搜索,当搜索者点击查看网页时,搜索者也需要提供相应的权限验证。
二、点击链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随网页上的链接,从一个页面爬到下一页,就像蜘蛛在蜘蛛网上爬行一样,这就是名字所在的地方搜索引擎蜘蛛的来源。因为。
整个互联网网站是由相互连接的链接组成的,也就是说,搜索引擎蜘蛛最终会从任何一个页面开始爬取所有页面。
搜索引擎蜘蛛的基本原理和工作流程
当然,网站和页面链接的结构过于复杂,蜘蛛只能通过一定的方法爬取所有页面。据了解,最简单的爬取策略有以下三种:
1、最好的第一
最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。算法预测为“有用”的网页。
一个问题是爬虫爬取路径上的很多相关网页可能会被忽略,因为最佳优先级策略是一种局部最优搜索算法,所以需要结合特定应用的最佳优先级进行改进才能跳出当地。最好的一点,据研究,这样的闭环调整可以将不相关网页的数量减少30%到90%。
2、深度优先
深度优先是指蜘蛛沿着找到的链接爬行,直到前面没有其他链接,然后返回第一页,沿着另一个链接爬行。
3、广度优先
广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一路跟随一个链接,而是爬取页面上的所有链接,然后进入第二层页面并跟随第二层找到的链接层。翻到第三页。
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬取整个互联网。
在实际工作中,蜘蛛的带宽资源和时间都不是无限的,也无法爬取所有页面。其实最大的搜索引擎只是爬取和收录互联网的一小部分,当然不是搜索。引擎蜘蛛爬得越多越好。
因此,为了尽可能多地捕获用户信息,深度优先和广度优先通常是混合使用的,这样可以照顾到尽可能多的网站,同时也照顾到部分网站 的内页。
三、搜索引擎蜘蛛工作中的信息采集
信息采集模块包括“蜘蛛控制”和“网络蜘蛛”两部分。“蜘蛛”这个名字形象地描述了信息采集模块在网络数据形成的“Web”上获取信息的功能。
一般来说,网络爬虫都是从种子网页开始,反复下载网页,从文档中搜索不可见的URL,从而访问其他网页,遍历网页。
而它的工作策略一般可以分为累积爬取(cumulative crawling)和增量爬取(incremental crawling)两种。
1、累积爬取
累积爬取是指从某个时间点开始,遍历系统允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积爬取策略可以保证爬取相当大的网页集合。
似乎由于网络数据的动态特性,集合中的网页被爬取的时间点不同,页面更新的时间点也不同。因此,累计爬取的网页集合实际上无法与真实环境中的网页数据进行比较。始终如一。
2、增量爬取
与累积爬取不同的是,增量爬取是指在一定规模的网页集合的基础上,通过更新数据,在现有集合中选择过期的网页,以保证抓取到的网页被抓取。数据与真实网络数据足够接近。
增量爬取的前提是系统已经爬取了足够多的网页,并且有这些页面被爬取的时间的信息。在针对实际应用环境的网络爬虫设计中,通常会同时收录累积爬取和增量爬取策略。
累积爬取一般用于数据集合的整体建立或大规模更新,而增量爬取主要用于数据集合的日常维护和即时更新。
爬取策略确定后,如何充分利用网络带宽,合理确定网页数据更新的时间点,成为网络蜘蛛运营策略中的核心问题。
总体而言,在合理利用软硬件资源对网络数据进行实时捕捉方面,已经形成了较为成熟的技术和实用的解决方案。我认为这方面需要解决的主要问题是如何更好地处理动态的web数据问题(比如越来越多的Web2.0数据等),以及更好地基于网页质量。
四、数据库
为了避免重复爬取和爬取网址,搜索引擎会建立一个数据库来记录已发现未爬取的页面和已爬取的页面。那么数据库中的URLs是怎么来的呢?
1、手动输入种子网站
简单来说就是我们建站后提交给百度、谷歌或者360的URL收录。
2、蜘蛛爬取页面
如果搜索引擎蜘蛛在爬取过程中发现了新的连接URL,但不在数据库中,则将其存入待访问的数据库中(网站观察期)。
爬虫根据重要程度从要访问的数据库中提取URL,访问并爬取页面,然后从要访问的地址库中删除该URL,放入已经访问过的地址库中。因此,建议站长在网站观察,期间有必要尽可能定期更新网站。
3、站长提交网站
一般而言,提交网站只是将网站保存到要访问的数据库中。如果网站是持久化的,不更新spider,就不会光顾搜索引擎的页面了收录是spider自己点链接。
因此,将其提交给搜索引擎对您来说不是很有用。后期根据你的网站更新程度来考虑。搜索引擎更喜欢沿着链接本身查找新页面。当然,如果你的SEO技术足够成熟,并且有这个能力,你可以试试,说不定会有意想不到的效果。不过对于一般站长来说,还是建议让蜘蛛爬行,自然爬到新的站点页面。
五、吸引蜘蛛
虽然理论上说蜘蛛可以爬取所有页面,但在实践中是不可能的,所以想要收录更多页面的SEO人员不得不想办法引诱蜘蛛爬取。
既然不能爬取所有的页面,就需要让它爬取重要的页面,因为重要的页面在索引中起着重要的作用,直接影响排名因素。哪些页面更重要?对此,我特意整理了以下几个我认为比较重要的页面,具有以下特点:
1、网站 和页面权重
优质老网站被赋予高权重,而这个网站上的页面爬取深度更高,所以更多的内页会是收录。
2、页面更新
蜘蛛每次爬取时都会存储页面数据。如果第二次爬取发现页面内容和第一次收录完全一样,说明页面没有更新,蜘蛛不需要经常爬取再爬取。
如果页面内容更新频繁,蜘蛛就会频繁爬爬,那么页面上的新链接自然会被蜘蛛更快地跟踪和爬取,这也是为什么需要每天更新文章@ >
3、导入链接
无论是外部链接还是同一个网站的内部链接,为了被蜘蛛爬取,必须有传入链接才能进入页面,否则蜘蛛不会知道页面的存在一点也不。这时候URL链接就起到了非常重要的作用,内部链接的重要性就发挥出来了。
另外,我个人觉得高质量的入站链接也往往会增加页面上的出站链接被爬取的深度。
这就是为什么大多数网站管理员或 SEO 都想要高质量的附属链接,因为蜘蛛 网站 从彼此之间爬到你 网站 的次数和深度更多。
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
网站优化 • 优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2022-01-15 23:18
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
网站优化 • 优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-01-11 02:07
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
网站优化 • 优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-01-09 17:07
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,用于后面的分析。
$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';
3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来我怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3)根据读取的URL地址列表,抓取指定页面。
$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态 查看全部
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,用于后面的分析。
$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';
3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来我怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3)根据读取的URL地址列表,抓取指定页面。
$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态
php抓取网页snoopy(抓取前记得把php.ini中的max_time设置的大点不然)
网站优化 • 优采云 发表了文章 • 0 个评论 • 47 次浏览 • 2021-12-31 12:13
记得在进行爬取之前将php.ini中的max_execution_time设置为较大的值,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的类名。功能也非常强大。用于模拟浏览器获取网页内容和发送表单的功能。
1 我要抓取网站的一个列表页的内容我要抓取全国医院的信息,如下图
2 我自然复制URL地址,使用Snoopy类抓取前10页的内容放到本地,在本地创建一个html文件进行分析。
$snoopy=new Snoopy();//医院list页面
for($i = 1; $i fetch($url); file_put_contents("web/page/$i.html", $snoopy->results);
} echo 'success';
3 奇怪的是,返回的内容不是全国的内容而是上海的相关内容
4 怀疑可能里面设置了cookie,然后用firebug查看。果然,有一个惊人的内幕。
5 在请求中放入cookie的值,并添加设置语句$snoopy->cookies["_area_"]。情况大不相同,国家信息顺利返回。
$snoopy=new Snoopy();//医院list页面$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';for($i = 1; $i results;
}
2 使用phpQuery获取节点信息的DOM结构如下图
使用一些phpQuery 方法结合DOM 结构来读取各个医院信息的URL 地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3 根据读取的URL地址列表抓取指定页面。
$detailIndex = 1;for($i = 1; $i results); $detailIndex++;
}
}
FQ工具下载
克服障碍.rar
演示下载
史努比类的一些说明
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被爬取的网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果您正在抓取一帧,史努比将跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
获取文本($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
此方法类似于 fetch()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,仅在登录后返回网页中的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性
$host
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$referer
源信息(如果有)
$cookies
饼干,如果有的话
$rawheaders
其他标题信息,如果有的话
$maxredirs
最大重定向次数 0=不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$expandlinks
是否完成所有链接完成地址(true)
$用户
身份验证用户名(如果有)
$pass
身份验证用户名(如果有)
$接受
http 接受类型(p_w_picpath/gif、p_w_picpath/x-xbitmap、p_w_picpath/jpeg、p_w_picpath/pjpeg、*/*)
$错误
在哪里报告错误,如果有的话
$response_code
服务器返回的响应码
$headers
服务器返回的头部信息
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+)设置为 0 表示没有超时
$timed_out
如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
$maxframes
允许跟踪的最大帧数
$状态 查看全部
php抓取网页snoopy(抓取前记得把php.ini中的max_time设置的大点不然)
记得在进行爬取之前将php.ini中的max_execution_time设置为较大的值,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的类名。功能也非常强大。用于模拟浏览器获取网页内容和发送表单的功能。
1 我要抓取网站的一个列表页的内容我要抓取全国医院的信息,如下图
2 我自然复制URL地址,使用Snoopy类抓取前10页的内容放到本地,在本地创建一个html文件进行分析。
$snoopy=new Snoopy();//医院list页面
for($i = 1; $i fetch($url); file_put_contents("web/page/$i.html", $snoopy->results);
} echo 'success';
3 奇怪的是,返回的内容不是全国的内容而是上海的相关内容
4 怀疑可能里面设置了cookie,然后用firebug查看。果然,有一个惊人的内幕。
5 在请求中放入cookie的值,并添加设置语句$snoopy->cookies["_area_"]。情况大不相同,国家信息顺利返回。
$snoopy=new Snoopy();//医院list页面$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';for($i = 1; $i results;
}
2 使用phpQuery获取节点信息的DOM结构如下图
使用一些phpQuery 方法结合DOM 结构来读取各个医院信息的URL 地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3 根据读取的URL地址列表抓取指定页面。
$detailIndex = 1;for($i = 1; $i results); $detailIndex++;
}
}
FQ工具下载
克服障碍.rar
演示下载
史努比类的一些说明
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被爬取的网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果您正在抓取一帧,史努比将跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
获取文本($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
此方法类似于 fetch()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,仅在登录后返回网页中的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性
$host
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$referer
源信息(如果有)
$cookies
饼干,如果有的话
$rawheaders
其他标题信息,如果有的话
$maxredirs
最大重定向次数 0=不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$expandlinks
是否完成所有链接完成地址(true)
$用户
身份验证用户名(如果有)
$pass
身份验证用户名(如果有)
$接受
http 接受类型(p_w_picpath/gif、p_w_picpath/x-xbitmap、p_w_picpath/jpeg、p_w_picpath/pjpeg、*/*)
$错误
在哪里报告错误,如果有的话
$response_code
服务器返回的响应码
$headers
服务器返回的头部信息
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+)设置为 0 表示没有超时
$timed_out
如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
$maxframes
允许跟踪的最大帧数
$状态
php抓取网页snoopy(php.iniv4933快速构建实时集群定义:小明seo教程)
网站优化 • 优采云 发表了文章 • 0 个评论 • 52 次浏览 • 2021-12-25 15:28
抓取与蜘蛛页面相关的博客
使用PHP抓取页面并分析
在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。一、 使用 Snoopy.class.php 在页面上抓取一个非常可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。1)我现在想抢一个
技术 胖子 4 年前 1207
Python爬虫-抓取腾讯招聘信息页面
本爬虫主要使用了requests、json、bs4(BeautifulSoup)等相关模块,有不完善之处还请大家赐教!:) 来源:
樱桃 v4 年前 933
快速搭建实时爬虫集群
定义:首先,让我们定义目标抓取。有针对性的爬取是一种特定的爬取需求。目标站点已知,站点页面已知。本文的介绍主要围绕如何快速搭建实时爬虫系统,不包括一般意义上的链接分析、站点发现等功能。在本文提到的示例系统中,主要使用了lin
cnbird 8 年前 850
蜘蛛介绍
Spider,也称为WebCrawler 或Robot,是一种程序,可沿链接导航Web 文档集合。它一般驻留在服务器上,通过给定的URL读取相应的文档,使用HTTP等标准协议,然后将文档中收录
的所有未访问过的URL作为新的起点,继续漫游,直到条件不满足. 新的
5年前的航母 1199
小心蜘蛛蜘蛛以提高网站索引率
SEO人非常关心网站收录数量和页面收录率。从搜索引擎的角度来看,收录与蜘蛛蜘蛛有着直接的关系。通过主动或被动的方式,让程序更好的采集
网站内容是网站seo的基础。什么蜘蛛蜘蛛抓取互联网上的海量链接?无非是两种方法。
小明seo教程4年前1273
使用scrapy抓取股票代码
个人博客: 来源地址: 爬虫工具:scrapy Scrapy 简介 Scrapy是一个为爬取网站数据,提取结构化数据而编写的应用框架。
net9362 年前 1968
使用 Scrapy 抓取数据
Scrapy 是一个由 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站和从页面中提取结构化数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。官方主页:中文文档:Scrap
Rainer 5年前 6542
如何用Python抓取数据?(一)网页抓取
您期待已久的 Python 网络数据爬虫教程就在这里。本文将向您展示如何从网页中查找有趣的链接和解释性文本,将它们抓取并存储在 Excel 中。我需要在公众号后台,经常能收到读者的评论。许多评论都是来自读者的问题。只要我有时间,我会花时间尝试和回答。但有些评论乍一看不清楚
王淑仪3年前2089
关于爬取蜘蛛页面的问答
Spider抓取动态内容(JavaScript指向的页面)
PHP新手,在写爬虫的时候,一般情况下跟踪链接不难,但是如果是动态页面,就会一头雾水。可能是分析协议(但是怎么分析?),模拟JavaScript脚本的执行(怎么做?),……另外,写一个爬AJAX页面的通用蜘蛛可能是一个比较复杂的问题,没有
a1234566785 年前 735 查看全部
php抓取网页snoopy(php.iniv4933快速构建实时集群定义:小明seo教程)
抓取与蜘蛛页面相关的博客
使用PHP抓取页面并分析

在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。一、 使用 Snoopy.class.php 在页面上抓取一个非常可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。1)我现在想抢一个

技术 胖子 4 年前 1207
Python爬虫-抓取腾讯招聘信息页面

本爬虫主要使用了requests、json、bs4(BeautifulSoup)等相关模块,有不完善之处还请大家赐教!:) 来源:

樱桃 v4 年前 933
快速搭建实时爬虫集群

定义:首先,让我们定义目标抓取。有针对性的爬取是一种特定的爬取需求。目标站点已知,站点页面已知。本文的介绍主要围绕如何快速搭建实时爬虫系统,不包括一般意义上的链接分析、站点发现等功能。在本文提到的示例系统中,主要使用了lin

cnbird 8 年前 850
蜘蛛介绍

Spider,也称为WebCrawler 或Robot,是一种程序,可沿链接导航Web 文档集合。它一般驻留在服务器上,通过给定的URL读取相应的文档,使用HTTP等标准协议,然后将文档中收录
的所有未访问过的URL作为新的起点,继续漫游,直到条件不满足. 新的

5年前的航母 1199
小心蜘蛛蜘蛛以提高网站索引率

SEO人非常关心网站收录数量和页面收录率。从搜索引擎的角度来看,收录与蜘蛛蜘蛛有着直接的关系。通过主动或被动的方式,让程序更好的采集
网站内容是网站seo的基础。什么蜘蛛蜘蛛抓取互联网上的海量链接?无非是两种方法。

小明seo教程4年前1273
使用scrapy抓取股票代码

个人博客: 来源地址: 爬虫工具:scrapy Scrapy 简介 Scrapy是一个为爬取网站数据,提取结构化数据而编写的应用框架。

net9362 年前 1968
使用 Scrapy 抓取数据

Scrapy 是一个由 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站和从页面中提取结构化数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。官方主页:中文文档:Scrap

Rainer 5年前 6542
如何用Python抓取数据?(一)网页抓取

您期待已久的 Python 网络数据爬虫教程就在这里。本文将向您展示如何从网页中查找有趣的链接和解释性文本,将它们抓取并存储在 Excel 中。我需要在公众号后台,经常能收到读者的评论。许多评论都是来自读者的问题。只要我有时间,我会花时间尝试和回答。但有些评论乍一看不清楚
王淑仪3年前2089
关于爬取蜘蛛页面的问答
Spider抓取动态内容(JavaScript指向的页面)

PHP新手,在写爬虫的时候,一般情况下跟踪链接不难,但是如果是动态页面,就会一头雾水。可能是分析协议(但是怎么分析?),模拟JavaScript脚本的执行(怎么做?),……另外,写一个爬AJAX页面的通用蜘蛛可能是一个比较复杂的问题,没有

a1234566785 年前 735
php抓取网页snoopy(极简工具X一站式开发,七大领域400页场景化应用构建最佳宝典(组图))
网站优化 • 优采云 发表了文章 • 0 个评论 • 54 次浏览 • 2021-12-11 06:11
极简工具X一站式开发,7个领域400页场景化应用最佳合集,点击获取>>>
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
下载链接:
史努比的一些特点:
1 fetch 网页内容 fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,表单 fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码验证
6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
7 支持浏览器重定向,可以控制重定向的深度
8 可以将网页中的链接扩展为高质量的url(默认)
9 提交数据并获取返回值
10 支持跟踪 HTML 框架
11 支持重定向时传递 cookie
需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
————
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
fetchtext($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
fetchlinks($URI)
—————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
提交($URI,$formvars)
———————-
此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
——————————
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
提交链接($URI)
—————-
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
类属性:(括号内为默认值)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies cookies,如果有的话
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否完成所有链接以完成地址(真实)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话 查看全部
php抓取网页snoopy(极简工具X一站式开发,七大领域400页场景化应用构建最佳宝典(组图))
极简工具X一站式开发,7个领域400页场景化应用最佳合集,点击获取>>>

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
下载链接:
史努比的一些特点:
1 fetch 网页内容 fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,表单 fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码验证
6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
7 支持浏览器重定向,可以控制重定向的深度
8 可以将网页中的链接扩展为高质量的url(默认)
9 提交数据并获取返回值
10 支持跟踪 HTML 框架
11 支持重定向时传递 cookie
需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
————
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
fetchtext($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
fetchlinks($URI)
—————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
提交($URI,$formvars)
———————-
此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
——————————
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
提交链接($URI)
—————-
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
类属性:(括号内为默认值)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies cookies,如果有的话
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否完成所有链接以完成地址(真实)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话
php抓取网页snoopy(snoopyphp类完成获取网页内容和发送表单的任务的特征)
网站优化 • 优采云 发表了文章 • 0 个评论 • 60 次浏览 • 2022-04-17 17:25
摘要:Snoopy是一个模仿网页浏览器功能的php类,可以完成抓取网页内容和发送表单的任务。以下是它的一些特点:1、易于抓取网页内容2、...
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。
以下是它的一些功能:
1、轻松抓取网页内容
2、轻松抓取网页文字(去掉HTML代码)
3、便于抓取网页的链接
4、支持代理主机
5、支持基本用户/密码认证方式
6、支持自定义用户代理、referer、cookies和header内容
7、支持浏览器转向和控制转向深度
8、可以将网页中的链接扩展为高质量的url(默认)
9、方便提交数据并获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持重定向时传递cookie
具体使用请参考下载文件中的说明。
复制代码代码如下:
MyIASM 是 IASM 表的新版本,具有以下扩展:
二进制级别的可移植性。
NULL 列索引。
与 ISAM 表相比,可变长度行的碎片更少。
支持大文件。
更好的索引压缩。
更好的键?统计分布。
更好更快的自动增量处理。
以下是一些细节和实现差异:
1.InnoDB 不支持 FULLTEXT 类型的索引。
2.InnoDB并没有保存表的具体行数,也就是说在执行selectcount(*)fromtable时,InnoDB需要扫描整个表来计算有多少行,但是MyISAM 只需读取并保存大量行即可。请注意,当 count(*) 语句收录 where 条件时,两个表的操作是相同的。
3.对于AUTO_INCREMENT类型的字段,InnoDB必须只收录该字段的索引,但在MyISAM表中,可以与其他字段建立联合索引。
4.DELETEFROMtable,InnoDB不会重新创建表,而是逐行删除。
5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决方法是先把InnoDB表改成MyISAM表,导入数据再改成InnoDB表,但是对于使用的额外InnoDB特性(比如外键)是不适用的。
另外,InnoDB 表的行锁不是绝对的。如果MySQL在执行SQL语句时无法确定要扫描的范围,InnoDB表也会锁定整个表,如updatetablesetnum=1wherenamelike"%aaa%"
任何一种桌子都不是灵丹妙药。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。 查看全部
php抓取网页snoopy(snoopyphp类完成获取网页内容和发送表单的任务的特征)
摘要:Snoopy是一个模仿网页浏览器功能的php类,可以完成抓取网页内容和发送表单的任务。以下是它的一些特点:1、易于抓取网页内容2、...
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。
以下是它的一些功能:
1、轻松抓取网页内容
2、轻松抓取网页文字(去掉HTML代码)
3、便于抓取网页的链接
4、支持代理主机
5、支持基本用户/密码认证方式
6、支持自定义用户代理、referer、cookies和header内容
7、支持浏览器转向和控制转向深度
8、可以将网页中的链接扩展为高质量的url(默认)
9、方便提交数据并获取返回值
10、支持跟踪HTML框架(v0.92增加)
11、支持重定向时传递cookie
具体使用请参考下载文件中的说明。
复制代码代码如下:
MyIASM 是 IASM 表的新版本,具有以下扩展:
二进制级别的可移植性。
NULL 列索引。
与 ISAM 表相比,可变长度行的碎片更少。
支持大文件。
更好的索引压缩。
更好的键?统计分布。
更好更快的自动增量处理。
以下是一些细节和实现差异:
1.InnoDB 不支持 FULLTEXT 类型的索引。
2.InnoDB并没有保存表的具体行数,也就是说在执行selectcount(*)fromtable时,InnoDB需要扫描整个表来计算有多少行,但是MyISAM 只需读取并保存大量行即可。请注意,当 count(*) 语句收录 where 条件时,两个表的操作是相同的。
3.对于AUTO_INCREMENT类型的字段,InnoDB必须只收录该字段的索引,但在MyISAM表中,可以与其他字段建立联合索引。
4.DELETEFROMtable,InnoDB不会重新创建表,而是逐行删除。
5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决方法是先把InnoDB表改成MyISAM表,导入数据再改成InnoDB表,但是对于使用的额外InnoDB特性(比如外键)是不适用的。
另外,InnoDB 表的行锁不是绝对的。如果MySQL在执行SQL语句时无法确定要扫描的范围,InnoDB表也会锁定整个表,如updatetablesetnum=1wherenamelike"%aaa%"
任何一种桌子都不是灵丹妙药。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。
php抓取网页snoopy(Snoopy是什么?Snoopy的一些特点:方便网页网页的内容)
网站优化 • 优采云 发表了文章 • 0 个评论 • 53 次浏览 • 2022-04-13 02:17
什么是史努比?
Snoopy 是一个模仿网络浏览器功能的 php 类,可以执行诸如获取网页内容和发送表单等任务。
史努比的一些特点:
* 轻松抓取网页内容
* 轻松抓取网页文本内容(去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码认证
* 支持设置user_agent、referer(来)、cookies和header内容(头文件)
* 支持浏览器转向,可以控制转向深度
* 可以将网页中的链接扩展为高质量的网址(默认)
* 方便提交数据并获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 重定向时支持传递cookie(v0.92增加)
要求:
史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
开发和测试的
类方法:
获取($URI)
------------
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
---------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
---------------
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的表单内容(form)。
获取链接($URI)
----------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
----------
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
---------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
----------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy是什么?Snoopy的一些特点:方便网页网页的内容)
什么是史努比?
Snoopy 是一个模仿网络浏览器功能的 php 类,可以执行诸如获取网页内容和发送表单等任务。
史努比的一些特点:
* 轻松抓取网页内容
* 轻松抓取网页文本内容(去除HTML标签)
* 方便抓取网页的链接
* 支持代理主机
* 支持基本的用户名/密码认证
* 支持设置user_agent、referer(来)、cookies和header内容(头文件)
* 支持浏览器转向,可以控制转向深度
* 可以将网页中的链接扩展为高质量的网址(默认)
* 方便提交数据并获取返回值
* 支持跟踪HTML框架(v0.92增加)
* 重定向时支持传递cookie(v0.92增加)
要求:
史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
开发和测试的
类方法:
获取($URI)
------------
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
---------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
---------------
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的表单内容(form)。
获取链接($URI)
----------------
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
----------
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
---------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
----------------
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
网站优化 • 优采云 发表了文章 • 0 个评论 • 148 次浏览 • 2022-03-31 12:14
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4.0以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。 Snoopy类的下载地址为:
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接展开成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4.0以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。 Snoopy类的下载地址为:
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接展开成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(php,类,抓取网页的特点及LAMP服务都支持)
网站优化 • 优采云 发表了文章 • 0 个评论 • 104 次浏览 • 2022-03-25 17:16
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoop y 正常运行需要你的服务器的PHP版本在4以上,并且支持PCRE(patible Regular Expressions),并且支持基本的LAMP服务。 一、 Snoopy 的一些特性: 1. 抓取网页内容fetch 2. 抓取网页文本内容(去掉HTML标签) fetchtext 3. 抓取链接,形成网页的fetchlinks fetchform 4.支持代理主机5.支持基本用户名/密码认证6.支持设置user_agent、referer(返回)、cookies和header内容(头文件)7.@ >支持浏览器重定向和控制重定向深度8.可以将网页中的链接扩展为高质量的url(默认)9.提交数据并获取返回值10.支持跟踪HTML框架11. 支持重定向时传递cookie,需要php4以上,因为是php的一个类,不需要扩展支持,服务器不支持curl时的最佳选择。 二、类方法:fetch($URI) ————这是用来获取网页内容的方法。
$URI参数是被抓取网页的URL地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后是 $this->results。 fetchtext($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。 fetchform($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的表单内容(表单)。 fetchlinks($URI) ———— 这个方法和fetch()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 submit($URI, $formvars) ———————— 该方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。 submittext($URI, $formvars) ———————————该方法与 submit() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回文本内容登录后的网页。
submitlinks($URI) ———— 这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 三、 类属性:(括号内为默认值) $host 要连接的主机 $port 要连接的端口 $proxy_host 使用的代理主机,如果有 $proxy_port 要使用的代理主机端口,如果任何 $agent 用户代理伪装(Snoopy v0.1) $referer 信息,如果有 $cookies cookie,如果有 $rawheaders 其他头信息,如果有 $maxredirs 最大权重定位数, 查看全部
php抓取网页snoopy(php,类,抓取网页的特点及LAMP服务都支持)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoop y 正常运行需要你的服务器的PHP版本在4以上,并且支持PCRE(patible Regular Expressions),并且支持基本的LAMP服务。 一、 Snoopy 的一些特性: 1. 抓取网页内容fetch 2. 抓取网页文本内容(去掉HTML标签) fetchtext 3. 抓取链接,形成网页的fetchlinks fetchform 4.支持代理主机5.支持基本用户名/密码认证6.支持设置user_agent、referer(返回)、cookies和header内容(头文件)7.@ >支持浏览器重定向和控制重定向深度8.可以将网页中的链接扩展为高质量的url(默认)9.提交数据并获取返回值10.支持跟踪HTML框架11. 支持重定向时传递cookie,需要php4以上,因为是php的一个类,不需要扩展支持,服务器不支持curl时的最佳选择。 二、类方法:fetch($URI) ————这是用来获取网页内容的方法。
$URI参数是被抓取网页的URL地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后是 $this->results。 fetchtext($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。 fetchform($URI) ————该方法与 fetch() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的表单内容(表单)。 fetchlinks($URI) ———— 这个方法和fetch()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 submit($URI, $formvars) ———————— 该方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。 submittext($URI, $formvars) ———————————该方法与 submit() 类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回文本内容登录后的网页。
submitlinks($URI) ———— 这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。 三、 类属性:(括号内为默认值) $host 要连接的主机 $port 要连接的端口 $proxy_host 使用的代理主机,如果有 $proxy_port 要使用的代理主机端口,如果任何 $agent 用户代理伪装(Snoopy v0.1) $referer 信息,如果有 $cookies cookie,如果有 $rawheaders 其他头信息,如果有 $maxredirs 最大权重定位数,
php抓取网页snoopy(php采集利器snoopy应用[转]应用应用)
网站优化 • 优采云 发表了文章 • 0 个评论 • 114 次浏览 • 2022-03-25 17:02
php采集利器snoopy应用[转]
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
Snoopy 要求您的服务器具有 PHP 4 或更高版本,并支持 PCRE(Perl 兼容正则表达式)、基本 LAMP 服务。
下载史努比
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php采集利器snoopy应用[转]应用应用)
php采集利器snoopy应用[转]
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
Snoopy 要求您的服务器具有 PHP 4 或更高版本,并支持 PCRE(Perl 兼容正则表达式)、基本 LAMP 服务。
下载史努比
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy的一些特点:1抓取网页的文本内容())
网站优化 • 优采云 发表了文章 • 0 个评论 • 90 次浏览 • 2022-03-25 16:26
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy的一些特点:1抓取网页的文本内容())
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(PHP采集利器:Snoopy试用心得)
网站优化 • 优采云 发表了文章 • 0 个评论 • 206 次浏览 • 2022-03-24 22:16
PHP采集工具:史努比试用体验
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(PHP采集利器:Snoopy试用心得)
PHP采集工具:史努比试用体验
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
网站优化 • 优采云 发表了文章 • 0 个评论 • 60 次浏览 • 2022-03-06 20:11
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(php类Snoopy的特点及特点分析-上海怡健医学)
网站优化 • 优采云 发表了文章 • 0 个评论 • 82 次浏览 • 2022-02-28 04:04
Snoopy是一个php类,用来模拟浏览器的一些简单功能,可以获取网页内容,发送表单等操作。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。由于是php类,不需要扩展,所以在服务器不支持curl的情况下是最好的选择。
史努比的特点:
1、获取网页内容fetch
2、获取网页的文本内容(去掉HTML标签)fetchtext
3、获取网页链接,form fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码认证
6、支持设置user_agent、referer(return)、cookies和header内容(头文件)
7、支持浏览器重定向,控制重定向深度
8、可以将网页中的链接扩展成高质量的url(默认)
9、提交数据并获取返回值
10、支持跟踪HTML帧
11、支持重定向时传递cookie
史努比类下载地址:
史努比类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
史努比类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php类Snoopy的特点及特点分析-上海怡健医学)
Snoopy是一个php类,用来模拟浏览器的一些简单功能,可以获取网页内容,发送表单等操作。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。由于是php类,不需要扩展,所以在服务器不支持curl的情况下是最好的选择。
史努比的特点:
1、获取网页内容fetch
2、获取网页的文本内容(去掉HTML标签)fetchtext
3、获取网页链接,form fetchlinks fetchform
4、支持代理主机
5、支持基本的用户名/密码认证
6、支持设置user_agent、referer(return)、cookies和header内容(头文件)
7、支持浏览器重定向,控制重定向深度
8、可以将网页中的链接扩展成高质量的url(默认)
9、提交数据并获取返回值
10、支持跟踪HTML帧
11、支持重定向时传递cookie
史努比类下载地址:
史努比类方法:
获取($URI)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一不同的是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
史努比类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)
网站优化 • 优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-02-25 07:16
我用了两天的 php 的 Snoopy 类,发现它非常好用。要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有文本信息,使用fetchtext(内部还是使用正则表达式处理),还有很多其他功能,比如模拟提交表单等。
使用方法:
先下载Snoopy类,下载地址:
先实例化一个对象,然后调用对应的方法获取爬取的网页信息
代码如下:
包括'snoopy/Snoopy.class.php';
$snoopy = 新的史努比();
$sourceURL = "//";
$snoopy->fetchlinks($sourceURL);
$a = $snoopy->结果;
没有提供获取网页中所有图片地址的方法。我需要获取页面中所有 文章 列表中的图像地址。然后我自己写了一个,主要是因为规律性很重要匹配。
代码如下:
//正则表达式匹配图片
$reTag = "/
/i";
因为特殊需要,只需要抓取htp://开头的图片(外站的图片可能会做防盗链,所以想先抓取本地)
1.爬取指定网页并过滤掉所有预期的文章地址;
2.循环获取第一步中文章的地址,然后用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
3.根据图片后缀和ID保存图片(这里只有gif,jpg)---如果图片文件存在,先删除再保存。
代码如下: 查看全部
php抓取网页snoopy(用了两天php的Snoopy这个类,发现很好用)
我用了两天的 php 的 Snoopy 类,发现它非常好用。要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有文本信息,使用fetchtext(内部还是使用正则表达式处理),还有很多其他功能,比如模拟提交表单等。
使用方法:
先下载Snoopy类,下载地址:
先实例化一个对象,然后调用对应的方法获取爬取的网页信息
代码如下:
包括'snoopy/Snoopy.class.php';
$snoopy = 新的史努比();
$sourceURL = "//";
$snoopy->fetchlinks($sourceURL);
$a = $snoopy->结果;
没有提供获取网页中所有图片地址的方法。我需要获取页面中所有 文章 列表中的图像地址。然后我自己写了一个,主要是因为规律性很重要匹配。
代码如下:
//正则表达式匹配图片
$reTag = "/
/i";
因为特殊需要,只需要抓取htp://开头的图片(外站的图片可能会做防盗链,所以想先抓取本地)
1.爬取指定网页并过滤掉所有预期的文章地址;
2.循环获取第一步中文章的地址,然后用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
3.根据图片后缀和ID保存图片(这里只有gif,jpg)---如果图片文件存在,先删除再保存。
代码如下:
php抓取网页snoopy(php一个Snoopy的功能特点及特点分析-苏州安嘉 )
网站优化 • 优采云 发表了文章 • 0 个评论 • 70 次浏览 • 2022-02-14 21:12
)
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。官方网站
史努比的一些特点:
需要php4或更高版本。由于是php类,不需要扩展,是服务器不支持curl时的最佳选择。
类方法
1.获取($uri)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
2.fetchtext($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
3.fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
4.fetchlinks($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
5.提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
6.提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
7.提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
类属性(括号内为默认值)
演示
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn"))
{
echo "".htmlspecialchars($snoopy->results)."
n"; } elseecho "获取文档时出错:".$snoopy->error."n";
获取指定url的内容:
表单提交:
现在表单已经提交,可以做很多事情。接下来,我们伪装ip,伪装浏览器:
完整示例:
/**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = '238472834723489';
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:
";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
使用史努比类完成一张简单的图片采集:
<p> 查看全部
php抓取网页snoopy(php一个Snoopy的功能特点及特点分析-苏州安嘉
)
snoopy是一个模仿网页浏览器功能的php类,可以完成获取网页内容和发送表单的任务。官方网站
史努比的一些特点:
需要php4或更高版本。由于是php类,不需要扩展,是服务器不支持curl时的最佳选择。
类方法
1.获取($uri)
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
2.fetchtext($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
3.fetchform($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
4.fetchlinks($URI)
这个方法和fetch()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
5.提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
6.提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
7.提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。默认情况下,相对链接将自动填充为完整的 URL。
类属性(括号内为默认值)
演示
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn"))
{
echo "".htmlspecialchars($snoopy->results)."
n"; } elseecho "获取文档时出错:".$snoopy->error."n";
获取指定url的内容:
表单提交:
现在表单已经提交,可以做很多事情。接下来,我们伪装ip,伪装浏览器:
完整示例:
/**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = '238472834723489';
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:
";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
使用史努比类完成一张简单的图片采集:
<p>
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
网站优化 • 优采云 发表了文章 • 0 个评论 • 73 次浏览 • 2022-01-30 02:17
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建了一个html文件,用于后面的分析。
$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';
3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限™"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3)根据读取的URL地址列表,抓取指定页面。
$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态 查看全部
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建了一个html文件,用于后面的分析。

$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';

3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限™"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。

for($i = 1; $i attr('href')); //医院详情
}
}

3)根据读取的URL地址列表,抓取指定页面。

$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}

FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
网站优化 • 优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-01-29 14:15
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(蜘蛛访问网站时wordpressrobotstxt)
网站优化 • 优采云 发表了文章 • 0 个评论 • 68 次浏览 • 2022-01-18 04:08
搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为 bot wordpress robots txt。当搜索引擎蜘蛛访问网站的页面时,它类似于普通用户使用浏览器。蜘蛛程序发送页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高搜索引擎的爬取和爬取速度,都使用了多只蜘蛛进行分布式爬取。
当蜘蛛访问 网站 时,wordpress robots txt 会首先访问 网站 根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些网页或内容,或者 网站,则蜘蛛会遵循协议而不抓取。
蜘蛛也有自己的代理名称。在站长的日志中可以看到蜘蛛爬行的痕迹,这也是为什么很多站长总是说要先查看网站日志的原因(作为优秀的SEO你必须有能力查看网站日志而不任何软件,并且对其代码的含义非常熟悉)wordpress robots txt。
wordpress robots txt,搜索引擎蜘蛛的一个基本原理
搜索引擎蜘蛛是Spiderwordpress robots txt,这是一个很形象的名字。互联网被比作蜘蛛网,所以蜘蛛就是在互联网上四处爬行的蜘蛛。
网络蜘蛛通过网页的链接地址寻找网页,从网站的某个页面(通常是首页)开始,读取网页的内容,寻找网页中的其他链接地址,然后通过这些链接地址寻找下一页。一个网页,以此类推,直到这个网站的所有网页都被爬取完毕。
如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理爬取互联网上的所有网页。
搜索引擎蜘蛛的基本原理和工作流程
对于搜索引擎来说,几乎不可能爬取互联网上的所有网页。根据目前公布的数据,容量最大的搜索引擎只爬取了网页总数的40%左右。
造成这种情况的原因之一是爬虫技术的瓶颈。100 亿个网页的容量是 100×2000G 字节。就算能存起来,下载也还是有问题(按照一台机器每秒下载20K,需要340台机器保存一年才能下载完所有网页),同时,由于数据量大,在提供搜索时也会对效率产生影响。
因此,很多搜索引擎的网络蜘蛛只抓取那些重要的网页,而在抓取时评估重要性的主要依据是某个网页的链接深度。
由于不可能爬取所有的网页,所以有些网络蜘蛛为一些不太重要的网站设置了要访问的层数,例如,如下图所示:
搜索引擎蜘蛛的基本原理和工作流程
A为起始页,属于第0层,B,C,D,E,F属于第1层,G,H属于第2层,I属于第3层,如果设置访问层数by the web spider 2, Web page I will not be access,这也使得某些网站网页可以在搜索引擎上搜索到,而其他部分则无法搜索到。
对于网站设计师来说,扁平的网站设计有助于搜索引擎抓取更多的网页。
网络蜘蛛在访问网站网页时,经常会遇到加密数据和网页权限的问题。某些网页需要会员权限才能访问。
当然,网站的站长可以让网络蜘蛛不按约定爬取,但是对于一些卖报告的网站,他们希望搜索引擎可以搜索到他们的报告,但不是完全免费的为了让搜索者查看,需要向网络蜘蛛提供相应的用户名和密码。
网络蜘蛛可以通过给定的权限抓取这些网页,从而提供搜索,当搜索者点击查看网页时,搜索者也需要提供相应的权限验证。
二、点击链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随网页上的链接,从一个页面爬到下一页,就像蜘蛛在蜘蛛网上爬行一样,这就是名字所在的地方搜索引擎蜘蛛的来源。因为。
整个互联网网站是由相互连接的链接组成的,也就是说,搜索引擎蜘蛛最终会从任何一个页面开始爬取所有页面。
搜索引擎蜘蛛的基本原理和工作流程
当然,网站和页面链接的结构过于复杂,蜘蛛只能通过一定的方法爬取所有页面。据了解,最简单的爬取策略有以下三种:
1、最好的第一
最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。算法预测为“有用”的网页。
一个问题是爬虫爬取路径上的很多相关网页可能会被忽略,因为最佳优先级策略是一种局部最优搜索算法,所以需要结合特定应用的最佳优先级进行改进才能跳出当地。最好的一点,据研究,这样的闭环调整可以将不相关网页的数量减少30%到90%。
2、深度优先
深度优先是指蜘蛛沿着找到的链接爬行,直到前面没有其他链接,然后返回第一页,沿着另一个链接爬行。
3、广度优先
广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一路跟随一个链接,而是爬取页面上的所有链接,然后进入第二层页面并跟随第二层找到的链接层。翻到第三页。
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬取整个互联网。
在实际工作中,蜘蛛的带宽资源和时间都不是无限的,也无法爬取所有页面。其实最大的搜索引擎只是爬取和收录互联网的一小部分,当然不是搜索。引擎蜘蛛爬得越多越好。
因此,为了尽可能多地捕获用户信息,深度优先和广度优先通常是混合使用的,这样可以照顾到尽可能多的网站,同时也照顾到部分网站 的内页。
三、搜索引擎蜘蛛工作中的信息采集
信息采集模块包括“蜘蛛控制”和“网络蜘蛛”两部分。“蜘蛛”这个名字形象地描述了信息采集模块在网络数据形成的“Web”上获取信息的功能。
一般来说,网络爬虫都是从种子网页开始,反复下载网页,从文档中搜索不可见的URL,从而访问其他网页,遍历网页。
而它的工作策略一般可以分为累积爬取(cumulative crawling)和增量爬取(incremental crawling)两种。
1、累积爬取
累积爬取是指从某个时间点开始,遍历系统允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积爬取策略可以保证爬取相当大的网页集合。
似乎由于网络数据的动态特性,集合中的网页被爬取的时间点不同,页面更新的时间点也不同。因此,累计爬取的网页集合实际上无法与真实环境中的网页数据进行比较。始终如一。
2、增量爬取
与累积爬取不同的是,增量爬取是指在一定规模的网页集合的基础上,通过更新数据,在现有集合中选择过期的网页,以保证抓取到的网页被抓取。数据与真实网络数据足够接近。
增量爬取的前提是系统已经爬取了足够多的网页,并且有这些页面被爬取的时间的信息。在针对实际应用环境的网络爬虫设计中,通常会同时收录累积爬取和增量爬取策略。
累积爬取一般用于数据集合的整体建立或大规模更新,而增量爬取主要用于数据集合的日常维护和即时更新。
爬取策略确定后,如何充分利用网络带宽,合理确定网页数据更新的时间点,成为网络蜘蛛运营策略中的核心问题。
总体而言,在合理利用软硬件资源对网络数据进行实时捕捉方面,已经形成了较为成熟的技术和实用的解决方案。我认为这方面需要解决的主要问题是如何更好地处理动态的web数据问题(比如越来越多的Web2.0数据等),以及更好地基于网页质量。
四、数据库
为了避免重复爬取和爬取网址,搜索引擎会建立一个数据库来记录已发现未爬取的页面和已爬取的页面。那么数据库中的URLs是怎么来的呢?
1、手动输入种子网站
简单来说就是我们建站后提交给百度、谷歌或者360的URL收录。
2、蜘蛛爬取页面
如果搜索引擎蜘蛛在爬取过程中发现了新的连接URL,但不在数据库中,则将其存入待访问的数据库中(网站观察期)。
爬虫根据重要程度从要访问的数据库中提取URL,访问并爬取页面,然后从要访问的地址库中删除该URL,放入已经访问过的地址库中。因此,建议站长在网站观察,期间有必要尽可能定期更新网站。
3、站长提交网站
一般而言,提交网站只是将网站保存到要访问的数据库中。如果网站是持久化的,不更新spider,就不会光顾搜索引擎的页面了收录是spider自己点链接。
因此,将其提交给搜索引擎对您来说不是很有用。后期根据你的网站更新程度来考虑。搜索引擎更喜欢沿着链接本身查找新页面。当然,如果你的SEO技术足够成熟,并且有这个能力,你可以试试,说不定会有意想不到的效果。不过对于一般站长来说,还是建议让蜘蛛爬行,自然爬到新的站点页面。
五、吸引蜘蛛
虽然理论上说蜘蛛可以爬取所有页面,但在实践中是不可能的,所以想要收录更多页面的SEO人员不得不想办法引诱蜘蛛爬取。
既然不能爬取所有的页面,就需要让它爬取重要的页面,因为重要的页面在索引中起着重要的作用,直接影响排名因素。哪些页面更重要?对此,我特意整理了以下几个我认为比较重要的页面,具有以下特点:
1、网站 和页面权重
优质老网站被赋予高权重,而这个网站上的页面爬取深度更高,所以更多的内页会是收录。
2、页面更新
蜘蛛每次爬取时都会存储页面数据。如果第二次爬取发现页面内容和第一次收录完全一样,说明页面没有更新,蜘蛛不需要经常爬取再爬取。
如果页面内容更新频繁,蜘蛛就会频繁爬爬,那么页面上的新链接自然会被蜘蛛更快地跟踪和爬取,这也是为什么需要每天更新文章@ >
3、导入链接
无论是外部链接还是同一个网站的内部链接,为了被蜘蛛爬取,必须有传入链接才能进入页面,否则蜘蛛不会知道页面的存在一点也不。这时候URL链接就起到了非常重要的作用,内部链接的重要性就发挥出来了。
另外,我个人觉得高质量的入站链接也往往会增加页面上的出站链接被爬取的深度。
这就是为什么大多数网站管理员或 SEO 都想要高质量的附属链接,因为蜘蛛 网站 从彼此之间爬到你 网站 的次数和深度更多。 查看全部
php抓取网页snoopy(蜘蛛访问网站时wordpressrobotstxt)
搜索引擎用来抓取和访问页面的程序称为蜘蛛,也称为 bot wordpress robots txt。当搜索引擎蜘蛛访问网站的页面时,它类似于普通用户使用浏览器。蜘蛛程序发送页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高搜索引擎的爬取和爬取速度,都使用了多只蜘蛛进行分布式爬取。
当蜘蛛访问 网站 时,wordpress robots txt 会首先访问 网站 根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些网页或内容,或者 网站,则蜘蛛会遵循协议而不抓取。
蜘蛛也有自己的代理名称。在站长的日志中可以看到蜘蛛爬行的痕迹,这也是为什么很多站长总是说要先查看网站日志的原因(作为优秀的SEO你必须有能力查看网站日志而不任何软件,并且对其代码的含义非常熟悉)wordpress robots txt。
wordpress robots txt,搜索引擎蜘蛛的一个基本原理
搜索引擎蜘蛛是Spiderwordpress robots txt,这是一个很形象的名字。互联网被比作蜘蛛网,所以蜘蛛就是在互联网上四处爬行的蜘蛛。
网络蜘蛛通过网页的链接地址寻找网页,从网站的某个页面(通常是首页)开始,读取网页的内容,寻找网页中的其他链接地址,然后通过这些链接地址寻找下一页。一个网页,以此类推,直到这个网站的所有网页都被爬取完毕。
如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理爬取互联网上的所有网页。
搜索引擎蜘蛛的基本原理和工作流程
对于搜索引擎来说,几乎不可能爬取互联网上的所有网页。根据目前公布的数据,容量最大的搜索引擎只爬取了网页总数的40%左右。
造成这种情况的原因之一是爬虫技术的瓶颈。100 亿个网页的容量是 100×2000G 字节。就算能存起来,下载也还是有问题(按照一台机器每秒下载20K,需要340台机器保存一年才能下载完所有网页),同时,由于数据量大,在提供搜索时也会对效率产生影响。
因此,很多搜索引擎的网络蜘蛛只抓取那些重要的网页,而在抓取时评估重要性的主要依据是某个网页的链接深度。
由于不可能爬取所有的网页,所以有些网络蜘蛛为一些不太重要的网站设置了要访问的层数,例如,如下图所示:
搜索引擎蜘蛛的基本原理和工作流程
A为起始页,属于第0层,B,C,D,E,F属于第1层,G,H属于第2层,I属于第3层,如果设置访问层数by the web spider 2, Web page I will not be access,这也使得某些网站网页可以在搜索引擎上搜索到,而其他部分则无法搜索到。
对于网站设计师来说,扁平的网站设计有助于搜索引擎抓取更多的网页。
网络蜘蛛在访问网站网页时,经常会遇到加密数据和网页权限的问题。某些网页需要会员权限才能访问。
当然,网站的站长可以让网络蜘蛛不按约定爬取,但是对于一些卖报告的网站,他们希望搜索引擎可以搜索到他们的报告,但不是完全免费的为了让搜索者查看,需要向网络蜘蛛提供相应的用户名和密码。
网络蜘蛛可以通过给定的权限抓取这些网页,从而提供搜索,当搜索者点击查看网页时,搜索者也需要提供相应的权限验证。
二、点击链接
为了在网络上抓取尽可能多的页面,搜索引擎蜘蛛会跟随网页上的链接,从一个页面爬到下一页,就像蜘蛛在蜘蛛网上爬行一样,这就是名字所在的地方搜索引擎蜘蛛的来源。因为。
整个互联网网站是由相互连接的链接组成的,也就是说,搜索引擎蜘蛛最终会从任何一个页面开始爬取所有页面。
搜索引擎蜘蛛的基本原理和工作流程
当然,网站和页面链接的结构过于复杂,蜘蛛只能通过一定的方法爬取所有页面。据了解,最简单的爬取策略有以下三种:
1、最好的第一
最佳优先级搜索策略是根据一定的网页分析算法预测候选URL与目标网页的相似度,或与主题的相关度,选择评价最好的一个或几个URL进行爬取。算法预测为“有用”的网页。
一个问题是爬虫爬取路径上的很多相关网页可能会被忽略,因为最佳优先级策略是一种局部最优搜索算法,所以需要结合特定应用的最佳优先级进行改进才能跳出当地。最好的一点,据研究,这样的闭环调整可以将不相关网页的数量减少30%到90%。
2、深度优先
深度优先是指蜘蛛沿着找到的链接爬行,直到前面没有其他链接,然后返回第一页,沿着另一个链接爬行。
3、广度优先
广度优先是指当蜘蛛在一个页面上发现多个链接时,它不会一路跟随一个链接,而是爬取页面上的所有链接,然后进入第二层页面并跟随第二层找到的链接层。翻到第三页。
理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬取整个互联网。
在实际工作中,蜘蛛的带宽资源和时间都不是无限的,也无法爬取所有页面。其实最大的搜索引擎只是爬取和收录互联网的一小部分,当然不是搜索。引擎蜘蛛爬得越多越好。
因此,为了尽可能多地捕获用户信息,深度优先和广度优先通常是混合使用的,这样可以照顾到尽可能多的网站,同时也照顾到部分网站 的内页。
三、搜索引擎蜘蛛工作中的信息采集
信息采集模块包括“蜘蛛控制”和“网络蜘蛛”两部分。“蜘蛛”这个名字形象地描述了信息采集模块在网络数据形成的“Web”上获取信息的功能。
一般来说,网络爬虫都是从种子网页开始,反复下载网页,从文档中搜索不可见的URL,从而访问其他网页,遍历网页。
而它的工作策略一般可以分为累积爬取(cumulative crawling)和增量爬取(incremental crawling)两种。
1、累积爬取
累积爬取是指从某个时间点开始,遍历系统允许存储和处理的所有网页。在理想的软硬件环境下,经过足够的运行时间,累积爬取策略可以保证爬取相当大的网页集合。
似乎由于网络数据的动态特性,集合中的网页被爬取的时间点不同,页面更新的时间点也不同。因此,累计爬取的网页集合实际上无法与真实环境中的网页数据进行比较。始终如一。
2、增量爬取
与累积爬取不同的是,增量爬取是指在一定规模的网页集合的基础上,通过更新数据,在现有集合中选择过期的网页,以保证抓取到的网页被抓取。数据与真实网络数据足够接近。
增量爬取的前提是系统已经爬取了足够多的网页,并且有这些页面被爬取的时间的信息。在针对实际应用环境的网络爬虫设计中,通常会同时收录累积爬取和增量爬取策略。
累积爬取一般用于数据集合的整体建立或大规模更新,而增量爬取主要用于数据集合的日常维护和即时更新。
爬取策略确定后,如何充分利用网络带宽,合理确定网页数据更新的时间点,成为网络蜘蛛运营策略中的核心问题。
总体而言,在合理利用软硬件资源对网络数据进行实时捕捉方面,已经形成了较为成熟的技术和实用的解决方案。我认为这方面需要解决的主要问题是如何更好地处理动态的web数据问题(比如越来越多的Web2.0数据等),以及更好地基于网页质量。
四、数据库
为了避免重复爬取和爬取网址,搜索引擎会建立一个数据库来记录已发现未爬取的页面和已爬取的页面。那么数据库中的URLs是怎么来的呢?
1、手动输入种子网站
简单来说就是我们建站后提交给百度、谷歌或者360的URL收录。
2、蜘蛛爬取页面
如果搜索引擎蜘蛛在爬取过程中发现了新的连接URL,但不在数据库中,则将其存入待访问的数据库中(网站观察期)。
爬虫根据重要程度从要访问的数据库中提取URL,访问并爬取页面,然后从要访问的地址库中删除该URL,放入已经访问过的地址库中。因此,建议站长在网站观察,期间有必要尽可能定期更新网站。
3、站长提交网站
一般而言,提交网站只是将网站保存到要访问的数据库中。如果网站是持久化的,不更新spider,就不会光顾搜索引擎的页面了收录是spider自己点链接。
因此,将其提交给搜索引擎对您来说不是很有用。后期根据你的网站更新程度来考虑。搜索引擎更喜欢沿着链接本身查找新页面。当然,如果你的SEO技术足够成熟,并且有这个能力,你可以试试,说不定会有意想不到的效果。不过对于一般站长来说,还是建议让蜘蛛爬行,自然爬到新的站点页面。
五、吸引蜘蛛
虽然理论上说蜘蛛可以爬取所有页面,但在实践中是不可能的,所以想要收录更多页面的SEO人员不得不想办法引诱蜘蛛爬取。
既然不能爬取所有的页面,就需要让它爬取重要的页面,因为重要的页面在索引中起着重要的作用,直接影响排名因素。哪些页面更重要?对此,我特意整理了以下几个我认为比较重要的页面,具有以下特点:
1、网站 和页面权重
优质老网站被赋予高权重,而这个网站上的页面爬取深度更高,所以更多的内页会是收录。
2、页面更新
蜘蛛每次爬取时都会存储页面数据。如果第二次爬取发现页面内容和第一次收录完全一样,说明页面没有更新,蜘蛛不需要经常爬取再爬取。
如果页面内容更新频繁,蜘蛛就会频繁爬爬,那么页面上的新链接自然会被蜘蛛更快地跟踪和爬取,这也是为什么需要每天更新文章@ >
3、导入链接
无论是外部链接还是同一个网站的内部链接,为了被蜘蛛爬取,必须有传入链接才能进入页面,否则蜘蛛不会知道页面的存在一点也不。这时候URL链接就起到了非常重要的作用,内部链接的重要性就发挥出来了。
另外,我个人觉得高质量的入站链接也往往会增加页面上的出站链接被爬取的深度。
这就是为什么大多数网站管理员或 SEO 都想要高质量的附属链接,因为蜘蛛 网站 从彼此之间爬到你 网站 的次数和深度更多。
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
网站优化 • 优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2022-01-15 23:18
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。
下载地址:
史努比的一些特点:
1 爬取网页内容fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,form fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码认证
6支持设置user_agent、referer(返回)、cookies和header内容(头文件)
7支持浏览器重定向,可以控制重定向深度
8 可以将网页中的链接扩展成高质量的url(默认)
9提交数据并获取返回值
10 支持跟踪 HTML 帧
11支持重定向时传递cookie
需要php4以上就够了。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。
$URI参数是被抓取网页的URL地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 将跟踪每个帧并将其存储在一个数组中,然后 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
网站优化 • 优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2022-01-11 02:07
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话 查看全部
php抓取网页snoopy(Snoopy的一些特点及LAMP服务都支持的服务方法)
Snoopy 是一个 php 类,它模拟浏览器获取网页内容和发送表单的功能。 Snoopy的正确操作需要你的服务器PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),并且支持基本的LAMP服务。
一、史努比的一些特点:
1.获取网页内容fetch
2.获取网页的文本内容(去掉HTML标签)fetchtext
3.获取网页链接,form fetchlinks fetchform
4.支持代理主机
5.支持基本的用户名/密码认证
6.支持设置user_agent、referer(来)、cookies和头内容(头文件)
7.支持浏览器重定向,控制重定向深度
8.可以将网页中的链接扩展成高质量的url(默认)
9.提交数据并获取返回值
10.支持跟踪 HTML 帧
11.支持重定向时传递cookie,需要PHP4或以上。由于是 PHP 类,所以不需要扩展。服务器不支持 curl 时的最佳选择。
二、类方法:
获取($URI)
———–
这是用于抓取网页内容的方法。 $URI 参数是被抓取网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
——————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
——————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
—————————-
此方法向 $URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
—————————–
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,登录后只返回网页的文本内容。
提交链接($URI)
——————-
该方法与submit()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
三、类属性:(括号内为默认值)
$host 要连接的主机
$port 连接端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 信息,如果有的话
$cookies cookie,如果有的话
$rawheaders 额外的标题,如果有的话
$maxredirs 最大重定向次数,0=不允许(5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否将所有链接作为完整地址完成(true)
$user 认证用户名,如果有的话
$pass 验证用户名,如果有的话
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
网站优化 • 优采云 发表了文章 • 0 个评论 • 62 次浏览 • 2022-01-09 17:07
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,用于后面的分析。
$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';
3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来我怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3)根据读取的URL地址列表,抓取指定页面。
$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态 查看全部
php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
在做爬取之前,记得把php.ini中的max_execution_time设置大一点,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的班级名字。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等。
1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院信息内容,如下图:
2)我自然是复制了URL地址,用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,用于后面的分析。
$snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo 'success';
3)很奇怪,返回的内容不是国家内容,而是上海的相关内容
4) 后来我怀疑里面可能设置了一个cookie,然后用firebug查了一下,有一个惊人的内幕
5)请求中也放入了cookie的值,加上了一个设置语句$snoopy->cookies["_area_"],情况就大不一样了,顺利返回全国信息。
$snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';
for($i = 1; $i fetch($url);
$html = $snoopy->results;
}
2)使用phpQuery获取节点信息,如下图DOM结构:
使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3)根据读取的URL地址列表,抓取指定页面。
$detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
FQ工具下载:
克服障碍.rar
演示下载:
关于 Snoopy 类的一些注意事项:
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,Snoopy 会将每个帧跟踪到一个数组中,然后是 $this->results。
获取文本($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的文本内容。
获取表单($URI)
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
该方法与 fetch() 方法类似,唯一不同的是该方法会去除 HTML 标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,登录后只返回网页的文本内容。
提交链接($URI)
这个方法和submit()类似,唯一的区别是这个方法会去掉HTML标签等不相关的数据,只返回网页中的链接。
默认情况下,相对链接将自动完成为完整的 URL。
类属性
$主机
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
要使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$推荐人
到达信息,如果有的话
$cookies
饼干,如果有的话
$原创头文件
其他标题信息(如果有)
$maxredirs
最大重定向数,0 = 不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$展开链接
是否完成链接到完整地址(true)
$用户
身份验证用户名(如果有)
$通行证
身份验证用户名(如果有)
$接受
http 接受类型(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$错误
错误在哪里,如果有的话
$response_code
服务器返回的响应码
$标头
从服务器返回的标头
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示无超时
$timed_out
如果读取操作超时,此属性返回 true(需要 PHP 4 Beta 4+)
$最大帧数
允许跟踪的最大帧数
$状态
php抓取网页snoopy(抓取前记得把php.ini中的max_time设置的大点不然)
网站优化 • 优采云 发表了文章 • 0 个评论 • 47 次浏览 • 2021-12-31 12:13
记得在进行爬取之前将php.ini中的max_execution_time设置为较大的值,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的类名。功能也非常强大。用于模拟浏览器获取网页内容和发送表单的功能。
1 我要抓取网站的一个列表页的内容我要抓取全国医院的信息,如下图
2 我自然复制URL地址,使用Snoopy类抓取前10页的内容放到本地,在本地创建一个html文件进行分析。
$snoopy=new Snoopy();//医院list页面
for($i = 1; $i fetch($url); file_put_contents("web/page/$i.html", $snoopy->results);
} echo 'success';
3 奇怪的是,返回的内容不是全国的内容而是上海的相关内容
4 怀疑可能里面设置了cookie,然后用firebug查看。果然,有一个惊人的内幕。
5 在请求中放入cookie的值,并添加设置语句$snoopy->cookies["_area_"]。情况大不相同,国家信息顺利返回。
$snoopy=new Snoopy();//医院list页面$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';for($i = 1; $i results;
}
2 使用phpQuery获取节点信息的DOM结构如下图
使用一些phpQuery 方法结合DOM 结构来读取各个医院信息的URL 地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3 根据读取的URL地址列表抓取指定页面。
$detailIndex = 1;for($i = 1; $i results); $detailIndex++;
}
}
FQ工具下载
克服障碍.rar
演示下载
史努比类的一些说明
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被爬取的网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果您正在抓取一帧,史努比将跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
获取文本($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
此方法类似于 fetch()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,仅在登录后返回网页中的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性
$host
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$referer
源信息(如果有)
$cookies
饼干,如果有的话
$rawheaders
其他标题信息,如果有的话
$maxredirs
最大重定向次数 0=不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$expandlinks
是否完成所有链接完成地址(true)
$用户
身份验证用户名(如果有)
$pass
身份验证用户名(如果有)
$接受
http 接受类型(p_w_picpath/gif、p_w_picpath/x-xbitmap、p_w_picpath/jpeg、p_w_picpath/pjpeg、*/*)
$错误
在哪里报告错误,如果有的话
$response_code
服务器返回的响应码
$headers
服务器返回的头部信息
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+)设置为 0 表示没有超时
$timed_out
如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
$maxframes
允许跟踪的最大帧数
$状态 查看全部
php抓取网页snoopy(抓取前记得把php.ini中的max_time设置的大点不然)
记得在进行爬取之前将php.ini中的max_execution_time设置为较大的值,否则会报错。
一、 使用 Snoopy.class.php 抓取页面
一个很可爱的类名。功能也非常强大。用于模拟浏览器获取网页内容和发送表单的功能。
1 我要抓取网站的一个列表页的内容我要抓取全国医院的信息,如下图
2 我自然复制URL地址,使用Snoopy类抓取前10页的内容放到本地,在本地创建一个html文件进行分析。
$snoopy=new Snoopy();//医院list页面
for($i = 1; $i fetch($url); file_put_contents("web/page/$i.html", $snoopy->results);
} echo 'success';
3 奇怪的是,返回的内容不是全国的内容而是上海的相关内容
4 怀疑可能里面设置了cookie,然后用firebug查看。果然,有一个惊人的内幕。
5 在请求中放入cookie的值,并添加设置语句$snoopy->cookies["_area_"]。情况大不相同,国家信息顺利返回。
$snoopy=new Snoopy();//医院list页面$snoopy->cookies["_area_"] = '{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}';for($i = 1; $i results;
}
2 使用phpQuery获取节点信息的DOM结构如下图
使用一些phpQuery 方法结合DOM 结构来读取各个医院信息的URL 地址。
for($i = 1; $i attr('href')); //医院详情
}
}
3 根据读取的URL地址列表抓取指定页面。
$detailIndex = 1;for($i = 1; $i results); $detailIndex++;
}
}
FQ工具下载
克服障碍.rar
演示下载
史努比类的一些说明
类方法
获取($URI)
这是用于抓取网页内容的方法。
$URI 参数是被爬取的网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果您正在抓取一帧,史努比将跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
获取文本($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
获取链接($URI)
此方法类似于 fetch()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
提交($URI,$formvars)
此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,仅在登录后返回网页中的文本内容。
提交链接($URI)
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接将自动完成并转换为完整的 URL。
类属性
$host
连接主机
$端口
连接端口
$proxy_host
使用的代理主机(如果有)
$proxy_port
使用的代理主机端口(如果有)
$代理
用户代理伪装(史努比 v0.1)
$referer
源信息(如果有)
$cookies
饼干,如果有的话
$rawheaders
其他标题信息,如果有的话
$maxredirs
最大重定向次数 0=不允许 (5)
$offsiteok
是否允许异地重定向。(真的)
$expandlinks
是否完成所有链接完成地址(true)
$用户
身份验证用户名(如果有)
$pass
身份验证用户名(如果有)
$接受
http 接受类型(p_w_picpath/gif、p_w_picpath/x-xbitmap、p_w_picpath/jpeg、p_w_picpath/pjpeg、*/*)
$错误
在哪里报告错误,如果有的话
$response_code
服务器返回的响应码
$headers
服务器返回的头部信息
$最大长度
最大返回数据长度
$read_timeout
读取操作超时(需要 PHP 4 Beta 4+)设置为 0 表示没有超时
$timed_out
如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
$maxframes
允许跟踪的最大帧数
$状态
php抓取网页snoopy(php.iniv4933快速构建实时集群定义:小明seo教程)
网站优化 • 优采云 发表了文章 • 0 个评论 • 52 次浏览 • 2021-12-25 15:28
抓取与蜘蛛页面相关的博客
使用PHP抓取页面并分析
在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。一、 使用 Snoopy.class.php 在页面上抓取一个非常可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。1)我现在想抢一个
技术 胖子 4 年前 1207
Python爬虫-抓取腾讯招聘信息页面
本爬虫主要使用了requests、json、bs4(BeautifulSoup)等相关模块,有不完善之处还请大家赐教!:) 来源:
樱桃 v4 年前 933
快速搭建实时爬虫集群
定义:首先,让我们定义目标抓取。有针对性的爬取是一种特定的爬取需求。目标站点已知,站点页面已知。本文的介绍主要围绕如何快速搭建实时爬虫系统,不包括一般意义上的链接分析、站点发现等功能。在本文提到的示例系统中,主要使用了lin
cnbird 8 年前 850
蜘蛛介绍
Spider,也称为WebCrawler 或Robot,是一种程序,可沿链接导航Web 文档集合。它一般驻留在服务器上,通过给定的URL读取相应的文档,使用HTTP等标准协议,然后将文档中收录
的所有未访问过的URL作为新的起点,继续漫游,直到条件不满足. 新的
5年前的航母 1199
小心蜘蛛蜘蛛以提高网站索引率
SEO人非常关心网站收录数量和页面收录率。从搜索引擎的角度来看,收录与蜘蛛蜘蛛有着直接的关系。通过主动或被动的方式,让程序更好的采集
网站内容是网站seo的基础。什么蜘蛛蜘蛛抓取互联网上的海量链接?无非是两种方法。
小明seo教程4年前1273
使用scrapy抓取股票代码
个人博客: 来源地址: 爬虫工具:scrapy Scrapy 简介 Scrapy是一个为爬取网站数据,提取结构化数据而编写的应用框架。
net9362 年前 1968
使用 Scrapy 抓取数据
Scrapy 是一个由 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站和从页面中提取结构化数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。官方主页:中文文档:Scrap
Rainer 5年前 6542
如何用Python抓取数据?(一)网页抓取
您期待已久的 Python 网络数据爬虫教程就在这里。本文将向您展示如何从网页中查找有趣的链接和解释性文本,将它们抓取并存储在 Excel 中。我需要在公众号后台,经常能收到读者的评论。许多评论都是来自读者的问题。只要我有时间,我会花时间尝试和回答。但有些评论乍一看不清楚
王淑仪3年前2089
关于爬取蜘蛛页面的问答
Spider抓取动态内容(JavaScript指向的页面)
PHP新手,在写爬虫的时候,一般情况下跟踪链接不难,但是如果是动态页面,就会一头雾水。可能是分析协议(但是怎么分析?),模拟JavaScript脚本的执行(怎么做?),……另外,写一个爬AJAX页面的通用蜘蛛可能是一个比较复杂的问题,没有
a1234566785 年前 735 查看全部
php抓取网页snoopy(php.iniv4933快速构建实时集群定义:小明seo教程)
抓取与蜘蛛页面相关的博客
使用PHP抓取页面并分析

在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。一、 使用 Snoopy.class.php 在页面上抓取一个非常可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。1)我现在想抢一个

技术 胖子 4 年前 1207
Python爬虫-抓取腾讯招聘信息页面

本爬虫主要使用了requests、json、bs4(BeautifulSoup)等相关模块,有不完善之处还请大家赐教!:) 来源:

樱桃 v4 年前 933
快速搭建实时爬虫集群

定义:首先,让我们定义目标抓取。有针对性的爬取是一种特定的爬取需求。目标站点已知,站点页面已知。本文的介绍主要围绕如何快速搭建实时爬虫系统,不包括一般意义上的链接分析、站点发现等功能。在本文提到的示例系统中,主要使用了lin

cnbird 8 年前 850
蜘蛛介绍

Spider,也称为WebCrawler 或Robot,是一种程序,可沿链接导航Web 文档集合。它一般驻留在服务器上,通过给定的URL读取相应的文档,使用HTTP等标准协议,然后将文档中收录
的所有未访问过的URL作为新的起点,继续漫游,直到条件不满足. 新的

5年前的航母 1199
小心蜘蛛蜘蛛以提高网站索引率

SEO人非常关心网站收录数量和页面收录率。从搜索引擎的角度来看,收录与蜘蛛蜘蛛有着直接的关系。通过主动或被动的方式,让程序更好的采集
网站内容是网站seo的基础。什么蜘蛛蜘蛛抓取互联网上的海量链接?无非是两种方法。

小明seo教程4年前1273
使用scrapy抓取股票代码

个人博客: 来源地址: 爬虫工具:scrapy Scrapy 简介 Scrapy是一个为爬取网站数据,提取结构化数据而编写的应用框架。

net9362 年前 1968
使用 Scrapy 抓取数据

Scrapy 是一个由 Python 开发的快速、高级的屏幕抓取和网页抓取框架,用于抓取网站和从页面中提取结构化数据。Scrapy 用途广泛,可用于数据挖掘、监控和自动化测试。官方主页:中文文档:Scrap

Rainer 5年前 6542
如何用Python抓取数据?(一)网页抓取

您期待已久的 Python 网络数据爬虫教程就在这里。本文将向您展示如何从网页中查找有趣的链接和解释性文本,将它们抓取并存储在 Excel 中。我需要在公众号后台,经常能收到读者的评论。许多评论都是来自读者的问题。只要我有时间,我会花时间尝试和回答。但有些评论乍一看不清楚
王淑仪3年前2089
关于爬取蜘蛛页面的问答
Spider抓取动态内容(JavaScript指向的页面)

PHP新手,在写爬虫的时候,一般情况下跟踪链接不难,但是如果是动态页面,就会一头雾水。可能是分析协议(但是怎么分析?),模拟JavaScript脚本的执行(怎么做?),……另外,写一个爬AJAX页面的通用蜘蛛可能是一个比较复杂的问题,没有

a1234566785 年前 735
php抓取网页snoopy(极简工具X一站式开发,七大领域400页场景化应用构建最佳宝典(组图))
网站优化 • 优采云 发表了文章 • 0 个评论 • 54 次浏览 • 2021-12-11 06:11
极简工具X一站式开发,7个领域400页场景化应用最佳合集,点击获取>>>
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
下载链接:
史努比的一些特点:
1 fetch 网页内容 fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,表单 fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码验证
6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
7 支持浏览器重定向,可以控制重定向的深度
8 可以将网页中的链接扩展为高质量的url(默认)
9 提交数据并获取返回值
10 支持跟踪 HTML 框架
11 支持重定向时传递 cookie
需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
————
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
fetchtext($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
fetchlinks($URI)
—————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
提交($URI,$formvars)
———————-
此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
——————————
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
提交链接($URI)
—————-
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
类属性:(括号内为默认值)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies cookies,如果有的话
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否完成所有链接以完成地址(真实)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话 查看全部
php抓取网页snoopy(极简工具X一站式开发,七大领域400页场景化应用构建最佳宝典(组图))
极简工具X一站式开发,7个领域400页场景化应用最佳合集,点击获取>>>

Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
下载链接:
史努比的一些特点:
1 fetch 网页内容 fetch
2 获取网页的文本内容(去除HTML标签)fetchtext
3 获取网页链接,表单 fetchlinks fetchform
4 支持代理主机
5 支持基本的用户名/密码验证
6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
7 支持浏览器重定向,可以控制重定向的深度
8 可以将网页中的链接扩展为高质量的url(默认)
9 提交数据并获取返回值
10 支持跟踪 HTML 框架
11 支持重定向时传递 cookie
需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
类方法:
获取($URI)
————
这是用于抓取网页内容的方法。
$URI 参数是被抓取网页的 URL 地址。
获取的结果存储在 $this->results 中。
如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
fetchtext($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
fetchform($URI)
—————
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
fetchlinks($URI)
—————-
该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
提交($URI,$formvars)
———————-
此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
提交文本($URI,$formvars)
——————————
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
提交链接($URI)
—————-
该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
默认情况下,相对链接会自动补全并转换成完整的网址。
类属性:(括号内为默认值)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装(史努比 v0.1)
$referer 传入信息,如果有的话
$cookies cookies,如果有的话
$rawheaders 其他头信息,如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok 是否允许异地重定向。 (真)
$expandlinks 是否完成所有链接以完成地址(真实)
$user 认证用户名,如果有的话
$pass 认证用户名,如果有的话