php抓取网页snoopy

php抓取网页snoopy

php抓取网页snoopy(最好的选择的特点及选择的方法介绍)

网站优化优采云 发表了文章 • 0 个评论 • 60 次浏览 • 2021-12-08 19:16 • 来自相关话题

  php抓取网页snoopy(最好的选择的特点及选择的方法介绍)
  Snoopy 是一个 php 类,用于模拟浏览器的一些简单功能,可以获取网页内容、发送表单等操作。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。既然是php的一类,不需要扩展支持,所以是服务器不支持curl时的最佳选择
  史努比的特点:
  1、抓取网页抓取的内容
  2、获取网页的文本内容(去除HTML标签)fetchtext
  3、获取网页链接,形成fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、可以将网页中的链接扩展成高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookie
  史努比下载链接:
  史努比类方法:
  获取($URI)
  这是用于抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  史努比类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(最好的选择的特点及选择的方法介绍)
  Snoopy 是一个 php 类,用于模拟浏览器的一些简单功能,可以获取网页内容、发送表单等操作。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。既然是php的一类,不需要扩展支持,所以是服务器不支持curl时的最佳选择
  史努比的特点:
  1、抓取网页抓取的内容
  2、获取网页的文本内容(去除HTML标签)fetchtext
  3、获取网页链接,形成fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、可以将网页中的链接扩展成高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookie
  史努比下载链接:
  史努比类方法:
  获取($URI)
  这是用于抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  史努比类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 64 次浏览 • 2021-12-08 08:11 • 来自相关话题

  php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  Snoopy是一个php采集类,用于模拟浏览器获取网页内容并发送表单。
  以下是史努比的一些功能:
  易于抓取网页内容
  轻松抓取页面文字(去除HTML标签)
  易于抓取网页内的链接
  支持代理爬取
  支持基本用户名密码认证
  支持设置 user-agent、referer、cookies 和 header 内容
  支持浏览器转向,控制转向深度
  可以将页面上的链接转化为高质量的链接
  轻松提交数据并获取返回值
  能够跟踪 HTML 框架
  支持在重定向时传递 cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法。$URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 要连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(真的)
  $expandlinks 是否完成所有链接以完成地址(true)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  Snoopy是一个php采集类,用于模拟浏览器获取网页内容并发送表单。
  以下是史努比的一些功能:
  易于抓取网页内容
  轻松抓取页面文字(去除HTML标签)
  易于抓取网页内的链接
  支持代理爬取
  支持基本用户名密码认证
  支持设置 user-agent、referer、cookies 和 header 内容
  支持浏览器转向,控制转向深度
  可以将页面上的链接转化为高质量的链接
  轻松提交数据并获取返回值
  能够跟踪 HTML 框架
  支持在重定向时传递 cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法。$URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 要连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(真的)
  $expandlinks 是否完成所有链接以完成地址(true)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 36 次浏览 • 2021-12-08 02:24 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ————
  这是用于抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ————
  这是用于抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))

网站优化优采云 发表了文章 • 0 个评论 • 42 次浏览 • 2021-11-28 16:14 • 来自相关话题

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  获取网页的内容,$URI为要抓取的网页的网址,获取的结果存放在$this->results中。如果抓取一帧,每一帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回的是文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  获取网页的内容,$URI为要抓取的网页的网址,获取的结果存放在$this->results中。如果抓取一帧,每一帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回的是文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)

网站优化优采云 发表了文章 • 0 个评论 • 51 次浏览 • 2021-11-24 06:22 • 来自相关话题

  php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。 Snoopy 要求您服务器的 PHP 版本在 4.0 以上,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持基本的 LAMP 服务。史努比分类下载地址为:
  一、史努比的一些特点:
  1.抓取网页抓取的内容
  2.获取网页的文本内容(去除HTML标签)fetchtext
  3.获取网页链接,表单获取链接获取表单
  4.支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11. 支持重定向时cookie的传输,php4以上就可以了。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、类方法:
  获取($URI)
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如有 查看全部

  php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。 Snoopy 要求您服务器的 PHP 版本在 4.0 以上,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持基本的 LAMP 服务。史努比分类下载地址为:
  一、史努比的一些特点:
  1.抓取网页抓取的内容
  2.获取网页的文本内容(去除HTML标签)fetchtext
  3.获取网页链接,表单获取链接获取表单
  4.支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11. 支持重定向时cookie的传输,php4以上就可以了。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、类方法:
  获取($URI)
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如有

php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 56 次浏览 • 2021-11-17 16:09 • 来自相关话题

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(网页版地址绿色版zend解密工具下载(zend))

网站优化优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2021-11-16 10:07 • 来自相关话题

  php抓取网页snoopy(网页版地址绿色版zend解密工具下载(zend))
  magpierss用的是史努比,让我对研究这个东东有点兴趣。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗……最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载
  总结:zend解密phpzend我们是专业的搭配ZendEncoder/SafeGuard、ionCube、Sourc...
  Zend解密phpzend
  我们是专业的网站,可以破解使用 ZendEncoder/SafeGuard、ionCube、SourceGuardian、phpcipher、codelock 或 SourceCop 加密的 PHP 文件。它主要使用密码分析、解压和反编译技术将过去的PHP文件编码/加密恢复为可读可执行的PHP源文件。
  网址
  zend解密工具绿色版下载
  MyIASM 是 IASM 表的新版本,具有以下扩展:
  二进制级别的可移植性。
  NULL 列索引。
  与 ISAM 表相比,可变长度行的碎片更少。
  支持大文件。
  更好的索引压缩。
  更好的密钥统计分布。
  更好更快的 auto_increment 处理。
  下面是一些细节和具体的实现差异:
  1.InnoDB 不支持 FULLTEXT 类型索引。
  2.InnoDB 并没有保存表的具体行数,即在执行 selectcount(*)fromtable 时,InnoDB 会扫描整个表来计算有多少行,而 MyISAM 只是简单的读取保存的行数而已数数。注意当count(*)语句收录where条件时,两个表的操作是一样的。
  3. 对于 AUTO_INCREMENT 类型的字段,InnoDB 必须收录一个仅收录该字段的索引,但在 MyISAM 表中,可以与其他字段一起构建联合索引。
  4.DELETEFROMtable,InnoDB 不会重新创建表,而是逐行删除。
  5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决办法是先把InnoDB表改成MyISAM表,导入数据后再改成InnoDB表,但是对于使用额外的InnoDB特性(比如外键)的表不适用。
  另外,InnoDB 表的行锁不是绝对的。如果 MySQL 在执行 SQL 语句时无法确定要扫描的范围,则 InnoDB 表也会锁定整个表,例如 updatetablesetnum=1wherenamelike "%aaa%"
  任何一种桌子都不是万能的。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。 查看全部

  php抓取网页snoopy(网页版地址绿色版zend解密工具下载(zend))
  magpierss用的是史努比,让我对研究这个东东有点兴趣。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗……最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载
  总结:zend解密phpzend我们是专业的搭配ZendEncoder/SafeGuard、ionCube、Sourc...
  Zend解密phpzend
  我们是专业的网站,可以破解使用 ZendEncoder/SafeGuard、ionCube、SourceGuardian、phpcipher、codelock 或 SourceCop 加密的 PHP 文件。它主要使用密码分析、解压和反编译技术将过去的PHP文件编码/加密恢复为可读可执行的PHP源文件。
  网址
  zend解密工具绿色版下载
  MyIASM 是 IASM 表的新版本,具有以下扩展:
  二进制级别的可移植性。
  NULL 列索引。
  与 ISAM 表相比,可变长度行的碎片更少。
  支持大文件。
  更好的索引压缩。
  更好的密钥统计分布。
  更好更快的 auto_increment 处理。
  下面是一些细节和具体的实现差异:
  1.InnoDB 不支持 FULLTEXT 类型索引。
  2.InnoDB 并没有保存表的具体行数,即在执行 selectcount(*)fromtable 时,InnoDB 会扫描整个表来计算有多少行,而 MyISAM 只是简单的读取保存的行数而已数数。注意当count(*)语句收录where条件时,两个表的操作是一样的。
  3. 对于 AUTO_INCREMENT 类型的字段,InnoDB 必须收录一个仅收录该字段的索引,但在 MyISAM 表中,可以与其他字段一起构建联合索引。
  4.DELETEFROMtable,InnoDB 不会重新创建表,而是逐行删除。
  5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决办法是先把InnoDB表改成MyISAM表,导入数据后再改成InnoDB表,但是对于使用额外的InnoDB特性(比如外键)的表不适用。
  另外,InnoDB 表的行锁不是绝对的。如果 MySQL 在执行 SQL 语句时无法确定要扫描的范围,则 InnoDB 表也会锁定整个表,例如 updatetablesetnum=1wherenamelike "%aaa%"
  任何一种桌子都不是万能的。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。

php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2021-11-08 19:13 • 来自相关话题

  php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)
  本文文章主要介绍php的Snoopy类案例讲解。本文文章通过一个简单的案例来解释对这项技术的理解和使用。以下是详细内容。有需要的朋友可以参考。
  用于 php 的史努比类
  要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有的文本信息,使用fetchtext(还是用正则表达式处理),还有很多其他的功能,比如模拟提交表单。
  指示:
  1、 首先下载史努比类,下载地址:
  2、先实例化一个对象,然后调用对应的方法获取爬取的网页信息
  例子:
   include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;
  不提供获取网页中所有图片地址的方法。它自身的需求之一是获取页面上文章列表中的所有图片地址。然后我自己写了一个,主要是因为常规比赛很重要。
   //匹配图片的正则表达式 $reTag = "//i";
  由于特殊需要,只需要抓取htp://开头的图片(外网的图片可能是防盗的,我想先抓取本地的)
  实现思路:
  1、抓取指定网页,过滤掉所有预期的文章地址;
  2、循环抓取第一步中的文章地址,然后使用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
  3、 根据图片后缀和ID保存图片(这里只有gif,jpg)---如果这个图片文件存在,先删除再保存
<p> 查看全部

  php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)
  本文文章主要介绍php的Snoopy类案例讲解。本文文章通过一个简单的案例来解释对这项技术的理解和使用。以下是详细内容。有需要的朋友可以参考。
  用于 php 的史努比类
  要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有的文本信息,使用fetchtext(还是用正则表达式处理),还有很多其他的功能,比如模拟提交表单。
  指示:
  1、 首先下载史努比类,下载地址:
  2、先实例化一个对象,然后调用对应的方法获取爬取的网页信息
  例子:
   include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;
  不提供获取网页中所有图片地址的方法。它自身的需求之一是获取页面上文章列表中的所有图片地址。然后我自己写了一个,主要是因为常规比赛很重要。
   //匹配图片的正则表达式 $reTag = "//i";
  由于特殊需要,只需要抓取htp://开头的图片(外网的图片可能是防盗的,我想先抓取本地的)
  实现思路:
  1、抓取指定网页,过滤掉所有预期的文章地址;
  2、循环抓取第一步中的文章地址,然后使用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
  3、 根据图片后缀和ID保存图片(这里只有gif,jpg)---如果这个图片文件存在,先删除再保存
<p>

php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)

网站优化优采云 发表了文章 • 0 个评论 • 65 次浏览 • 2021-11-07 06:20 • 来自相关话题

  php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
  在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。
  一、 使用 Snoopy.class.php 抓取页面
  一个很可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。
  1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院的信息内容,如下图:
  2) 我自然是复制了URL地址,使用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,供以后分析使用。
  
  $snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo &#39;success&#39;;
  
  3) 奇怪的是,返回的内容不是国家内容,而是与上海相关的内容。
  4) 怀疑里面可能设置了cookie,然后用firebug查看了一下,果然有惊人的内幕
  5) 在请求中放入cookie的值,并添加设置语句$snoopy-&gt;cookies["_area_"],情况大不相同,顺利返回国家信息。
  $snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = &#39;{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}&#39;;
for($i = 1; $i results;
}
  2)使用phpQuery获取节点信息,如下DOM结构所示:
  使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
  
  for($i = 1; $i attr(&#39;href&#39;)); //医院详情
}
}
  
  3)根据读取到的URL地址列表,抓取指定页面。
  
  $detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
  
  FQ工具下载:
  克服障碍.rar
  演示下载:
  史努比类的一些说明:
  类方法
  获取($URI)
  这是用于抓取网页内容的方法。
  $URI 参数是被爬取的网页的 URL 地址。
  获取的结果存储在 $this-&gt;results 中。
  如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this-&gt;results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性
  $host
  连接主机
  $端口
  连接端口
  $proxy_host
  使用的代理主机(如果有)
  $proxy_port
  使用的代理主机端口(如果有)
  $代理
  用户代理伪装(史努比 v0.1)
  $referer
  信息,如果有
  $cookies
  饼干,如果有的话
  $rawheaders
  其他标题信息,如果有的话
  $maxredirs
  最大重定向次数,0=不允许 (5)
  $offsiteok
  是否允许异地重定向。(真的)
  $expandlinks
  是否完成所有链接完成地址(true)
  $用户
  身份验证用户名(如果有)
  $pass
  身份验证用户名(如果有)
  $接受
  http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
  $错误
  在哪里报告错误,如果有的话
  $response_code
  服务器返回的响应码
  $headers
  服务器返回的头部信息
  $最大长度
  最大返回数据长度
  $read_timeout
  读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示没有超时
  $timed_out
  如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
  $maxframes
  允许跟踪的最大帧数
  $状态 查看全部

  php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
  在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。
  一、 使用 Snoopy.class.php 抓取页面
  一个很可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。
  1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院的信息内容,如下图:
  2) 我自然是复制了URL地址,使用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,供以后分析使用。
  
  $snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo &#39;success&#39;;
  
  3) 奇怪的是,返回的内容不是国家内容,而是与上海相关的内容。
  4) 怀疑里面可能设置了cookie,然后用firebug查看了一下,果然有惊人的内幕
  5) 在请求中放入cookie的值,并添加设置语句$snoopy-&gt;cookies["_area_"],情况大不相同,顺利返回国家信息。
  $snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = &#39;{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}&#39;;
for($i = 1; $i results;
}
  2)使用phpQuery获取节点信息,如下DOM结构所示:
  使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
  
  for($i = 1; $i attr(&#39;href&#39;)); //医院详情
}
}
  
  3)根据读取到的URL地址列表,抓取指定页面。
  
  $detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
  
  FQ工具下载:
  克服障碍.rar
  演示下载:
  史努比类的一些说明:
  类方法
  获取($URI)
  这是用于抓取网页内容的方法。
  $URI 参数是被爬取的网页的 URL 地址。
  获取的结果存储在 $this-&gt;results 中。
  如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this-&gt;results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性
  $host
  连接主机
  $端口
  连接端口
  $proxy_host
  使用的代理主机(如果有)
  $proxy_port
  使用的代理主机端口(如果有)
  $代理
  用户代理伪装(史努比 v0.1)
  $referer
  信息,如果有
  $cookies
  饼干,如果有的话
  $rawheaders
  其他标题信息,如果有的话
  $maxredirs
  最大重定向次数,0=不允许 (5)
  $offsiteok
  是否允许异地重定向。(真的)
  $expandlinks
  是否完成所有链接完成地址(true)
  $用户
  身份验证用户名(如果有)
  $pass
  身份验证用户名(如果有)
  $接受
  http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
  $错误
  在哪里报告错误,如果有的话
  $response_code
  服务器返回的响应码
  $headers
  服务器返回的头部信息
  $最大长度
  最大返回数据长度
  $read_timeout
  读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示没有超时
  $timed_out
  如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
  $maxframes
  允许跟踪的最大帧数
  $状态

php抓取网页snoopy( PHP补充资料:以上实现过程是建于ThinkPHP框架的基础之的 )

网站优化优采云 发表了文章 • 0 个评论 • 110 次浏览 • 2021-11-06 13:14 • 来自相关话题

  php抓取网页snoopy(
PHP补充资料:以上实现过程是建于ThinkPHP框架的基础之的
)
  class IndexAction extends Action
{
function index()
{
/**
+----------------------------------------------------------
* 获取网页的meta信息
+----------------------------------------------------------
* Snoopy.class.php
+----------------------------------------------------------
* http://snoopy.sourceforge.net/
+----------------------------------------------------------
* Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
+----------------------------------------------------------
*/
header("Content-Type:text/html; charset=".C('OUTPUT_CHARSET'));
import('@.Util.Snoopy');
$get_data_www = new Snoopy;
if( $get_data_www->fetch('http://www.imyike.com/') ){
$contents = $get_data_www->results;
while(list($key,$val) = each($get_data_www->headers))
echo $key.": ".$val."<br />n";
preg_match('/]*?content=["']?text/html;?[s]*charset=?([^>'"/]*)["']?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) > 0)
{
$charset = $match[1];
}
dump($charset);
preg_match('/([^>]*)/si', $contents, $match );
if (isset($match) && is_array($match) && count($match) > 0)
{
$title = strip_tags($match[1]);
}
dump($title);
preg_match_all('/"]*)"?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) == 3)
{
$originals = $match[0];
$names = $match[1];
$values = $match[2];
if (count($originals) == count($names) && count($names) == count($values))
{
$metaTags = array();
for ($i=0, $limiti=count($names); $i < $limiti; $i++)
{
$metaTags[$names[$i]] = $values[$i];
}
dump($metaTags);
}
}
}
}
}
  补充资料:
  以上实现过程基于ThinkPHP框架。内容首次发布于:%3D1
  关于 Snoopy.class.php 的一些信息:
  说明:
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持重定向时传递 cookie(v0.92 增加)
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  fetch($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  submit($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  submittext($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  submitlinks($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies, 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)
设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false 查看全部

  php抓取网页snoopy(
PHP补充资料:以上实现过程是建于ThinkPHP框架的基础之的
)
  class IndexAction extends Action
{
function index()
{
/**
+----------------------------------------------------------
* 获取网页的meta信息
+----------------------------------------------------------
* Snoopy.class.php
+----------------------------------------------------------
* http://snoopy.sourceforge.net/
+----------------------------------------------------------
* Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
+----------------------------------------------------------
*/
header("Content-Type:text/html; charset=".C('OUTPUT_CHARSET'));
import('@.Util.Snoopy');
$get_data_www = new Snoopy;
if( $get_data_www->fetch('http://www.imyike.com/') ){
$contents = $get_data_www->results;
while(list($key,$val) = each($get_data_www->headers))
echo $key.": ".$val."<br />n";
preg_match('/]*?content=["']?text/html;?[s]*charset=?([^>'"/]*)["']?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) > 0)
{
$charset = $match[1];
}
dump($charset);
preg_match('/([^>]*)/si', $contents, $match );
if (isset($match) && is_array($match) && count($match) > 0)
{
$title = strip_tags($match[1]);
}
dump($title);
preg_match_all('/"]*)"?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) == 3)
{
$originals = $match[0];
$names = $match[1];
$values = $match[2];
if (count($originals) == count($names) && count($names) == count($values))
{
$metaTags = array();
for ($i=0, $limiti=count($names); $i < $limiti; $i++)
{
$metaTags[$names[$i]] = $values[$i];
}
dump($metaTags);
}
}
}
}
}
  补充资料:
  以上实现过程基于ThinkPHP框架。内容首次发布于:%3D1
  关于 Snoopy.class.php 的一些信息:
  说明:
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持重定向时传递 cookie(v0.92 增加)
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  fetch($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  submit($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  submittext($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  submitlinks($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies, 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)
设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2021-11-05 15:05 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持在重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持在重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类使用教程的使用方法及示例:)

网站优化优采云 发表了文章 • 0 个评论 • 65 次浏览 • 2021-11-05 07:00 • 来自相关话题

  php抓取网页snoopy(php一个类使用教程的使用方法及示例:)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  需要php4以上,因为是php的一个类,不需要扩展支持服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(Snoopyv0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否ornottoallowredirectsoff-site.(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话
  $accept http 接受类型 (image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
  $error 在哪里报告,如果有的话
  $response_code 服务器返回的响应码
  服务器返回的$headers头信息
  $maxlength 最长返回数据长度
  $read_timeout 读操作超时(需要PHP4Beta4+)设置为0表示无超时
  $timed_out 如果读操作超时,该属性返回真(需要PHP4Beta4+)
  $maxframes 允许跟踪的最大帧数
  $status 抓取到的http状态
  $temp_dir Web 服务器可以写入的临时文件目录(/tmp)
  $curl_path cURLbinary 目录,如果没有 cURLbinary,设置为 false
  以下是一个例子:
  include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "80";

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.9it.me";

$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";

$snoopy->rawheaders["Pragma"] = "no-cache";

$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;

$snoopy->user = "joe";
$snoopy->pass = "bloe";

if($snoopy->fetchtext("http://www.9it.me"))
{
echo "".htmlspecialchars($snoopy->results)."
  \n";} else echo "error fetching document: ".$snoopy->error."\n";
  获取指定url的内容
  表单提交
  既然已经提交了表单,就可以做很多事情了。接下来,让我们伪装ip,伪装浏览器。
  伪装浏览器
  原来我们可以假装session假装浏览器,假装ip,哈哈可以做很多事情。
  比如用验证码,验证ip投票,可以连续投票。
  ps:这里伪装ip其实就是伪装http头,所以一般通过REMOTE_ADDR获取的IP是不能伪装的, 查看全部

  php抓取网页snoopy(php一个类使用教程的使用方法及示例:)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  需要php4以上,因为是php的一个类,不需要扩展支持服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(Snoopyv0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否ornottoallowredirectsoff-site.(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话
  $accept http 接受类型 (image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
  $error 在哪里报告,如果有的话
  $response_code 服务器返回的响应码
  服务器返回的$headers头信息
  $maxlength 最长返回数据长度
  $read_timeout 读操作超时(需要PHP4Beta4+)设置为0表示无超时
  $timed_out 如果读操作超时,该属性返回真(需要PHP4Beta4+)
  $maxframes 允许跟踪的最大帧数
  $status 抓取到的http状态
  $temp_dir Web 服务器可以写入的临时文件目录(/tmp)
  $curl_path cURLbinary 目录,如果没有 cURLbinary,设置为 false
  以下是一个例子:
  include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "80";

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.9it.me";

$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";

$snoopy->rawheaders["Pragma"] = "no-cache";

$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;

$snoopy->user = "joe";
$snoopy->pass = "bloe";

if($snoopy->fetchtext("http://www.9it.me";))
{
echo "".htmlspecialchars($snoopy->results)."
  \n";} else echo "error fetching document: ".$snoopy->error."\n";
  获取指定url的内容
  表单提交
  既然已经提交了表单,就可以做很多事情了。接下来,让我们伪装ip,伪装浏览器。
  伪装浏览器
  原来我们可以假装session假装浏览器,假装ip,哈哈可以做很多事情。
  比如用验证码,验证ip投票,可以连续投票。
  ps:这里伪装ip其实就是伪装http头,所以一般通过REMOTE_ADDR获取的IP是不能伪装的,

php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 56 次浏览 • 2021-11-04 21:04 • 来自相关话题

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(:Snoopy是什么?的特点:方便抓取网页)

网站优化优采云 发表了文章 • 0 个评论 • 48 次浏览 • 2021-11-02 02:02 • 来自相关话题

  php抓取网页snoopy(:Snoopy是什么?的特点:方便抓取网页)
  内容
  []
  当你使用php并且想做一些采集任务时,那么你应该了解snoopy。
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持再次重定向时传递 cookie(v0.92 增加)
  * 支持再次重定向时传递cookie
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(:Snoopy是什么?的特点:方便抓取网页)
  内容
  []
  当你使用php并且想做一些采集任务时,那么你应该了解snoopy。
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持再次重定向时传递 cookie(v0.92 增加)
  * 支持再次重定向时传递cookie
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 92 次浏览 • 2021-10-29 19:03 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))

网站优化优采云 发表了文章 • 0 个评论 • 101 次浏览 • 2021-10-27 06:04 • 来自相关话题

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  抓取网页的内容,$URI为要抓取的网页的网址,抓取的结果存放在$this->results中。如果抓取一帧,会抓取每一帧,并将结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  抓取网页的内容,$URI为要抓取的网页的网址,抓取的结果存放在$this->results中。如果抓取一帧,会抓取每一帧,并将结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy抓取网页的文本内容(去除HTML标签)(组图))

网站优化优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2021-10-19 23:16 • 来自相关话题

  php抓取网页snoopy(Snoopy抓取网页的文本内容(去除HTML标签)(组图))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1. 获取网页内容
  2. 获取网页的文本内容(去除HTML标签)fetchtext
  3. 获取网页链接,表单 fetchlinks fetchform
  4. 支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8. 可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(Snoopy抓取网页的文本内容(去除HTML标签)(组图))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1. 获取网页内容
  2. 获取网页的文本内容(去除HTML标签)fetchtext
  3. 获取网页链接,表单 fetchlinks fetchform
  4. 支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8. 可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2021-10-15 21:29 • 来自相关话题

  php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 49 次浏览 • 2021-10-13 16:09 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(一个简单的java爬虫产品试验时的保存方式分析)

网站优化优采云 发表了文章 • 0 个评论 • 75 次浏览 • 2021-10-09 02:23 • 来自相关话题

  php抓取网页snoopy(一个简单的java爬虫产品试验时的保存方式分析)
  一个简单的java爬虫产品
  最近在研究爬虫和Lucene。虽然我决定使用 Heritrix 来进行爬取操作,但我发现它仍然存在一些问题。比如需要程序生成相应的XML文件。同一份工作,如何保证重复操作?作业的文件夹总是相同(Heritrix为作业创建的文件夹是“作业名称-时间戳”)等等,都是需要考虑的问题,最终搁浅。后来google了一下,找到了一个简单的爬虫程序代码(),然后试了一下,发现确实可以获取到网页的内容。还是要感谢代码提供者——Jack.Wang。虽然测试成功,但在后续的大数据量测试中仍然存在问题。在最初的实验中,我只是让程序抓取 10 个 URL 链接。当我把网址链接数改为100的时候,问题就出现了——网址有重复,很容易变成死循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。
  虽然我现在加了这个判断,但从我运行程序的效果来看,并不理想。总感觉有点慢。爬取 800 页需要一两分钟。我觉得这有点不合理。使用这个产品,我遇到了这么几种情况,有的和大家分享,有的请教大家。1.创建索引时,需要将网页的URL和内容传递给对应的方法。当然,URL 和内容必须相对应。可能是经验太少了。我采用了构造一个JavaBean的方法来传递。不知道你有没有更好的办法。2.保存要索引的内容最初的想法不是创建文件,而是直接将内容保存到Variables中,然后创建索引,即先抓取网页的内容,然后将网页的内容和网址保存到自己构建的JavaBean对象中,然后将该对象放入一个列表列表中,等待所有的网页都被抓取完毕,将该列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。
  原来公司的网站是用GB2312编码做的一个页面,现在用的是UTF-8编码。虽然已经判断了页面的编码,但是还是不能解决保存文件中中文乱码的问题。我不认识每个人。有什么好办法吗?报错信息为:java.io.UnsupportedEncodingException 附上爬虫代码
  现在就下载 查看全部

  php抓取网页snoopy(一个简单的java爬虫产品试验时的保存方式分析)
  一个简单的java爬虫产品
  最近在研究爬虫和Lucene。虽然我决定使用 Heritrix 来进行爬取操作,但我发现它仍然存在一些问题。比如需要程序生成相应的XML文件。同一份工作,如何保证重复操作?作业的文件夹总是相同(Heritrix为作业创建的文件夹是“作业名称-时间戳”)等等,都是需要考虑的问题,最终搁浅。后来google了一下,找到了一个简单的爬虫程序代码(),然后试了一下,发现确实可以获取到网页的内容。还是要感谢代码提供者——Jack.Wang。虽然测试成功,但在后续的大数据量测试中仍然存在问题。在最初的实验中,我只是让程序抓取 10 个 URL 链接。当我把网址链接数改为100的时候,问题就出现了——网址有重复,很容易变成死循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。
  虽然我现在加了这个判断,但从我运行程序的效果来看,并不理想。总感觉有点慢。爬取 800 页需要一两分钟。我觉得这有点不合理。使用这个产品,我遇到了这么几种情况,有的和大家分享,有的请教大家。1.创建索引时,需要将网页的URL和内容传递给对应的方法。当然,URL 和内容必须相对应。可能是经验太少了。我采用了构造一个JavaBean的方法来传递。不知道你有没有更好的办法。2.保存要索引的内容最初的想法不是创建文件,而是直接将内容保存到Variables中,然后创建索引,即先抓取网页的内容,然后将网页的内容和网址保存到自己构建的JavaBean对象中,然后将该对象放入一个列表列表中,等待所有的网页都被抓取完毕,将该列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。
  原来公司的网站是用GB2312编码做的一个页面,现在用的是UTF-8编码。虽然已经判断了页面的编码,但是还是不能解决保存文件中中文乱码的问题。我不认识每个人。有什么好办法吗?报错信息为:java.io.UnsupportedEncodingException 附上爬虫代码
  现在就下载

php抓取网页snoopy(最好的选择的特点及选择的方法介绍)

网站优化优采云 发表了文章 • 0 个评论 • 60 次浏览 • 2021-12-08 19:16 • 来自相关话题

  php抓取网页snoopy(最好的选择的特点及选择的方法介绍)
  Snoopy 是一个 php 类,用于模拟浏览器的一些简单功能,可以获取网页内容、发送表单等操作。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。既然是php的一类,不需要扩展支持,所以是服务器不支持curl时的最佳选择
  史努比的特点:
  1、抓取网页抓取的内容
  2、获取网页的文本内容(去除HTML标签)fetchtext
  3、获取网页链接,形成fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、可以将网页中的链接扩展成高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookie
  史努比下载链接:
  史努比类方法:
  获取($URI)
  这是用于抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  史努比类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(最好的选择的特点及选择的方法介绍)
  Snoopy 是一个 php 类,用于模拟浏览器的一些简单功能,可以获取网页内容、发送表单等操作。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。既然是php的一类,不需要扩展支持,所以是服务器不支持curl时的最佳选择
  史努比的特点:
  1、抓取网页抓取的内容
  2、获取网页的文本内容(去除HTML标签)fetchtext
  3、获取网页链接,形成fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、可以将网页中的链接扩展成高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookie
  史努比下载链接:
  史努比类方法:
  获取($URI)
  这是用于抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接会自动补全并转换成完整的网址。
  史努比类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 64 次浏览 • 2021-12-08 08:11 • 来自相关话题

  php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  Snoopy是一个php采集类,用于模拟浏览器获取网页内容并发送表单。
  以下是史努比的一些功能:
  易于抓取网页内容
  轻松抓取页面文字(去除HTML标签)
  易于抓取网页内的链接
  支持代理爬取
  支持基本用户名密码认证
  支持设置 user-agent、referer、cookies 和 header 内容
  支持浏览器转向,控制转向深度
  可以将页面上的链接转化为高质量的链接
  轻松提交数据并获取返回值
  能够跟踪 HTML 框架
  支持在重定向时传递 cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法。$URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this-&gt;results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this-&gt;results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 要连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(真的)
  $expandlinks 是否完成所有链接以完成地址(true)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  Snoopy是一个php采集类,用于模拟浏览器获取网页内容并发送表单。
  以下是史努比的一些功能:
  易于抓取网页内容
  轻松抓取页面文字(去除HTML标签)
  易于抓取网页内的链接
  支持代理爬取
  支持基本用户名密码认证
  支持设置 user-agent、referer、cookies 和 header 内容
  支持浏览器转向,控制转向深度
  可以将页面上的链接转化为高质量的链接
  轻松提交数据并获取返回值
  能够跟踪 HTML 框架
  支持在重定向时传递 cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法。$URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this-&gt;results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this-&gt;results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 要连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(真的)
  $expandlinks 是否完成所有链接以完成地址(true)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 36 次浏览 • 2021-12-08 02:24 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ————
  这是用于抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ————
  这是用于抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))

网站优化优采云 发表了文章 • 0 个评论 • 42 次浏览 • 2021-11-28 16:14 • 来自相关话题

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  获取网页的内容,$URI为要抓取的网页的网址,获取的结果存放在$this->results中。如果抓取一帧,每一帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回的是文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  获取网页的内容,$URI为要抓取的网页的网址,获取的结果存放在$this->results中。如果抓取一帧,每一帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回的是文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)

网站优化优采云 发表了文章 • 0 个评论 • 51 次浏览 • 2021-11-24 06:22 • 来自相关话题

  php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。 Snoopy 要求您服务器的 PHP 版本在 4.0 以上,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持基本的 LAMP 服务。史努比分类下载地址为:
  一、史努比的一些特点:
  1.抓取网页抓取的内容
  2.获取网页的文本内容(去除HTML标签)fetchtext
  3.获取网页链接,表单获取链接获取表单
  4.支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11. 支持重定向时cookie的传输,php4以上就可以了。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、类方法:
  获取($URI)
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如有 查看全部

  php抓取网页snoopy(Snoopy类的下载地址和下载类下载方法汇总)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。 Snoopy 要求您服务器的 PHP 版本在 4.0 以上,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持基本的 LAMP 服务。史努比分类下载地址为:
  一、史努比的一些特点:
  1.抓取网页抓取的内容
  2.获取网页的文本内容(去除HTML标签)fetchtext
  3.获取网页链接,表单获取链接获取表单
  4.支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11. 支持重定向时cookie的传输,php4以上就可以了。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、类方法:
  获取($URI)
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如有

php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 56 次浏览 • 2021-11-17 16:09 • 来自相关话题

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(网页版地址绿色版zend解密工具下载(zend))

网站优化优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2021-11-16 10:07 • 来自相关话题

  php抓取网页snoopy(网页版地址绿色版zend解密工具下载(zend))
  magpierss用的是史努比,让我对研究这个东东有点兴趣。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗……最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载
  总结:zend解密phpzend我们是专业的搭配ZendEncoder/SafeGuard、ionCube、Sourc...
  Zend解密phpzend
  我们是专业的网站,可以破解使用 ZendEncoder/SafeGuard、ionCube、SourceGuardian、phpcipher、codelock 或 SourceCop 加密的 PHP 文件。它主要使用密码分析、解压和反编译技术将过去的PHP文件编码/加密恢复为可读可执行的PHP源文件。
  网址
  zend解密工具绿色版下载
  MyIASM 是 IASM 表的新版本,具有以下扩展:
  二进制级别的可移植性。
  NULL 列索引。
  与 ISAM 表相比,可变长度行的碎片更少。
  支持大文件。
  更好的索引压缩。
  更好的密钥统计分布。
  更好更快的 auto_increment 处理。
  下面是一些细节和具体的实现差异:
  1.InnoDB 不支持 FULLTEXT 类型索引。
  2.InnoDB 并没有保存表的具体行数,即在执行 selectcount(*)fromtable 时,InnoDB 会扫描整个表来计算有多少行,而 MyISAM 只是简单的读取保存的行数而已数数。注意当count(*)语句收录where条件时,两个表的操作是一样的。
  3. 对于 AUTO_INCREMENT 类型的字段,InnoDB 必须收录一个仅收录该字段的索引,但在 MyISAM 表中,可以与其他字段一起构建联合索引。
  4.DELETEFROMtable,InnoDB 不会重新创建表,而是逐行删除。
  5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决办法是先把InnoDB表改成MyISAM表,导入数据后再改成InnoDB表,但是对于使用额外的InnoDB特性(比如外键)的表不适用。
  另外,InnoDB 表的行锁不是绝对的。如果 MySQL 在执行 SQL 语句时无法确定要扫描的范围,则 InnoDB 表也会锁定整个表,例如 updatetablesetnum=1wherenamelike "%aaa%"
  任何一种桌子都不是万能的。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。 查看全部

  php抓取网页snoopy(网页版地址绿色版zend解密工具下载(zend))
  magpierss用的是史努比,让我对研究这个东东有点兴趣。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗……最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载
  总结:zend解密phpzend我们是专业的搭配ZendEncoder/SafeGuard、ionCube、Sourc...
  Zend解密phpzend
  我们是专业的网站,可以破解使用 ZendEncoder/SafeGuard、ionCube、SourceGuardian、phpcipher、codelock 或 SourceCop 加密的 PHP 文件。它主要使用密码分析、解压和反编译技术将过去的PHP文件编码/加密恢复为可读可执行的PHP源文件。
  网址
  zend解密工具绿色版下载
  MyIASM 是 IASM 表的新版本,具有以下扩展:
  二进制级别的可移植性。
  NULL 列索引。
  与 ISAM 表相比,可变长度行的碎片更少。
  支持大文件。
  更好的索引压缩。
  更好的密钥统计分布。
  更好更快的 auto_increment 处理。
  下面是一些细节和具体的实现差异:
  1.InnoDB 不支持 FULLTEXT 类型索引。
  2.InnoDB 并没有保存表的具体行数,即在执行 selectcount(*)fromtable 时,InnoDB 会扫描整个表来计算有多少行,而 MyISAM 只是简单的读取保存的行数而已数数。注意当count(*)语句收录where条件时,两个表的操作是一样的。
  3. 对于 AUTO_INCREMENT 类型的字段,InnoDB 必须收录一个仅收录该字段的索引,但在 MyISAM 表中,可以与其他字段一起构建联合索引。
  4.DELETEFROMtable,InnoDB 不会重新创建表,而是逐行删除。
  5.LOADTABLEFROMMASTER 操作不适用于 InnoDB。解决办法是先把InnoDB表改成MyISAM表,导入数据后再改成InnoDB表,但是对于使用额外的InnoDB特性(比如外键)的表不适用。
  另外,InnoDB 表的行锁不是绝对的。如果 MySQL 在执行 SQL 语句时无法确定要扫描的范围,则 InnoDB 表也会锁定整个表,例如 updatetablesetnum=1wherenamelike "%aaa%"
  任何一种桌子都不是万能的。只有为业务类型选择合适的表类型,才能最大限度地发挥MySQL的性能优势。

php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2021-11-08 19:13 • 来自相关话题

  php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)
  本文文章主要介绍php的Snoopy类案例讲解。本文文章通过一个简单的案例来解释对这项技术的理解和使用。以下是详细内容。有需要的朋友可以参考。
  用于 php 的史努比类
  要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有的文本信息,使用fetchtext(还是用正则表达式处理),还有很多其他的功能,比如模拟提交表单。
  指示:
  1、 首先下载史努比类,下载地址:
  2、先实例化一个对象,然后调用对应的方法获取爬取的网页信息
  例子:
   include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;
  不提供获取网页中所有图片地址的方法。它自身的需求之一是获取页面上文章列表中的所有图片地址。然后我自己写了一个,主要是因为常规比赛很重要。
   //匹配图片的正则表达式 $reTag = "//i";
  由于特殊需要,只需要抓取htp://开头的图片(外网的图片可能是防盗的,我想先抓取本地的)
  实现思路:
  1、抓取指定网页,过滤掉所有预期的文章地址;
  2、循环抓取第一步中的文章地址,然后使用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
  3、 根据图片后缀和ID保存图片(这里只有gif,jpg)---如果这个图片文件存在,先删除再保存
<p> 查看全部

  php抓取网页snoopy(,本篇文章通过简要的案例,讲解了该项技术)
  本文文章主要介绍php的Snoopy类案例讲解。本文文章通过一个简单的案例来解释对这项技术的理解和使用。以下是详细内容。有需要的朋友可以参考。
  用于 php 的史努比类
  要获取请求网页中的所有链接,可以直接使用 fetchlinks。获取所有的文本信息,使用fetchtext(还是用正则表达式处理),还有很多其他的功能,比如模拟提交表单。
  指示:
  1、 首先下载史努比类,下载地址:
  2、先实例化一个对象,然后调用对应的方法获取爬取的网页信息
  例子:
   include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx"; $snoopy->fetchlinks($sourceURL); $a = $snoopy->results;
  不提供获取网页中所有图片地址的方法。它自身的需求之一是获取页面上文章列表中的所有图片地址。然后我自己写了一个,主要是因为常规比赛很重要。
   //匹配图片的正则表达式 $reTag = "//i";
  由于特殊需要,只需要抓取htp://开头的图片(外网的图片可能是防盗的,我想先抓取本地的)
  实现思路:
  1、抓取指定网页,过滤掉所有预期的文章地址;
  2、循环抓取第一步中的文章地址,然后使用匹配图片的正则表达式进行匹配,得到页面中所有符合规则的图片地址;
  3、 根据图片后缀和ID保存图片(这里只有gif,jpg)---如果这个图片文件存在,先删除再保存
<p>

php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)

网站优化优采云 发表了文章 • 0 个评论 • 65 次浏览 • 2021-11-07 06:20 • 来自相关话题

  php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
  在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。
  一、 使用 Snoopy.class.php 抓取页面
  一个很可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。
  1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院的信息内容,如下图:
  2) 我自然是复制了URL地址,使用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,供以后分析使用。
  
  $snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo &#39;success&#39;;
  
  3) 奇怪的是,返回的内容不是国家内容,而是与上海相关的内容。
  4) 怀疑里面可能设置了cookie,然后用firebug查看了一下,果然有惊人的内幕
  5) 在请求中放入cookie的值,并添加设置语句$snoopy-&gt;cookies["_area_"],情况大不相同,顺利返回国家信息。
  $snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = &#39;{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}&#39;;
for($i = 1; $i results;
}
  2)使用phpQuery获取节点信息,如下DOM结构所示:
  使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
  
  for($i = 1; $i attr(&#39;href&#39;)); //医院详情
}
}
  
  3)根据读取到的URL地址列表,抓取指定页面。
  
  $detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
  
  FQ工具下载:
  克服障碍.rar
  演示下载:
  史努比类的一些说明:
  类方法
  获取($URI)
  这是用于抓取网页内容的方法。
  $URI 参数是被爬取的网页的 URL 地址。
  获取的结果存储在 $this-&gt;results 中。
  如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this-&gt;results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性
  $host
  连接主机
  $端口
  连接端口
  $proxy_host
  使用的代理主机(如果有)
  $proxy_port
  使用的代理主机端口(如果有)
  $代理
  用户代理伪装(史努比 v0.1)
  $referer
  信息,如果有
  $cookies
  饼干,如果有的话
  $rawheaders
  其他标题信息,如果有的话
  $maxredirs
  最大重定向次数,0=不允许 (5)
  $offsiteok
  是否允许异地重定向。(真的)
  $expandlinks
  是否完成所有链接完成地址(true)
  $用户
  身份验证用户名(如果有)
  $pass
  身份验证用户名(如果有)
  $接受
  http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
  $错误
  在哪里报告错误,如果有的话
  $response_code
  服务器返回的响应码
  $headers
  服务器返回的头部信息
  $最大长度
  最大返回数据长度
  $read_timeout
  读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示没有超时
  $timed_out
  如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
  $maxframes
  允许跟踪的最大帧数
  $状态 查看全部

  php抓取网页snoopy(php.ini中的max_execution设置设置的大点软件)
  在进行爬取之前,记得把php.ini中的max_execution_time设置为较大的值,否则会报错。
  一、 使用 Snoopy.class.php 抓取页面
  一个很可爱的类名。功能也很强大,用来模拟浏览器的功能,可以获取网页内容,发送表单等等。
  1)我要抓取网站的一个列表页的内容,我要抓取的是全国医院的信息内容,如下图:
  2) 我自然是复制了URL地址,使用Snoopy类抓取前10页的内容,并将内容放到本地,在本地创建一个html文件,供以后分析使用。
  
  $snoopy=new Snoopy();
//医院list页面
for($i = 1; $i fetch($url);
file_put_contents("web/page/$i.html", $snoopy->results);
}
echo &#39;success&#39;;
  
  3) 奇怪的是,返回的内容不是国家内容,而是与上海相关的内容。
  4) 怀疑里面可能设置了cookie,然后用firebug查看了一下,果然有惊人的内幕
  5) 在请求中放入cookie的值,并添加设置语句$snoopy-&gt;cookies["_area_"],情况大不相同,顺利返回国家信息。
  $snoopy=new Snoopy();
//医院list页面
$snoopy->cookies["_area_"] = &#39;{"provinceId":"all","provinceName":"全国","cityId":"all","cityName":"不限"}&#39;;
for($i = 1; $i results;
}
  2)使用phpQuery获取节点信息,如下DOM结构所示:
  使用一些phpQuery方法,结合DOM结构读取各个医院信息的URL地址。
  
  for($i = 1; $i attr(&#39;href&#39;)); //医院详情
}
}
  
  3)根据读取到的URL地址列表,抓取指定页面。
  
  $detailIndex = 1;
for($i = 1; $i results);
$detailIndex++;
}
}
  
  FQ工具下载:
  克服障碍.rar
  演示下载:
  史努比类的一些说明:
  类方法
  获取($URI)
  这是用于抓取网页内容的方法。
  $URI 参数是被爬取的网页的 URL 地址。
  获取的结果存储在 $this-&gt;results 中。
  如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this-&gt;results 中。
  获取文本($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  获取链接($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  提交($URI,$formvars)
  此方法向 $URL 指定的链接地址发送确认表单。$formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,并且只返回登录后网页中的文本内容。
  提交链接($URI)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接将自动完成并转换为完整的 URL。
  类属性
  $host
  连接主机
  $端口
  连接端口
  $proxy_host
  使用的代理主机(如果有)
  $proxy_port
  使用的代理主机端口(如果有)
  $代理
  用户代理伪装(史努比 v0.1)
  $referer
  信息,如果有
  $cookies
  饼干,如果有的话
  $rawheaders
  其他标题信息,如果有的话
  $maxredirs
  最大重定向次数,0=不允许 (5)
  $offsiteok
  是否允许异地重定向。(真的)
  $expandlinks
  是否完成所有链接完成地址(true)
  $用户
  身份验证用户名(如果有)
  $pass
  身份验证用户名(如果有)
  $接受
  http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
  $错误
  在哪里报告错误,如果有的话
  $response_code
  服务器返回的响应码
  $headers
  服务器返回的头部信息
  $最大长度
  最大返回数据长度
  $read_timeout
  读取操作超时(需要 PHP 4 Beta 4+),设置为 0 表示没有超时
  $timed_out
  如果读取操作超时,则此属性返回 true(需要 PHP 4 Beta 4+)
  $maxframes
  允许跟踪的最大帧数
  $状态

php抓取网页snoopy( PHP补充资料:以上实现过程是建于ThinkPHP框架的基础之的 )

网站优化优采云 发表了文章 • 0 个评论 • 110 次浏览 • 2021-11-06 13:14 • 来自相关话题

  php抓取网页snoopy(
PHP补充资料:以上实现过程是建于ThinkPHP框架的基础之的
)
  class IndexAction extends Action
{
function index()
{
/**
+----------------------------------------------------------
* 获取网页的meta信息
+----------------------------------------------------------
* Snoopy.class.php
+----------------------------------------------------------
* http://snoopy.sourceforge.net/
+----------------------------------------------------------
* Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
+----------------------------------------------------------
*/
header("Content-Type:text/html; charset=".C('OUTPUT_CHARSET'));
import('@.Util.Snoopy');
$get_data_www = new Snoopy;
if( $get_data_www->fetch('http://www.imyike.com/') ){
$contents = $get_data_www->results;
while(list($key,$val) = each($get_data_www->headers))
echo $key.": ".$val."<br />n";
preg_match('/]*?content=["']?text/html;?[s]*charset=?([^>'"/]*)["']?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) > 0)
{
$charset = $match[1];
}
dump($charset);
preg_match('/([^>]*)/si', $contents, $match );
if (isset($match) && is_array($match) && count($match) > 0)
{
$title = strip_tags($match[1]);
}
dump($title);
preg_match_all('/"]*)"?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) == 3)
{
$originals = $match[0];
$names = $match[1];
$values = $match[2];
if (count($originals) == count($names) && count($names) == count($values))
{
$metaTags = array();
for ($i=0, $limiti=count($names); $i < $limiti; $i++)
{
$metaTags[$names[$i]] = $values[$i];
}
dump($metaTags);
}
}
}
}
}
  补充资料:
  以上实现过程基于ThinkPHP框架。内容首次发布于:%3D1
  关于 Snoopy.class.php 的一些信息:
  说明:
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持重定向时传递 cookie(v0.92 增加)
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  fetch($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  submit($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  submittext($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  submitlinks($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies, 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)
设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false 查看全部

  php抓取网页snoopy(
PHP补充资料:以上实现过程是建于ThinkPHP框架的基础之的
)
  class IndexAction extends Action
{
function index()
{
/**
+----------------------------------------------------------
* 获取网页的meta信息
+----------------------------------------------------------
* Snoopy.class.php
+----------------------------------------------------------
* http://snoopy.sourceforge.net/
+----------------------------------------------------------
* Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。
+----------------------------------------------------------
*/
header("Content-Type:text/html; charset=".C('OUTPUT_CHARSET'));
import('@.Util.Snoopy');
$get_data_www = new Snoopy;
if( $get_data_www->fetch('http://www.imyike.com/') ){
$contents = $get_data_www->results;
while(list($key,$val) = each($get_data_www->headers))
echo $key.": ".$val."<br />n";
preg_match('/]*?content=["']?text/html;?[s]*charset=?([^>'"/]*)["']?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) > 0)
{
$charset = $match[1];
}
dump($charset);
preg_match('/([^>]*)/si', $contents, $match );
if (isset($match) && is_array($match) && count($match) > 0)
{
$title = strip_tags($match[1]);
}
dump($title);
preg_match_all('/"]*)"?[s]*[/]?[s]*>/si', $contents, $match);
if (isset($match) && is_array($match) && count($match) == 3)
{
$originals = $match[0];
$names = $match[1];
$values = $match[2];
if (count($originals) == count($names) && count($names) == count($values))
{
$metaTags = array();
for ($i=0, $limiti=count($names); $i < $limiti; $i++)
{
$metaTags[$names[$i]] = $values[$i];
}
dump($metaTags);
}
}
}
}
}
  补充资料:
  以上实现过程基于ThinkPHP框架。内容首次发布于:%3D1
  关于 Snoopy.class.php 的一些信息:
  说明:
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持重定向时传递 cookie(v0.92 增加)
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  fetch($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  submit($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  submittext($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  submitlinks($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies cookies, 如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数, 0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+)
设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2021-11-05 15:05 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持在重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持在重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类使用教程的使用方法及示例:)

网站优化优采云 发表了文章 • 0 个评论 • 65 次浏览 • 2021-11-05 07:00 • 来自相关话题

  php抓取网页snoopy(php一个类使用教程的使用方法及示例:)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  需要php4以上,因为是php的一个类,不需要扩展支持服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(Snoopyv0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否ornottoallowredirectsoff-site.(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话
  $accept http 接受类型 (image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
  $error 在哪里报告,如果有的话
  $response_code 服务器返回的响应码
  服务器返回的$headers头信息
  $maxlength 最长返回数据长度
  $read_timeout 读操作超时(需要PHP4Beta4+)设置为0表示无超时
  $timed_out 如果读操作超时,该属性返回真(需要PHP4Beta4+)
  $maxframes 允许跟踪的最大帧数
  $status 抓取到的http状态
  $temp_dir Web 服务器可以写入的临时文件目录(/tmp)
  $curl_path cURLbinary 目录,如果没有 cURLbinary,设置为 false
  以下是一个例子:
  include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "80";

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.9it.me";

$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";

$snoopy->rawheaders["Pragma"] = "no-cache";

$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;

$snoopy->user = "joe";
$snoopy->pass = "bloe";

if($snoopy->fetchtext("http://www.9it.me"))
{
echo "".htmlspecialchars($snoopy->results)."
  \n";} else echo "error fetching document: ".$snoopy->error."\n";
  获取指定url的内容
  表单提交
  既然已经提交了表单,就可以做很多事情了。接下来,让我们伪装ip,伪装浏览器。
  伪装浏览器
  原来我们可以假装session假装浏览器,假装ip,哈哈可以做很多事情。
  比如用验证码,验证ip投票,可以连续投票。
  ps:这里伪装ip其实就是伪装http头,所以一般通过REMOTE_ADDR获取的IP是不能伪装的, 查看全部

  php抓取网页snoopy(php一个类使用教程的使用方法及示例:)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  需要php4以上,因为是php的一个类,不需要扩展支持服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(Snoopyv0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否ornottoallowredirectsoff-site.(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话
  $accept http 接受类型 (image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
  $error 在哪里报告,如果有的话
  $response_code 服务器返回的响应码
  服务器返回的$headers头信息
  $maxlength 最长返回数据长度
  $read_timeout 读操作超时(需要PHP4Beta4+)设置为0表示无超时
  $timed_out 如果读操作超时,该属性返回真(需要PHP4Beta4+)
  $maxframes 允许跟踪的最大帧数
  $status 抓取到的http状态
  $temp_dir Web 服务器可以写入的临时文件目录(/tmp)
  $curl_path cURLbinary 目录,如果没有 cURLbinary,设置为 false
  以下是一个例子:
  include "Snoopy.class.php";
$snoopy = new Snoopy;

$snoopy->proxy_host = "http://www.9it.me";
$snoopy->proxy_port = "80";

$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.9it.me";

$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";

$snoopy->rawheaders["Pragma"] = "no-cache";

$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;

$snoopy->user = "joe";
$snoopy->pass = "bloe";

if($snoopy->fetchtext("http://www.9it.me";))
{
echo "".htmlspecialchars($snoopy->results)."
  \n";} else echo "error fetching document: ".$snoopy->error."\n";
  获取指定url的内容
  表单提交
  既然已经提交了表单,就可以做很多事情了。接下来,让我们伪装ip,伪装浏览器。
  伪装浏览器
  原来我们可以假装session假装浏览器,假装ip,哈哈可以做很多事情。
  比如用验证码,验证ip投票,可以连续投票。
  ps:这里伪装ip其实就是伪装http头,所以一般通过REMOTE_ADDR获取的IP是不能伪装的,

php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 56 次浏览 • 2021-11-04 21:04 • 来自相关话题

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(snoopy的使用教程-Snoopy的特点:snoopy使用方法)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,这个文章详细介绍snoopy使用教程。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(:Snoopy是什么?的特点:方便抓取网页)

网站优化优采云 发表了文章 • 0 个评论 • 48 次浏览 • 2021-11-02 02:02 • 来自相关话题

  php抓取网页snoopy(:Snoopy是什么?的特点:方便抓取网页)
  内容
  []
  当你使用php并且想做一些采集任务时,那么你应该了解snoopy。
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持再次重定向时传递 cookie(v0.92 增加)
  * 支持再次重定向时传递cookie
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(:Snoopy是什么?的特点:方便抓取网页)
  内容
  []
  当你使用php并且想做一些采集任务时,那么你应该了解snoopy。
  史努比是什么?
  Snoopy 是一个 php 类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  史努比的一些特点:
  * 方便抓取网页内容
  * 方便抓取网页文字内容(去除HTML标签)
  * 方便抓取网页链接
  * 支持代理主机
  * 支持基本的用户名/密码验证
  * 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  * 支持浏览器转向,可控制转向深度
  * 可以将网页中的链接扩展为高质量的url(默认)
  * 方便提交数据和获取返回值
  * 支持跟踪 HTML 框架(v0.92 添加)
  * 支持再次重定向时传递 cookie(v0.92 增加)
  * 支持再次重定向时传递cookie
  要求:
  史努比需要 PHP 和 PCRE(Perl 兼容正则表达式),
  应该是 PHP 3.0.9 及更高版本。对于读取超时支持,它需要
  PHP 4 Beta 4 或更高版本。史努比是用 PHP 3.0.12.
  开发和测试的
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 92 次浏览 • 2021-10-29 19:03 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 获取网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))

网站优化优采云 发表了文章 • 0 个评论 • 101 次浏览 • 2021-10-27 06:04 • 来自相关话题

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  抓取网页的内容,$URI为要抓取的网页的网址,抓取的结果存放在$this->results中。如果抓取一帧,会抓取每一帧,并将结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(就是一个PHP类-抓取网页的内容(Snoopy.1))
  Snoopy 实际上是一个 PHP class-grab 采集 类,它可以完成抓取网页内容和发送表单的任务。
  要求:PHP4以上是PHP的一类,不需要扩展支持,不支持curl的服务器都可以使用。
  官网(下载):
  主要功能
  获取网页内容(fetch)
  获取网页的文本内容(去除HTML标签)(fetchtext)
  获取网页的链接和表单(fetchlinks fetchform)
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  接口或方法
  获取($URI)
  抓取网页的内容,$URI为要抓取的网页的网址,抓取的结果存放在$this->results中。如果抓取一帧,会抓取每一帧,并将结果保存在一个数组中。
  fetchtext($URI)
  与 fetch() 类似,只是它的结果是文本,不包括 HTML 标签和其他无关信息。
  fetchform($URI)
  只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  向指定的 $URI 提交表单。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  返回的是一个链接。
  史努比采集类属性(史努比.class.php)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy抓取网页的文本内容(去除HTML标签)(组图))

网站优化优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2021-10-19 23:16 • 来自相关话题

  php抓取网页snoopy(Snoopy抓取网页的文本内容(去除HTML标签)(组图))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1. 获取网页内容
  2. 获取网页的文本内容(去除HTML标签)fetchtext
  3. 获取网页链接,表单 fetchlinks fetchform
  4. 支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8. 可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(Snoopy抓取网页的文本内容(去除HTML标签)(组图))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1. 获取网页内容
  2. 获取网页的文本内容(去除HTML标签)fetchtext
  3. 获取网页链接,表单 fetchlinks fetchform
  4. 支持代理主机
  5.支持基本的用户名/密码验证
  6.支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7.支持浏览器重定向并控制重定向深度
  8. 可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

网站优化优采云 发表了文章 • 0 个评论 • 72 次浏览 • 2021-10-15 21:29 • 来自相关话题

  php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序。
  史努比的一些特点:
  抓取网页内容抓取
  获取网页的文本内容(去除HTML标签)fetchtext
  获取网页链接,表单 fetchlinks fetchform
  支持代理主机
  支持基本的用户名/密码验证
  支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量的网址(默认)
  提交数据并获取返回值
  支持跟踪 HTML 框架
  支持重定向时传递cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  史努比类方法和示例:
  获取($URI)
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  Snoopy采集Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies(如果有)
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)

网站优化优采云 发表了文章 • 0 个评论 • 49 次浏览 • 2021-10-13 16:09 • 来自相关话题

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  php抓取网页snoopy(php一个类无需扩支持服务器的特点及下载地址介绍)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  下载链接:
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

php抓取网页snoopy(一个简单的java爬虫产品试验时的保存方式分析)

网站优化优采云 发表了文章 • 0 个评论 • 75 次浏览 • 2021-10-09 02:23 • 来自相关话题

  php抓取网页snoopy(一个简单的java爬虫产品试验时的保存方式分析)
  一个简单的java爬虫产品
  最近在研究爬虫和Lucene。虽然我决定使用 Heritrix 来进行爬取操作,但我发现它仍然存在一些问题。比如需要程序生成相应的XML文件。同一份工作,如何保证重复操作?作业的文件夹总是相同(Heritrix为作业创建的文件夹是“作业名称-时间戳”)等等,都是需要考虑的问题,最终搁浅。后来google了一下,找到了一个简单的爬虫程序代码(),然后试了一下,发现确实可以获取到网页的内容。还是要感谢代码提供者——Jack.Wang。虽然测试成功,但在后续的大数据量测试中仍然存在问题。在最初的实验中,我只是让程序抓取 10 个 URL 链接。当我把网址链接数改为100的时候,问题就出现了——网址有重复,很容易变成死循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。
  虽然我现在加了这个判断,但从我运行程序的效果来看,并不理想。总感觉有点慢。爬取 800 页需要一两分钟。我觉得这有点不合理。使用这个产品,我遇到了这么几种情况,有的和大家分享,有的请教大家。1.创建索引时,需要将网页的URL和内容传递给对应的方法。当然,URL 和内容必须相对应。可能是经验太少了。我采用了构造一个JavaBean的方法来传递。不知道你有没有更好的办法。2.保存要索引的内容最初的想法不是创建文件,而是直接将内容保存到Variables中,然后创建索引,即先抓取网页的内容,然后将网页的内容和网址保存到自己构建的JavaBean对象中,然后将该对象放入一个列表列表中,等待所有的网页都被抓取完毕,将该列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。
  原来公司的网站是用GB2312编码做的一个页面,现在用的是UTF-8编码。虽然已经判断了页面的编码,但是还是不能解决保存文件中中文乱码的问题。我不认识每个人。有什么好办法吗?报错信息为:java.io.UnsupportedEncodingException 附上爬虫代码
  现在就下载 查看全部

  php抓取网页snoopy(一个简单的java爬虫产品试验时的保存方式分析)
  一个简单的java爬虫产品
  最近在研究爬虫和Lucene。虽然我决定使用 Heritrix 来进行爬取操作,但我发现它仍然存在一些问题。比如需要程序生成相应的XML文件。同一份工作,如何保证重复操作?作业的文件夹总是相同(Heritrix为作业创建的文件夹是“作业名称-时间戳”)等等,都是需要考虑的问题,最终搁浅。后来google了一下,找到了一个简单的爬虫程序代码(),然后试了一下,发现确实可以获取到网页的内容。还是要感谢代码提供者——Jack.Wang。虽然测试成功,但在后续的大数据量测试中仍然存在问题。在最初的实验中,我只是让程序抓取 10 个 URL 链接。当我把网址链接数改为100的时候,问题就出现了——网址有重复,很容易变成死循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。并且很容易成为无限循环。比如我第一次抓取A.html,A.html中有两个链接:B.html,C.html,我抓取A.html后,程序会抓取B.html,这个如果有链接到B.html 中的所有链接中的页面 A.html,然后程序将再次抓取页面 A.html,从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。从而形成一个永远无法停止的死循环。跟踪程序发现,原来已经爬取过的网址没有从要爬取的网页的链接列表中删除,造成死循环。
  虽然我现在加了这个判断,但从我运行程序的效果来看,并不理想。总感觉有点慢。爬取 800 页需要一两分钟。我觉得这有点不合理。使用这个产品,我遇到了这么几种情况,有的和大家分享,有的请教大家。1.创建索引时,需要将网页的URL和内容传递给对应的方法。当然,URL 和内容必须相对应。可能是经验太少了。我采用了构造一个JavaBean的方法来传递。不知道你有没有更好的办法。2.保存要索引的内容最初的想法不是创建文件,而是直接将内容保存到Variables中,然后创建索引,即先抓取网页的内容,然后将网页的内容和网址保存到自己构建的JavaBean对象中,然后将该对象放入一个列表列表中,等待所有的网页都被抓取完毕,将该列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。然后把这个对象放到一个列表列表中,等待所有的网页都被抓取,把这个列表传递给创建索引的方法。这种方式看似不错,但是当url数量较多时,会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。会造成内存不足,所以创建文件比较安全。3.碰巧遇到这个关于网页编码问题的问题。本来,我抢了一位顾客网站。后来同事说如果客户看访问日志,这个月的数据就是平时的数据。不一样的,所以我抓了公司的网站,结果,问题出现了。
  原来公司的网站是用GB2312编码做的一个页面,现在用的是UTF-8编码。虽然已经判断了页面的编码,但是还是不能解决保存文件中中文乱码的问题。我不认识每个人。有什么好办法吗?报错信息为:java.io.UnsupportedEncodingException 附上爬虫代码
  现在就下载

官方客服QQ群

微信人工客服

QQ人工客服


线