snoopy php网页抓取工具

snoopy php网页抓取工具

snoopy php网页抓取工具( 老是/php/Snoopy.gz本地下载类类特征)

网站优化优采云 发表了文章 • 0 个评论 • 77 次浏览 • 2021-10-04 18:04 • 来自相关话题

  snoopy php网页抓取工具(
老是/php/Snoopy.gz本地下载类类特征)
  snoopy PHP 版网页客户端提供本地下载
  更新时间:2008-04-15 21:29:47 作者:
  Snoopy是一个很好的仿网络客户端的php类,但是本地下载很少,国外下载又麻烦又慢,所以弄了这个网站给大家下载
  magpierss中用的是史努比,让我有点兴趣研究这个东东。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗...最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载 查看全部

  snoopy php网页抓取工具(
老是/php/Snoopy.gz本地下载类类特征)
  snoopy PHP 版网页客户端提供本地下载
  更新时间:2008-04-15 21:29:47 作者:
  Snoopy是一个很好的仿网络客户端的php类,但是本地下载很少,国外下载又麻烦又慢,所以弄了这个网站给大家下载
  magpierss中用的是史努比,让我有点兴趣研究这个东东。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗...最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载

snoopy php网页抓取工具(详细介绍Snoopy.php的特点和一些常见的用法介绍)

网站优化优采云 发表了文章 • 0 个评论 • 79 次浏览 • 2021-10-03 15:19 • 来自相关话题

  snoopy php网页抓取工具(详细介绍Snoopy.php的特点和一些常见的用法介绍)
  Snoopy是一个非常强大的PHP类,可以用来模拟浏览器来完成获取网页内容和发送表单的任务。下面详细介绍snoopy.class.php的特性和一些常见用法
  官方网站:
  下载地址:
  下载地址:PHP采集Library snoopy.class.PHP下载
  以下是Snoopy的一些功能:
  1、抓取网页内容
  2、抓取网页的文本内容(删除HTML标记)获取文本
  3、从网页获取链接,表单获取链接获取表单
  4、支持代理主机
  5、支持基本用户名/密码身份验证
  6、支持设置用户代理、引用、cookie和标题内容
  7、支持浏览器重定向,并可以控制重定向深度
  8、可以将网页中的链接扩展为高质量URL(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架(添加了V0.92)
  1当支持重定向时,会传递cookie
  注意:使用snoopy.class.php需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  以下是一些常见的类方法:
  获取($URI)
  这是一种用于抓取网页内容的方法。$URI参数是已爬网网页的URL地址,爬网结果存储在$This->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有) 查看全部

  snoopy php网页抓取工具(详细介绍Snoopy.php的特点和一些常见的用法介绍)
  Snoopy是一个非常强大的PHP类,可以用来模拟浏览器来完成获取网页内容和发送表单的任务。下面详细介绍snoopy.class.php的特性和一些常见用法
  官方网站:
  下载地址:
  下载地址:PHP采集Library snoopy.class.PHP下载
  以下是Snoopy的一些功能:
  1、抓取网页内容
  2、抓取网页的文本内容(删除HTML标记)获取文本
  3、从网页获取链接,表单获取链接获取表单
  4、支持代理主机
  5、支持基本用户名/密码身份验证
  6、支持设置用户代理、引用、cookie和标题内容
  7、支持浏览器重定向,并可以控制重定向深度
  8、可以将网页中的链接扩展为高质量URL(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架(添加了V0.92)
  1当支持重定向时,会传递cookie
  注意:使用snoopy.class.php需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  以下是一些常见的类方法:
  获取($URI)
  这是一种用于抓取网页内容的方法。$URI参数是已爬网网页的URL地址,爬网结果存储在$This->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有)

snoopy php网页抓取工具(php一个类方法($uri)的功能特点 )

网站优化优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2021-10-03 15:16 • 来自相关话题

  snoopy php网页抓取工具(php一个类方法($uri)的功能特点
)
  Snoopy是一个PHP类,用于模拟web浏览器的功能。它可以完成获取网页内容和发送表单的任务
  Snoopy的一些功能特性:
  它需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  类方法1.fetch($URI)
  这是一种用于获取网页内容的方法。$URI参数是网页的URL地址。获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  2.fetchtext($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标记和其他不相关的数据,只返回网页中的文本内容
  3.fetchform($URI)
  此方法类似于fetch()。唯一的区别是,我们删除了HTML标记和其他不相关的数据,只返回网页中的表单内容
  4.fetchlinks($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  5.提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  6.submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是我们删除了HTML标签和其他不相关的数据,只在登录后返回网页中的文本内容
  7.提交链接($URI)
  此方法类似于submit()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  类属性(默认值在括号中)演示
<p> 查看全部

  snoopy php网页抓取工具(php一个类方法($uri)的功能特点
)
  Snoopy是一个PHP类,用于模拟web浏览器的功能。它可以完成获取网页内容和发送表单的任务
  Snoopy的一些功能特性:
  它需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  类方法1.fetch($URI)
  这是一种用于获取网页内容的方法。$URI参数是网页的URL地址。获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  2.fetchtext($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标记和其他不相关的数据,只返回网页中的文本内容
  3.fetchform($URI)
  此方法类似于fetch()。唯一的区别是,我们删除了HTML标记和其他不相关的数据,只返回网页中的表单内容
  4.fetchlinks($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  5.提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  6.submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是我们删除了HTML标签和其他不相关的数据,只在登录后返回网页中的文本内容
  7.提交链接($URI)
  此方法类似于submit()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  类属性(默认值在括号中)演示
<p>

snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)

网站优化优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2021-10-02 17:23 • 来自相关话题

  snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)
  史努比:一个非常强大的PHP类。下面是对snoopy.class.php源文件的详细介绍。Snoopy是一个PHP类,用于模拟浏览器的功能。您可以获取web内容并发送表单。Snoopy的一些功能:抓取网页的内容,抓取网页的文本内容(删除HTML标记),抓取文本,抓取网页的链接,表单fetchlinks fetchform支持设置用户代理、引用者、cookies和headercontent提交数据,并获取返回值10。支持跟踪HTML框架11。支持重定向时,传递cookie需要PHP4或更高。因为它是一个PHP类,所以不需要扩展支持。服务器不支持curl时的最佳选择。Class method:fetch($URI)这是一个用于获取网页内容的方法$URI参数是已爬网网页的URL地址。捕获的结果存储在$this->results中。如果捕获一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后将其存储在$this->results中。Fetchtext($URI)此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  Fetchform($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他无关数据,并且只返回网页中的表单内容(表单)。Fetchlinks($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Submit($URI,$formvars)此方法向$URL指定的链接地址发送确认表单$formvars是存储表单参数的数组。Submittext($URI,$formvars)此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容。SubmitLink($URI)此方法类似于submit()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Class属性:(默认值在括号中)$host connected host$port connected port$proxy\主机使用的代理主机,如果有,$proxy\ port使用代理主机端口。如果有,$agent用户代理伪装(Snoopy V0.1)$referer origin information,如果有,$cookies,如果有,$rawheads其他头信息,如果有,$maxeditors最大重定向,0=否$offsiteokwhere allowereDirections off site.(true)$expandlinks是否完成指向完整地址的所有链接(true)$user authentication user name,如果有,$pass authentication user name,如果有,$accept HTTP accept type(image/GIF,image/x-xbitmap,image/jpeg,image/pjpeg,$error,如果有,$response\u code从服务器返回的响应代码$headers从服务器返回的头信息$MaxLength最大返回数据长度$read\u timeout读取操作超时)(requires PHP设置为0,表示没有超时$timed_out。如果读取操作超时,此属性返回true(需要PHP$maxframes允许跟踪的最大帧数$HTTP捕获状态$temp_dir web服务器可以写入的临时文件目录(/tmp)如果没有curl二进制文件,$curl_path curl binary的目录被设置为false。下面是一个简单的示例。例如,我们抓取我的博客的文本,包括“Snoopy.Class.PHP”newssnoopy echo$Snoopy include“Snoopy.Class.PHP”newssnoopy 查看全部

  snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)
  史努比:一个非常强大的PHP类。下面是对snoopy.class.php源文件的详细介绍。Snoopy是一个PHP类,用于模拟浏览器的功能。您可以获取web内容并发送表单。Snoopy的一些功能:抓取网页的内容,抓取网页的文本内容(删除HTML标记),抓取文本,抓取网页的链接,表单fetchlinks fetchform支持设置用户代理、引用者、cookies和headercontent提交数据,并获取返回值10。支持跟踪HTML框架11。支持重定向时,传递cookie需要PHP4或更高。因为它是一个PHP类,所以不需要扩展支持。服务器不支持curl时的最佳选择。Class method:fetch($URI)这是一个用于获取网页内容的方法$URI参数是已爬网网页的URL地址。捕获的结果存储在$this->results中。如果捕获一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后将其存储在$this->results中。Fetchtext($URI)此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  Fetchform($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他无关数据,并且只返回网页中的表单内容(表单)。Fetchlinks($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Submit($URI,$formvars)此方法向$URL指定的链接地址发送确认表单$formvars是存储表单参数的数组。Submittext($URI,$formvars)此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容。SubmitLink($URI)此方法类似于submit()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Class属性:(默认值在括号中)$host connected host$port connected port$proxy\主机使用的代理主机,如果有,$proxy\ port使用代理主机端口。如果有,$agent用户代理伪装(Snoopy V0.1)$referer origin information,如果有,$cookies,如果有,$rawheads其他头信息,如果有,$maxeditors最大重定向,0=否$offsiteokwhere allowereDirections off site.(true)$expandlinks是否完成指向完整地址的所有链接(true)$user authentication user name,如果有,$pass authentication user name,如果有,$accept HTTP accept type(image/GIF,image/x-xbitmap,image/jpeg,image/pjpeg,$error,如果有,$response\u code从服务器返回的响应代码$headers从服务器返回的头信息$MaxLength最大返回数据长度$read\u timeout读取操作超时)(requires PHP设置为0,表示没有超时$timed_out。如果读取操作超时,此属性返回true(需要PHP$maxframes允许跟踪的最大帧数$HTTP捕获状态$temp_dir web服务器可以写入的临时文件目录(/tmp)如果没有curl二进制文件,$curl_path curl binary的目录被设置为false。下面是一个简单的示例。例如,我们抓取我的博客的文本,包括“Snoopy.Class.PHP”newssnoopy echo$Snoopy include“Snoopy.Class.PHP”newssnoopy

snoopy php网页抓取工具(snoopy()、file_get_contents(.class.phpsnoopy)

网站优化优采云 发表了文章 • 0 个评论 • 67 次浏览 • 2021-09-28 12:24 • 来自相关话题

  snoopy php网页抓取工具(snoopy()、file_get_contents(.class.phpsnoopy)
  curl()、file_get_contents()、snoopy.class.php是采集中用到的三个远程页面爬取工具或工具。它们具有相同的功能。有什么优点和缺点吗?这里一一介绍:
  史努比.class.php
  史努比是用fsockopen自行开发的类。它更高效并且不需要特定于服务器的配置支持。可以在普通的虚拟主机中使用,但是经常会出现问题。官方下载地址:
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  史努比的特点:
  1、获取网页内容
  2、 获取网页的文本内容(去除HTML标签) fetchtext
  3、获取网页链接,表单 fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookies
  需要php4或更高版本,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  随附的:
  史努比中文手册:
  使用示例:
  史努比的缺陷和CURL的威力:
  file_get_contents()
  file_get_contents是fsockopen函数的一个简单封装,效率稍低,但是爬取成功率很高,所以我一般在snoopy有问题的时候做。5.0.0 增加了对context的支持,有了context,他还可以发送header信息,自定义user agent,referer,cookies都不是问题。5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  Curl一般用来抓取网页,二是get或post数据,三是在PHP中实现多线程任务。
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,但是需要开启curl扩展。
  CURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集。
  还支持 Range 的代码:
  $ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.spiegel.de/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);
echo $result;
/**
*But as noted before if the server doesn't honor this header but sends the whole file curl will download all of it. E.g. http://www.php.net ignores the header. But you can (in addition) set a write function callback and abort the request when more data is received, e.g.
* php 5.3+ only
* use function writefn($ch, $chunk) { ... } for earlier versions
*/
$writefn = function($ch, $chunk) {
static $data='';
static $limit = 500; // 500 bytes, it's only a test
$len = strlen($data) + strlen($chunk);
if ($len >= $limit ) {
$data .= substr($chunk, 0, $limit-strlen($data));
echo strlen($data) , ' ', $data;
return -1;
}
$data .= $chunk;
return strlen($chunk);
};
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.php.net/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_WRITEFUNCTION, $writefn);
$result = curl_exec($ch);
curl_close($ch);
  使用教程地址: 查看全部

  snoopy php网页抓取工具(snoopy()、file_get_contents(.class.phpsnoopy)
  curl()、file_get_contents()、snoopy.class.php是采集中用到的三个远程页面爬取工具或工具。它们具有相同的功能。有什么优点和缺点吗?这里一一介绍:
  史努比.class.php
  史努比是用fsockopen自行开发的类。它更高效并且不需要特定于服务器的配置支持。可以在普通的虚拟主机中使用,但是经常会出现问题。官方下载地址:
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  史努比的特点:
  1、获取网页内容
  2、 获取网页的文本内容(去除HTML标签) fetchtext
  3、获取网页链接,表单 fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookies
  需要php4或更高版本,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  随附的:
  史努比中文手册:
  使用示例:
  史努比的缺陷和CURL的威力:
  file_get_contents()
  file_get_contents是fsockopen函数的一个简单封装,效率稍低,但是爬取成功率很高,所以我一般在snoopy有问题的时候做。5.0.0 增加了对context的支持,有了context,他还可以发送header信息,自定义user agent,referer,cookies都不是问题。5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  Curl一般用来抓取网页,二是get或post数据,三是在PHP中实现多线程任务。
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,但是需要开启curl扩展。
  CURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集。
  还支持 Range 的代码:
  $ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.spiegel.de/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);
echo $result;
/**
*But as noted before if the server doesn't honor this header but sends the whole file curl will download all of it. E.g. http://www.php.net ignores the header. But you can (in addition) set a write function callback and abort the request when more data is received, e.g.
* php 5.3+ only
* use function writefn($ch, $chunk) { ... } for earlier versions
*/
$writefn = function($ch, $chunk) {
static $data='';
static $limit = 500; // 500 bytes, it's only a test
$len = strlen($data) + strlen($chunk);
if ($len >= $limit ) {
$data .= substr($chunk, 0, $limit-strlen($data));
echo strlen($data) , ' ', $data;
return -1;
}
$data .= $chunk;
return strlen($chunk);
};
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.php.net/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_WRITEFUNCTION, $writefn);
$result = curl_exec($ch);
curl_close($ch);
  使用教程地址:

snoopy php网页抓取工具(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

网站优化优采云 发表了文章 • 0 个评论 • 68 次浏览 • 2021-09-24 23:08 • 来自相关话题

  snoopy php网页抓取工具(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个PHP类,用于模拟浏览器的功能。它可以获取web内容、发送表单以及开发一些采集程序和小偷程序
  史努比的一些特点:
  获取网页的内容
  抓取网页的文本内容(删除HTML标记)抓取文本
  抓取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本用户名/密码身份验证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量URL(默认)
  提交数据并获取返回值
  支持跟踪HTML框架
  支持重定向时传输cookie
  PHP4或以上就足够了。因为它是一个PHP类,所以不需要扩展来支持它。当服务器不支持curl时,它是最佳选择
  Snoopy类方法和示例:
  获取($URI)
  这是一种用于获取网页内容的方法
  $URI参数是已爬网网页的URL地址
  获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  史努比采集类属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有) 查看全部

  snoopy php网页抓取工具(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个PHP类,用于模拟浏览器的功能。它可以获取web内容、发送表单以及开发一些采集程序和小偷程序
  史努比的一些特点:
  获取网页的内容
  抓取网页的文本内容(删除HTML标记)抓取文本
  抓取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本用户名/密码身份验证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量URL(默认)
  提交数据并获取返回值
  支持跟踪HTML框架
  支持重定向时传输cookie
  PHP4或以上就足够了。因为它是一个PHP类,所以不需要扩展来支持它。当服务器不支持curl时,它是最佳选择
  Snoopy类方法和示例:
  获取($URI)
  这是一种用于获取网页内容的方法
  $URI参数是已爬网网页的URL地址
  获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  史努比采集类属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有)

snoopy php网页抓取工具(php官方网站Snoopy的功能特点及类方法介绍(一) )

网站优化优采云 发表了文章 • 0 个评论 • 84 次浏览 • 2021-09-23 21:17 • 来自相关话题

  snoopy php网页抓取工具(php官方网站Snoopy的功能特点及类方法介绍(一)
)
  snoopy是模仿Web浏览器的功能的PHP类,可以完成获取Web内容并发送表单的任务。官方网站
  Snoopy功能的声音:
  需要php4或更多。由于它是一类PHP,因此无需扩展,服务器不支持卷曲的最佳选择。
  方法
  1. fetch($ uri)
  这是用于捕获网页内容的方法。 $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。
  如果您正在抓取框架,Snoopy将每个框架存储到数组中,然后存入$ this-&gt;结果。
  2. fetchtext($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。
  3. fetchform($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。
  4. fetchlinks($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,仅在网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  5. submit($ uri,$ formvars)
  此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是存储表单个参数的数组。
  6. submittext($ uri,$ formvars)
  此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。
  7. submitlinks($ uri)
  此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  类属性(括号中的默认值)
  演示
  include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn"))
{
echo "".htmlspecialchars($snoopy->results)."
  n“;} elseocho”错误获取文档:“$ snoopy-&gt;错误。” n“;
  获取指定的URL内容:
  表单提交:
  由于已经提交的表格,您可以做很多。接下来我们来伪装IP,迷彩浏览器:
  比较例:
  /**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = &#39;238472834723489&#39;;
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:
";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
  用snoopy类采集:
  完成一个简单的图片
<p> 查看全部

  snoopy php网页抓取工具(php官方网站Snoopy的功能特点及类方法介绍(一)
)
  snoopy是模仿Web浏览器的功能的PHP类,可以完成获取Web内容并发送表单的任务。官方网站
  Snoopy功能的声音:
  需要php4或更多。由于它是一类PHP,因此无需扩展,服务器不支持卷曲的最佳选择。
  方法
  1. fetch($ uri)
  这是用于捕获网页内容的方法。 $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。
  如果您正在抓取框架,Snoopy将每个框架存储到数组中,然后存入$ this-&gt;结果。
  2. fetchtext($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。
  3. fetchform($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。
  4. fetchlinks($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,仅在网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  5. submit($ uri,$ formvars)
  此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是存储表单个参数的数组。
  6. submittext($ uri,$ formvars)
  此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。
  7. submitlinks($ uri)
  此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  类属性(括号中的默认值)
  演示
  include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn";))
{
echo "".htmlspecialchars($snoopy->results)."
  n“;} elseocho”错误获取文档:“$ snoopy-&gt;错误。” n“;
  获取指定的URL内容:
  表单提交:
  由于已经提交的表格,您可以做很多。接下来我们来伪装IP,迷彩浏览器:
  比较例:
  /**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = &#39;238472834723489&#39;;
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com";)){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:

";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
  用snoopy类采集
  完成一个简单的图片
<p>

snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中的功能强大的函数)

网站优化优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2021-09-23 20:04 • 来自相关话题

  snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中的功能强大的函数)
  我们都知道,在PHP语言中,有许多强大的功能来帮助程序员完成各种功能要求。今天我们想介绍史努比的课程是一些PHP知识。
  php class snoopy是什么?
  snoopy是模拟Web浏览器功能的PHP类,它可以检索网页以发送任务的表单和内容。
  snoopy php类的一些功能:
  *轻松获取页面的内容
  *易于获取文本页面(HTML标记删除)
  *轻松获取链接页面
  *支持代理主机
  *支持基本用户名/密码身份验证
  *支持设置user_agent,rioter(原点),cookie和header内容(标题)
  *支持浏览器重定向,并控制重定向深度
  *网页链接可以扩展到高质量的URL(默认)
  *便于提交数据并获取返回值
  *跟踪支持HTML帧(V 0. 92增加)
  *当转向支持重新传输饼干时(v 0. 92增加)
  PHP类Snoopy您的服务器的正确操作需要PHP版本4或以上并支持PCRE(Perl兼容的正则表达式),基本灯泡服务支持。
  它提供以下接口或方法:
  获取($ uri)
  此方法正在爬行Web内容,$ URI是网页的URL爬网,爬过的结果存储在$ this-&gt;结果。如果您抓取该框架,这将爬行每帧,结果将保存到数组。
  fetchtext($ uri)
  此方法和fetch()基本相同,除了结果是文本,HTML标签并删除其他无关信息。
  fetchform($ uri)
  此方法仅返回爬网元素的页面。
  fetchlinks($ uri)
  此方法仅返回页面上的链接以获取,返回默认链接收录指向域名的链接。
  提交($ uri,$ formvars)
  此方法是提交给指定$ uri的表单。 $ formvars是传递形式变量数组。
  submittext($ uri,$ formvars)
  此方法和提交()基本相同,但它返回文本,删除HTML标记和其他无关数据。
  submitlinks($ uri)
  此方法返回链接。
  这些是演示文稿的PHP类史努比整个内容,我们想帮助。 查看全部

  snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中的功能强大的函数)
  我们都知道,在PHP语言中,有许多强大的功能来帮助程序员完成各种功能要求。今天我们想介绍史努比的课程是一些PHP知识。
  php class snoopy是什么?
  snoopy是模拟Web浏览器功能的PHP类,它可以检索网页以发送任务的表单和内容。
  snoopy php类的一些功能:
  *轻松获取页面的内容
  *易于获取文本页面(HTML标记删除)
  *轻松获取链接页面
  *支持代理主机
  *支持基本用户名/密码身份验证
  *支持设置user_agent,rioter(原点),cookie和header内容(标题)
  *支持浏览器重定向,并控制重定向深度
  *网页链接可以扩展到高质量的URL(默认)
  *便于提交数据并获取返回值
  *跟踪支持HTML帧(V 0. 92增加)
  *当转向支持重新传输饼干时(v 0. 92增加)
  PHP类Snoopy您的服务器的正确操作需要PHP版本4或以上并支持PCRE(Perl兼容的正则表达式),基本灯泡服务支持。
  它提供以下接口或方法:
  获取($ uri)
  此方法正在爬行Web内容,$ URI是网页的URL爬网,爬过的结果存储在$ this-&gt;结果。如果您抓取该框架,这将爬行每帧,结果将保存到数组。
  fetchtext($ uri)
  此方法和fetch()基本相同,除了结果是文本,HTML标签并删除其他无关信息。
  fetchform($ uri)
  此方法仅返回爬网元素的页面。
  fetchlinks($ uri)
  此方法仅返回页面上的链接以获取,返回默认链接收录指向域名的链接。
  提交($ uri,$ formvars)
  此方法是提交给指定$ uri的表单。 $ formvars是传递形式变量数组。
  submittext($ uri,$ formvars)
  此方法和提交()基本相同,但它返回文本,删除HTML标记和其他无关数据。
  submitlinks($ uri)
  此方法返回链接。
  这些是演示文稿的PHP类史努比整个内容,我们想帮助。

snoopy php网页抓取工具(考研屋提供各大机构考研、公务员、四六级辅导视频课程)

网站优化优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2021-09-23 12:12 • 来自相关话题

  snoopy php网页抓取工具(考研屋提供各大机构考研、公务员、四六级辅导视频课程)
  调查房屋提供重大的机构研究,公务员,四级或六级辅导视频课程在路线测试路上必须是网站 ----考试屋最近学识到PHP 采集程序,发现了一个好的采集类库,它的名字是史努比。 Sorceforge上有一个下载地址:它可以模拟您的浏览器获取Web内容,甚至可以在GET或POST中发送表单数据。 Snoopy功能:1爬网Content Fetch2抓取网页的文本内容(删除HTML标记)fetchtext3抓取链接,表单fetchlinks fetchform4支持代理主机5支持基本用户名/密码验证6支持SET USER_AGENT,REFERER(交换机),Cookie HeaderContent(标题)7支持浏览器重定向,并控制重定向深度8以将网页中的链接扩展为高质量的URL(默认值)9提交的数据并获得返回值10支持跟踪HTML框11支持重定向,传递Cookie询问PHP4或更多,因为它是PHP的最佳选择,不需要展开服务器不支持服务器,类方法:获取($ uri)----这是如何使用内容网页。
  $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。如果您是副价是一个框架,史努比将每个框架存储到数组中,然后存入$ this-&gt;结果。 fetchtext($ uri)----此方法类似于fetch(),而且此方法只删除HTML标记和其他独立数据,只能返回网页中的文本内容。 fetchform($ uri)-----此方法类似于fetch(),唯一的区别是此方法删除html fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据返回网页提交($ uri,$ formvars)-------此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。 submittext($ uri,$ formvars)--------此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回登录中的文本内容。 submitlinks ------此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。
  默认情况下,将自动完成相对链接,转换为完整的URL。类属性:(括号中的默认值)$ HOST CONNECTION HOST $端口连接端口$ PROXY_HOST使用代理主机(如果有)如果有代理主机端口,如果有的话,如果有的话,则$代理用户代理伪装(snoopy v 0.1) $推荐信息信息信息信息信息来源信息来话最信息信息重重头息重重重重重重重重重重重重重重重重重重重重重重重重5) $ offsiteok是否alplactredirects offste。(true)$ odernlinks完成链接到完整地址(true)$用户认证的用户名,如果有的话,如果有任何$接受http接受类型(图像/ gif,图像/ x-xbitmap,image / jpeg,image / pjpeg,* / *)$ errat在哪里错误,如果有的话,如果有的话,从响应代码返回的服务器$ headers从服务器返回$ maxlength数据长度$ read_timeout read操作超时(需要PHP Postgraduate House:提供重大的制度研究,公务员,46个咨询视频课程 查看全部

  snoopy php网页抓取工具(考研屋提供各大机构考研、公务员、四六级辅导视频课程)
  调查房屋提供重大的机构研究,公务员,四级或六级辅导视频课程在路线测试路上必须是网站 ----考试屋最近学识到PHP 采集程序,发现了一个好的采集类库,它的名字是史努比。 Sorceforge上有一个下载地址:它可以模拟您的浏览器获取Web内容,甚至可以在GET或POST中发送表单数据。 Snoopy功能:1爬网Content Fetch2抓取网页的文本内容(删除HTML标记)fetchtext3抓取链接,表单fetchlinks fetchform4支持代理主机5支持基本用户名/密码验证6支持SET USER_AGENT,REFERER(交换机),Cookie HeaderContent(标题)7支持浏览器重定向,并控制重定向深度8以将网页中的链接扩展为高质量的URL(默认值)9提交的数据并获得返回值10支持跟踪HTML框11支持重定向,传递Cookie询问PHP4或更多,因为它是PHP的最佳选择,不需要展开服务器不支持服务器,类方法:获取($ uri)----这是如何使用内容网页。
  $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。如果您是副价是一个框架,史努比将每个框架存储到数组中,然后存入$ this-&gt;结果。 fetchtext($ uri)----此方法类似于fetch(),而且此方法只删除HTML标记和其他独立数据,只能返回网页中的文本内容。 fetchform($ uri)-----此方法类似于fetch(),唯一的区别是此方法删除html fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据返回网页提交($ uri,$ formvars)-------此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。 submittext($ uri,$ formvars)--------此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回登录中的文本内容。 submitlinks ------此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。
  默认情况下,将自动完成相对链接,转换为完整的URL。类属性:(括号中的默认值)$ HOST CONNECTION HOST $端口连接端口$ PROXY_HOST使用代理主机(如果有)如果有代理主机端口,如果有的话,如果有的话,则$代理用户代理伪装(snoopy v 0.1) $推荐信息信息信息信息信息来源信息来话最信息信息重重头息重重重重重重重重重重重重重重重重重重重重重重重重5) $ offsiteok是否alplactredirects offste。(true)$ odernlinks完成链接到完整地址(true)$用户认证的用户名,如果有的话,如果有任何$接受http接受类型(图像/ gif,图像/ x-xbitmap,image / jpeg,image / pjpeg,* / *)$ errat在哪里错误,如果有的话,如果有的话,从响应代码返回的服务器$ headers从服务器返回$ maxlength数据长度$ read_timeout read操作超时(需要PHP Postgraduate House:提供重大的制度研究,公务员,46个咨询视频课程

snoopy php网页抓取工具(所见即所得网页编辑软件是较佳的选择吗)

网站优化优采云 发表了文章 • 0 个评论 • 68 次浏览 • 2021-09-22 04:06 • 来自相关话题

  snoopy php网页抓取工具(所见即所得网页编辑软件是较佳的选择吗)
  请参阅网页编辑软件:这是指微软SharePoint设计。 Macromedia的Dreamweaver中。 GoLive中的Adobe。纳摩WebEditor等网页编辑软件,其优点是可以让你通过图形界面,使网页设计,那么它会自动生成HTML及时。 CSS。的JavaScript或PHP等的源代码,图1-32示出的Dreamweaver
  文本匹配软件:这是指内置记事本,用UltraEdit或EmEditor中,等等。当使用这种类型的软件来写一个PHP页面的新的笔记本,你必须写HTML。 CSS。 JavaSript或PUP和其他来源的代码,它的优点是所有的源代码输入你自己,这样你就不会产生额外的垃圾代码,占用的空间该网页会很小。
  对于那些谁想要快速编辑网页,我不想深入到暂时的学习语法,我会看到最好的网页编辑软件,因为它R的绝对相关程序语法,即使用户不具备程序设计知识,同样最好是设计一个图片的图片和编辑网页:相反,对于谁想要了解扬声器语法的人,使用纯文本编辑软件,因为它使用户能够专注于程序,并不像他们所获得的Web文件的软件会产生多余的程序代码,造成麻烦。 查看全部

  snoopy php网页抓取工具(所见即所得网页编辑软件是较佳的选择吗)
  请参阅网页编辑软件:这是指微软SharePoint设计。 Macromedia的Dreamweaver中。 GoLive中的Adobe。纳摩WebEditor等网页编辑软件,其优点是可以让你通过图形界面,使网页设计,那么它会自动生成HTML及时。 CSS。的JavaScript或PHP等的源代码,图1-32示出的Dreamweaver
  文本匹配软件:这是指内置记事本,用UltraEdit或EmEditor中,等等。当使用这种类型的软件来写一个PHP页面的新的笔记本,你必须写HTML。 CSS。 JavaSript或PUP和其他来源的代码,它的优点是所有的源代码输入你自己,这样你就不会产生额外的垃圾代码,占用的空间该网页会很小。
  对于那些谁想要快速编辑网页,我不想深入到暂时的学习语法,我会看到最好的网页编辑软件,因为它R的绝对相关程序语法,即使用户不具备程序设计知识,同样最好是设计一个图片的图片和编辑网页:相反,对于谁想要了解扬声器语法的人,使用纯文本编辑软件,因为它使用户能够专注于程序,并不像他们所获得的Web文件的软件会产生多余的程序代码,造成麻烦。

snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2021-09-17 01:10 • 来自相关话题

  snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  史努比是一只猫php采集Class模拟浏览器以获取web内容并发送表单
  以下是史努比的一些功能:
  易于抓取web内容
  易于抓取页面文本(删除HTML标记)
  易于抓取网页中的链接
  支持代理抓取
  支持基本用户名和密码认证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器转向和控制转向深度
  可以将页面中的链接转换为高质量链接
  方便的数据提交和返回值
  可以跟踪HTML框架
  支持重定向时传输cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法$URI参数是已爬网网页的URL地址。获取的结果存储在$this->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比)v0.1)
  $referer源信息(如果有)
  $cookies(如有)
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向次数,0=不允许(5))@
  $offsiteok是否允许场外重定向。(对)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有) 查看全部

  snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  史努比是一只猫php采集Class模拟浏览器以获取web内容并发送表单
  以下是史努比的一些功能:
  易于抓取web内容
  易于抓取页面文本(删除HTML标记)
  易于抓取网页中的链接
  支持代理抓取
  支持基本用户名和密码认证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器转向和控制转向深度
  可以将页面中的链接转换为高质量链接
  方便的数据提交和返回值
  可以跟踪HTML框架
  支持重定向时传输cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法$URI参数是已爬网网页的URL地址。获取的结果存储在$this->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比)v0.1)
  $referer源信息(如果有)
  $cookies(如有)
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向次数,0=不允许(5))@
  $offsiteok是否允许场外重定向。(对)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有)

snoopy php网页抓取工具(PHP模拟浏览器的特点:Snoopy(来路)、Snoopy、header)

网站优化优采云 发表了文章 • 0 个评论 • 111 次浏览 • 2021-09-13 11:08 • 来自相关话题

  snoopy php网页抓取工具(PHP模拟浏览器的特点:Snoopy(来路)、Snoopy、header)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的特点:
  1、抓取网页内容抓取
  2、Fetch 网页的文字内容(去掉 HTML 标签)fetchtext
  3、抓取网页链接,表单fetchlinks fetchform
  4、支持代理主机
  5、 支持基本的用户名/密码验证
  6、 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7、支持浏览器重定向,可以控制重定向的深度
  8、可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、 支持重定向时传递 cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  ================================================ ======================================
  file_get_contents()
  file_get_contents 是 fsockopen 函数的一个简单封装,效率较低,但是爬取成功率很高,所以我一般都是在 snoopy 有问题的时候让他来。 5.0.0 添加了对上下文的支持。借助上下文,他还可以发送标头信息,并自定义用户代理、引用者和 cookie。 5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,不过需要开启curl扩展。
  cURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集。
  有些cms会使用curl功能,需要在服务器上启用CURL扩展。下面介绍具体方法:
  1、将PHP ext目录下的三个文件:php_curl.dll、libeay32.dll和ssleay32.dll复制到系统system32目录下。
  2、将php.ini in
  ;extension=php_curl.dll 去掉前面的分号
  3、重启 IIS 或 Apache
  4、测试代码 查看全部

  snoopy php网页抓取工具(PHP模拟浏览器的特点:Snoopy(来路)、Snoopy、header)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的特点:
  1、抓取网页内容抓取
  2、Fetch 网页的文字内容(去掉 HTML 标签)fetchtext
  3、抓取网页链接,表单fetchlinks fetchform
  4、支持代理主机
  5、 支持基本的用户名/密码验证
  6、 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7、支持浏览器重定向,可以控制重定向的深度
  8、可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、 支持重定向时传递 cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  ================================================ ======================================
  file_get_contents()
  file_get_contents 是 fsockopen 函数的一个简单封装,效率较低,但是爬取成功率很高,所以我一般都是在 snoopy 有问题的时候让他来。 5.0.0 添加了对上下文的支持。借助上下文,他还可以发送标头信息,并自定义用户代理、引用者和 cookie。 5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,不过需要开启curl扩展。
  cURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集
  有些cms会使用curl功能,需要在服务器上启用CURL扩展。下面介绍具体方法:
  1、将PHP ext目录下的三个文件:php_curl.dll、libeay32.dll和ssleay32.dll复制到系统system32目录下。
  2、将php.ini in
  ;extension=php_curl.dll 去掉前面的分号
  3、重启 IIS 或 Apache
  4、测试代码

snoopy php网页抓取工具(php类模拟浏览器的功能,Snoopy($URI))

网站优化优采云 发表了文章 • 0 个评论 • 69 次浏览 • 2021-09-13 11:03 • 来自相关话题

  snoopy php网页抓取工具(php类模拟浏览器的功能,Snoopy($URI))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置 user_agent、referer(传入路由)、cookies 和 headercontent(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  snoopy php网页抓取工具(php类模拟浏览器的功能,Snoopy($URI))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置 user_agent、referer(传入路由)、cookies 和 headercontent(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))

网站优化优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2021-09-13 11:01 • 来自相关话题

  snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))
  Snoopy 是一个php类,用来模拟浏览器的功能,可以获取网页内容并发送表单。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。
  一、Snoopy 的一些特点:
  1. 抓取网页内容 fetch
  2.Fetch 网页的文字内容(去除 HTML 标签)fetchtext
  3.抓取网页链接,表单fetchlinks fetchform
  4.支持代理主机
  5. 支持基本的用户名/密码验证
  6. 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7.支持浏览器重定向,可以控制重定向的深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookies,要求php4以上。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、Class 方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))
  Snoopy 是一个php类,用来模拟浏览器的功能,可以获取网页内容并发送表单。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。
  一、Snoopy 的一些特点:
  1. 抓取网页内容 fetch
  2.Fetch 网页的文字内容(去除 HTML 标签)fetchtext
  3.抓取网页链接,表单fetchlinks fetchform
  4.支持代理主机
  5. 支持基本的用户名/密码验证
  6. 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7.支持浏览器重定向,可以控制重定向的深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookies,要求php4以上。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、Class 方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

snoopy php网页抓取工具(php一个类无需扩支持服务器的一些特点:1抓取网页)

网站优化优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2021-09-12 09:01 • 来自相关话题

  snoopy php网页抓取工具(php一个类无需扩支持服务器的一些特点:1抓取网页)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载史努比
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  snoopy php网页抓取工具(php一个类无需扩支持服务器的一些特点:1抓取网页)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载史努比
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

snoopy php网页抓取工具(不是($URI)PHP一个类类类代码)

网站优化优采云 发表了文章 • 0 个评论 • 75 次浏览 • 2021-09-09 01:02 • 来自相关话题

  snoopy php网页抓取工具(不是($URI)PHP一个类类类代码)
  好吧,我不再谈论卡通史努比了。它是一个 PHP 类。它可以用来模仿网页浏览器的功能,完成获取网页内容和发送表单的任务。可以向其官方网站学习:
  快速轻松地抓取网页的内容、文本(无 Html 标签)和链接。支持代理服务器、基本用户/密码认证方式、内容。支持浏览器重定向和控制深度。将获取到的链接扩展为带域名的链接(默认),可以提交表单数据并获取结果。支持跟踪 HTML 框架(添加了0.92 版本)。支持在重定向(添加0.92 版本)结果时传递 cookie。如果是抓取帧,则每帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  该方法与fetch()大致相同,只是结果是文本,不包括HTML标签等无关信息。
  fetchform($URI)
  该方法只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  该方法只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  此方法将表单提交到指定的 $URI。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  此方法返回链接。
  在WordPress中,已经收录了这个类,而且在前面提到的RSS解析类MagpieRSS中,这个类也是用来获取RSS的。最新版的 WordPress 2.5 使用 Snoopy 下载文件来更新插件。使用的史努比类的代码是:
  
function download_url( $url ) {
    if( ! $url )
        return false;
 
    $tmpfname = tempnam(get_temp_dir(), 'wpupdate'); //获取临时文件名
    if( ! $tmpfname )
        return false;
 
    $handle = fopen($tmpfname, 'w'); //以写的方式打开临时文件
    if( ! $handle )
        return false;
 
    require_once( ABSPATH . 'wp-includes/class-snoopy.php' ); //引入 Snoopy 类
    $snoopy = new Snoopy();   
    $snoopy->fetch($url); //抓取指定的网页
 
    fwrite($handle, $snoopy->results); //把抓取得内容写到 临时文件中
    fclose($handle);
 
    return $tmpfname;
}
  ©我爱水煮鱼,本站推荐主机:阿里云。国外主机推荐使用 BlueHost。 查看全部

  snoopy php网页抓取工具(不是($URI)PHP一个类类类代码)
  好吧,我不再谈论卡通史努比了。它是一个 PHP 类。它可以用来模仿网页浏览器的功能,完成获取网页内容和发送表单的任务。可以向其官方网站学习:
  快速轻松地抓取网页的内容、文本(无 Html 标签)和链接。支持代理服务器、基本用户/密码认证方式、内容。支持浏览器重定向和控制深度。将获取到的链接扩展为带域名的链接(默认),可以提交表单数据并获取结果。支持跟踪 HTML 框架(添加了0.92 版本)。支持在重定向(添加0.92 版本)结果时传递 cookie。如果是抓取帧,则每帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  该方法与fetch()大致相同,只是结果是文本,不包括HTML标签等无关信息。
  fetchform($URI)
  该方法只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  该方法只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  此方法将表单提交到指定的 $URI。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  此方法返回链接。
  在WordPress中,已经收录了这个类,而且在前面提到的RSS解析类MagpieRSS中,这个类也是用来获取RSS的。最新版的 WordPress 2.5 使用 Snoopy 下载文件来更新插件。使用的史努比类的代码是:
  
function download_url( $url ) {
    if( ! $url )
        return false;
 
    $tmpfname = tempnam(get_temp_dir(), 'wpupdate'); //获取临时文件名
    if( ! $tmpfname )
        return false;
 
    $handle = fopen($tmpfname, 'w'); //以写的方式打开临时文件
    if( ! $handle )
        return false;
 
    require_once( ABSPATH . 'wp-includes/class-snoopy.php' ); //引入 Snoopy 类
    $snoopy = new Snoopy();   
    $snoopy->fetch($url); //抓取指定的网页
 
    fwrite($handle, $snoopy->results); //把抓取得内容写到 临时文件中
    fclose($handle);
 
    return $tmpfname;
}
  ©我爱水煮鱼,本站推荐主机:阿里云。国外主机推荐使用 BlueHost。

snoopy php网页抓取工具( 老是/php/Snoopy.gz本地下载类类特征)

网站优化优采云 发表了文章 • 0 个评论 • 77 次浏览 • 2021-10-04 18:04 • 来自相关话题

  snoopy php网页抓取工具(
老是/php/Snoopy.gz本地下载类类特征)
  snoopy PHP 版网页客户端提供本地下载
  更新时间:2008-04-15 21:29:47 作者:
  Snoopy是一个很好的仿网络客户端的php类,但是本地下载很少,国外下载又麻烦又慢,所以弄了这个网站给大家下载
  magpierss中用的是史努比,让我有点兴趣研究这个东东。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗...最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载 查看全部

  snoopy php网页抓取工具(
老是/php/Snoopy.gz本地下载类类特征)
  snoopy PHP 版网页客户端提供本地下载
  更新时间:2008-04-15 21:29:47 作者:
  Snoopy是一个很好的仿网络客户端的php类,但是本地下载很少,国外下载又麻烦又慢,所以弄了这个网站给大家下载
  magpierss中用的是史努比,让我有点兴趣研究这个东东。在SF上,我找到了这个源代码。其实是一个类,不过别笑,功能很强大。
  我翻译了官方介绍(汗...最近一直当翻译)
  Snoopy是一个php类,用来模仿网页浏览器的功能,可以完成获取网页内容和发送表单的任务。
  以下是它的一些特点:
  1、 方便抓取网页内容
  2、 方便抓取网页文字(去掉HTML代码)
  3、方便抓取网页链接
  4、支持代理主机
  5、支持基本用户/密码认证方式
  6、支持自定义用户代理、referer、cookies 和 header 内容
  7、支持浏览器转向,可以控制转向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、方便提交数据和获取返回值
  10、支持跟踪HTML框架(v0.92新增)
  11、 支持重定向时传递cookies
  下面是一个简单的例子,比如我们抓取我博客的文字
  ^_^,还不错,比如抢链接
  哎,效果不错,都是我们需要的网址,没有/blog/read.php/85.htm之类的。
  还要提交数据供以后测试。. .
  元马/php/Snoopy-1.2.3.tar.gz本地下载

snoopy php网页抓取工具(详细介绍Snoopy.php的特点和一些常见的用法介绍)

网站优化优采云 发表了文章 • 0 个评论 • 79 次浏览 • 2021-10-03 15:19 • 来自相关话题

  snoopy php网页抓取工具(详细介绍Snoopy.php的特点和一些常见的用法介绍)
  Snoopy是一个非常强大的PHP类,可以用来模拟浏览器来完成获取网页内容和发送表单的任务。下面详细介绍snoopy.class.php的特性和一些常见用法
  官方网站:
  下载地址:
  下载地址:PHP采集Library snoopy.class.PHP下载
  以下是Snoopy的一些功能:
  1、抓取网页内容
  2、抓取网页的文本内容(删除HTML标记)获取文本
  3、从网页获取链接,表单获取链接获取表单
  4、支持代理主机
  5、支持基本用户名/密码身份验证
  6、支持设置用户代理、引用、cookie和标题内容
  7、支持浏览器重定向,并可以控制重定向深度
  8、可以将网页中的链接扩展为高质量URL(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架(添加了V0.92)
  1当支持重定向时,会传递cookie
  注意:使用snoopy.class.php需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  以下是一些常见的类方法:
  获取($URI)
  这是一种用于抓取网页内容的方法。$URI参数是已爬网网页的URL地址,爬网结果存储在$This->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有) 查看全部

  snoopy php网页抓取工具(详细介绍Snoopy.php的特点和一些常见的用法介绍)
  Snoopy是一个非常强大的PHP类,可以用来模拟浏览器来完成获取网页内容和发送表单的任务。下面详细介绍snoopy.class.php的特性和一些常见用法
  官方网站:
  下载地址:
  下载地址:PHP采集Library snoopy.class.PHP下载
  以下是Snoopy的一些功能:
  1、抓取网页内容
  2、抓取网页的文本内容(删除HTML标记)获取文本
  3、从网页获取链接,表单获取链接获取表单
  4、支持代理主机
  5、支持基本用户名/密码身份验证
  6、支持设置用户代理、引用、cookie和标题内容
  7、支持浏览器重定向,并可以控制重定向深度
  8、可以将网页中的链接扩展为高质量URL(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架(添加了V0.92)
  1当支持重定向时,会传递cookie
  注意:使用snoopy.class.php需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  以下是一些常见的类方法:
  获取($URI)
  这是一种用于抓取网页内容的方法。$URI参数是已爬网网页的URL地址,爬网结果存储在$This->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有)

snoopy php网页抓取工具(php一个类方法($uri)的功能特点 )

网站优化优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2021-10-03 15:16 • 来自相关话题

  snoopy php网页抓取工具(php一个类方法($uri)的功能特点
)
  Snoopy是一个PHP类,用于模拟web浏览器的功能。它可以完成获取网页内容和发送表单的任务
  Snoopy的一些功能特性:
  它需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  类方法1.fetch($URI)
  这是一种用于获取网页内容的方法。$URI参数是网页的URL地址。获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  2.fetchtext($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标记和其他不相关的数据,只返回网页中的文本内容
  3.fetchform($URI)
  此方法类似于fetch()。唯一的区别是,我们删除了HTML标记和其他不相关的数据,只返回网页中的表单内容
  4.fetchlinks($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  5.提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  6.submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是我们删除了HTML标签和其他不相关的数据,只在登录后返回网页中的文本内容
  7.提交链接($URI)
  此方法类似于submit()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  类属性(默认值在括号中)演示
<p> 查看全部

  snoopy php网页抓取工具(php一个类方法($uri)的功能特点
)
  Snoopy是一个PHP类,用于模拟web浏览器的功能。它可以完成获取网页内容和发送表单的任务
  Snoopy的一些功能特性:
  它需要PHP4或更高。因为它是一个PHP类,所以不需要扩展。当服务器不支持curl时,它是最佳选择
  类方法1.fetch($URI)
  这是一种用于获取网页内容的方法。$URI参数是网页的URL地址。获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  2.fetchtext($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标记和其他不相关的数据,只返回网页中的文本内容
  3.fetchform($URI)
  此方法类似于fetch()。唯一的区别是,我们删除了HTML标记和其他不相关的数据,只返回网页中的表单内容
  4.fetchlinks($URI)
  此方法类似于fetch()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  5.提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  6.submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是我们删除了HTML标签和其他不相关的数据,只在登录后返回网页中的文本内容
  7.提交链接($URI)
  此方法类似于submit()。唯一的区别是我们删除HTML标签和其他不相关的数据,只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  类属性(默认值在括号中)演示
<p>

snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)

网站优化优采云 发表了文章 • 0 个评论 • 57 次浏览 • 2021-10-02 17:23 • 来自相关话题

  snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)
  史努比:一个非常强大的PHP类。下面是对snoopy.class.php源文件的详细介绍。Snoopy是一个PHP类,用于模拟浏览器的功能。您可以获取web内容并发送表单。Snoopy的一些功能:抓取网页的内容,抓取网页的文本内容(删除HTML标记),抓取文本,抓取网页的链接,表单fetchlinks fetchform支持设置用户代理、引用者、cookies和headercontent提交数据,并获取返回值10。支持跟踪HTML框架11。支持重定向时,传递cookie需要PHP4或更高。因为它是一个PHP类,所以不需要扩展支持。服务器不支持curl时的最佳选择。Class method:fetch($URI)这是一个用于获取网页内容的方法$URI参数是已爬网网页的URL地址。捕获的结果存储在$this->results中。如果捕获一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后将其存储在$this->results中。Fetchtext($URI)此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  Fetchform($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他无关数据,并且只返回网页中的表单内容(表单)。Fetchlinks($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Submit($URI,$formvars)此方法向$URL指定的链接地址发送确认表单$formvars是存储表单参数的数组。Submittext($URI,$formvars)此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容。SubmitLink($URI)此方法类似于submit()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Class属性:(默认值在括号中)$host connected host$port connected port$proxy\主机使用的代理主机,如果有,$proxy\ port使用代理主机端口。如果有,$agent用户代理伪装(Snoopy V0.1)$referer origin information,如果有,$cookies,如果有,$rawheads其他头信息,如果有,$maxeditors最大重定向,0=否$offsiteokwhere allowereDirections off site.(true)$expandlinks是否完成指向完整地址的所有链接(true)$user authentication user name,如果有,$pass authentication user name,如果有,$accept HTTP accept type(image/GIF,image/x-xbitmap,image/jpeg,image/pjpeg,$error,如果有,$response\u code从服务器返回的响应代码$headers从服务器返回的头信息$MaxLength最大返回数据长度$read\u timeout读取操作超时)(requires PHP设置为0,表示没有超时$timed_out。如果读取操作超时,此属性返回true(需要PHP$maxframes允许跟踪的最大帧数$HTTP捕获状态$temp_dir web服务器可以写入的临时文件目录(/tmp)如果没有curl二进制文件,$curl_path curl binary的目录被设置为false。下面是一个简单的示例。例如,我们抓取我的博客的文本,包括“Snoopy.Class.PHP”newssnoopy echo$Snoopy include“Snoopy.Class.PHP”newssnoopy 查看全部

  snoopy php网页抓取工具(Snoopy.class.php源文件的内容..)
  史努比:一个非常强大的PHP类。下面是对snoopy.class.php源文件的详细介绍。Snoopy是一个PHP类,用于模拟浏览器的功能。您可以获取web内容并发送表单。Snoopy的一些功能:抓取网页的内容,抓取网页的文本内容(删除HTML标记),抓取文本,抓取网页的链接,表单fetchlinks fetchform支持设置用户代理、引用者、cookies和headercontent提交数据,并获取返回值10。支持跟踪HTML框架11。支持重定向时,传递cookie需要PHP4或更高。因为它是一个PHP类,所以不需要扩展支持。服务器不支持curl时的最佳选择。Class method:fetch($URI)这是一个用于获取网页内容的方法$URI参数是已爬网网页的URL地址。捕获的结果存储在$this->results中。如果捕获一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后将其存储在$this->results中。Fetchtext($URI)此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  Fetchform($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他无关数据,并且只返回网页中的表单内容(表单)。Fetchlinks($URI)此方法类似于fetch()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Submit($URI,$formvars)此方法向$URL指定的链接地址发送确认表单$formvars是存储表单参数的数组。Submittext($URI,$formvars)此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容。SubmitLink($URI)此方法类似于submit()。唯一的区别是,此方法删除HTML标记和其他不相关的数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL。Class属性:(默认值在括号中)$host connected host$port connected port$proxy\主机使用的代理主机,如果有,$proxy\ port使用代理主机端口。如果有,$agent用户代理伪装(Snoopy V0.1)$referer origin information,如果有,$cookies,如果有,$rawheads其他头信息,如果有,$maxeditors最大重定向,0=否$offsiteokwhere allowereDirections off site.(true)$expandlinks是否完成指向完整地址的所有链接(true)$user authentication user name,如果有,$pass authentication user name,如果有,$accept HTTP accept type(image/GIF,image/x-xbitmap,image/jpeg,image/pjpeg,$error,如果有,$response\u code从服务器返回的响应代码$headers从服务器返回的头信息$MaxLength最大返回数据长度$read\u timeout读取操作超时)(requires PHP设置为0,表示没有超时$timed_out。如果读取操作超时,此属性返回true(需要PHP$maxframes允许跟踪的最大帧数$HTTP捕获状态$temp_dir web服务器可以写入的临时文件目录(/tmp)如果没有curl二进制文件,$curl_path curl binary的目录被设置为false。下面是一个简单的示例。例如,我们抓取我的博客的文本,包括“Snoopy.Class.PHP”newssnoopy echo$Snoopy include“Snoopy.Class.PHP”newssnoopy

snoopy php网页抓取工具(snoopy()、file_get_contents(.class.phpsnoopy)

网站优化优采云 发表了文章 • 0 个评论 • 67 次浏览 • 2021-09-28 12:24 • 来自相关话题

  snoopy php网页抓取工具(snoopy()、file_get_contents(.class.phpsnoopy)
  curl()、file_get_contents()、snoopy.class.php是采集中用到的三个远程页面爬取工具或工具。它们具有相同的功能。有什么优点和缺点吗?这里一一介绍:
  史努比.class.php
  史努比是用fsockopen自行开发的类。它更高效并且不需要特定于服务器的配置支持。可以在普通的虚拟主机中使用,但是经常会出现问题。官方下载地址:
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  史努比的特点:
  1、获取网页内容
  2、 获取网页的文本内容(去除HTML标签) fetchtext
  3、获取网页链接,表单 fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookies
  需要php4或更高版本,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  随附的:
  史努比中文手册:
  使用示例:
  史努比的缺陷和CURL的威力:
  file_get_contents()
  file_get_contents是fsockopen函数的一个简单封装,效率稍低,但是爬取成功率很高,所以我一般在snoopy有问题的时候做。5.0.0 增加了对context的支持,有了context,他还可以发送header信息,自定义user agent,referer,cookies都不是问题。5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  Curl一般用来抓取网页,二是get或post数据,三是在PHP中实现多线程任务。
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,但是需要开启curl扩展。
  CURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集。
  还支持 Range 的代码:
  $ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.spiegel.de/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);
echo $result;
/**
*But as noted before if the server doesn't honor this header but sends the whole file curl will download all of it. E.g. http://www.php.net ignores the header. But you can (in addition) set a write function callback and abort the request when more data is received, e.g.
* php 5.3+ only
* use function writefn($ch, $chunk) { ... } for earlier versions
*/
$writefn = function($ch, $chunk) {
static $data='';
static $limit = 500; // 500 bytes, it's only a test
$len = strlen($data) + strlen($chunk);
if ($len >= $limit ) {
$data .= substr($chunk, 0, $limit-strlen($data));
echo strlen($data) , ' ', $data;
return -1;
}
$data .= $chunk;
return strlen($chunk);
};
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.php.net/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_WRITEFUNCTION, $writefn);
$result = curl_exec($ch);
curl_close($ch);
  使用教程地址: 查看全部

  snoopy php网页抓取工具(snoopy()、file_get_contents(.class.phpsnoopy)
  curl()、file_get_contents()、snoopy.class.php是采集中用到的三个远程页面爬取工具或工具。它们具有相同的功能。有什么优点和缺点吗?这里一一介绍:
  史努比.class.php
  史努比是用fsockopen自行开发的类。它更高效并且不需要特定于服务器的配置支持。可以在普通的虚拟主机中使用,但是经常会出现问题。官方下载地址:
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  史努比的特点:
  1、获取网页内容
  2、 获取网页的文本内容(去除HTML标签) fetchtext
  3、获取网页链接,表单 fetchlinks fetchform
  4、支持代理主机
  5、支持基本的用户名/密码验证
  6、支持设置user_agent、referer(来源)、cookies和header内容(头文件)
  7、支持浏览器重定向,控制重定向深度
  8、 可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、支持重定向时传递cookies
  需要php4或更高版本,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  随附的:
  史努比中文手册:
  使用示例:
  史努比的缺陷和CURL的威力:
  file_get_contents()
  file_get_contents是fsockopen函数的一个简单封装,效率稍低,但是爬取成功率很高,所以我一般在snoopy有问题的时候做。5.0.0 增加了对context的支持,有了context,他还可以发送header信息,自定义user agent,referer,cookies都不是问题。5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  Curl一般用来抓取网页,二是get或post数据,三是在PHP中实现多线程任务。
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,但是需要开启curl扩展。
  CURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集。
  还支持 Range 的代码:
  $ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.spiegel.de/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($ch);
curl_close($ch);
echo $result;
/**
*But as noted before if the server doesn't honor this header but sends the whole file curl will download all of it. E.g. http://www.php.net ignores the header. But you can (in addition) set a write function callback and abort the request when more data is received, e.g.
* php 5.3+ only
* use function writefn($ch, $chunk) { ... } for earlier versions
*/
$writefn = function($ch, $chunk) {
static $data='';
static $limit = 500; // 500 bytes, it's only a test
$len = strlen($data) + strlen($chunk);
if ($len >= $limit ) {
$data .= substr($chunk, 0, $limit-strlen($data));
echo strlen($data) , ' ', $data;
return -1;
}
$data .= $chunk;
return strlen($chunk);
};
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.php.net/');
curl_setopt($ch, CURLOPT_RANGE, '0-500');
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_WRITEFUNCTION, $writefn);
$result = curl_exec($ch);
curl_close($ch);
  使用教程地址:

snoopy php网页抓取工具(Snoopy的特点:抓取网页的文本内容(去除HTML标签))

网站优化优采云 发表了文章 • 0 个评论 • 68 次浏览 • 2021-09-24 23:08 • 来自相关话题

  snoopy php网页抓取工具(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个PHP类,用于模拟浏览器的功能。它可以获取web内容、发送表单以及开发一些采集程序和小偷程序
  史努比的一些特点:
  获取网页的内容
  抓取网页的文本内容(删除HTML标记)抓取文本
  抓取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本用户名/密码身份验证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量URL(默认)
  提交数据并获取返回值
  支持跟踪HTML框架
  支持重定向时传输cookie
  PHP4或以上就足够了。因为它是一个PHP类,所以不需要扩展来支持它。当服务器不支持curl时,它是最佳选择
  Snoopy类方法和示例:
  获取($URI)
  这是一种用于获取网页内容的方法
  $URI参数是已爬网网页的URL地址
  获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  史努比采集类属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有) 查看全部

  snoopy php网页抓取工具(Snoopy的特点:抓取网页的文本内容(去除HTML标签))
  Snoopy是一个PHP类,用于模拟浏览器的功能。它可以获取web内容、发送表单以及开发一些采集程序和小偷程序
  史努比的一些特点:
  获取网页的内容
  抓取网页的文本内容(删除HTML标记)抓取文本
  抓取网页链接,表单获取链接获取表单
  支持代理主机
  支持基本用户名/密码身份验证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器重定向并控制重定向深度
  可以将网页中的链接扩展为高质量URL(默认)
  提交数据并获取返回值
  支持跟踪HTML框架
  支持重定向时传输cookie
  PHP4或以上就足够了。因为它是一个PHP类,所以不需要扩展来支持它。当服务器不支持curl时,它是最佳选择
  Snoopy类方法和示例:
  获取($URI)
  这是一种用于获取网页内容的方法
  $URI参数是已爬网网页的URL地址
  获取的结果存储在$this->results中
  如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接
  默认情况下,相对链接会自动完成并转换为完整URL
  史努比采集类属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比V0.1)
  $referer源信息(如果有)
  $cookies饼干,如有
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向时间,0=不允许(5)
  $offsiteok是否允许场外重定向。(true)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有)

snoopy php网页抓取工具(php官方网站Snoopy的功能特点及类方法介绍(一) )

网站优化优采云 发表了文章 • 0 个评论 • 84 次浏览 • 2021-09-23 21:17 • 来自相关话题

  snoopy php网页抓取工具(php官方网站Snoopy的功能特点及类方法介绍(一)
)
  snoopy是模仿Web浏览器的功能的PHP类,可以完成获取Web内容并发送表单的任务。官方网站
  Snoopy功能的声音:
  需要php4或更多。由于它是一类PHP,因此无需扩展,服务器不支持卷曲的最佳选择。
  方法
  1. fetch($ uri)
  这是用于捕获网页内容的方法。 $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。
  如果您正在抓取框架,Snoopy将每个框架存储到数组中,然后存入$ this-&gt;结果。
  2. fetchtext($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。
  3. fetchform($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。
  4. fetchlinks($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,仅在网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  5. submit($ uri,$ formvars)
  此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是存储表单个参数的数组。
  6. submittext($ uri,$ formvars)
  此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。
  7. submitlinks($ uri)
  此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  类属性(括号中的默认值)
  演示
  include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn"))
{
echo "".htmlspecialchars($snoopy->results)."
  n“;} elseocho”错误获取文档:“$ snoopy-&gt;错误。” n“;
  获取指定的URL内容:
  表单提交:
  由于已经提交的表格,您可以做很多。接下来我们来伪装IP,迷彩浏览器:
  比较例:
  /**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = &#39;238472834723489&#39;;
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:
";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
  用snoopy类采集:
  完成一个简单的图片
<p> 查看全部

  snoopy php网页抓取工具(php官方网站Snoopy的功能特点及类方法介绍(一)
)
  snoopy是模仿Web浏览器的功能的PHP类,可以完成获取Web内容并发送表单的任务。官方网站
  Snoopy功能的声音:
  需要php4或更多。由于它是一类PHP,因此无需扩展,服务器不支持卷曲的最佳选择。
  方法
  1. fetch($ uri)
  这是用于捕获网页内容的方法。 $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。
  如果您正在抓取框架,Snoopy将每个框架存储到数组中,然后存入$ this-&gt;结果。
  2. fetchtext($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回网页中的文本内容。
  3. fetchform($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回网页中的表单内容(表单)。
  4. fetchlinks($ uri)
  此方法类似于fetch(),唯一的区别是此方法删除HTML标记和其他不相关的数据,仅在网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  5. submit($ uri,$ formvars)
  此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是存储表单个参数的数组。
  6. submittext($ uri,$ formvars)
  此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他独立数据,只返回登录中的文本内容。
  7. submitlinks($ uri)
  此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回网页中的链接(链接)。默认情况下,将自动完成相对链接,转换为完整的URL。
  类属性(括号中的默认值)
  演示
  include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";
$snoopy->proxy_port = "80";
$snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
$snoopy->referer = "http://www.4wei.cn";
$snoopy->cookies["SessionID"] = 238472834723489l;
$snoopy->cookies["favoriteColor"] = "RED";
$snoopy->rawheaders["Pragma"] = "no-cache";
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
$snoopy->user = "joe";
$snoopy->pass = "bloe";
if($snoopy->fetchtext("http://www.4wei.cn";))
{
echo "".htmlspecialchars($snoopy->results)."
  n“;} elseocho”错误获取文档:“$ snoopy-&gt;错误。” n“;
  获取指定的URL内容:
  表单提交:
  由于已经提交的表格,您可以做很多。接下来我们来伪装IP,迷彩浏览器:
  比较例:
  /**
* You need the snoopy.class.php from
* http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = &#39;238472834723489&#39;;
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com";)){
// other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
// response code:
print "response code: ".$snoopy->response_code."n";
// print the headers:
print "<b>Headers:

";
while(list($key,$val) = each($snoopy->headers)){
print $key.": ".$val."
n";
}
print "
n";
// print the texts of the website:
print htmlspecialchars($snoopy->results)."n";
}
else {
print "Snoopy: error while fetching document: ".$snoopy->error."n";
}
  用snoopy类采集
  完成一个简单的图片
<p>

snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中的功能强大的函数)

网站优化优采云 发表了文章 • 0 个评论 • 61 次浏览 • 2021-09-23 20:04 • 来自相关话题

  snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中的功能强大的函数)
  我们都知道,在PHP语言中,有许多强大的功能来帮助程序员完成各种功能要求。今天我们想介绍史努比的课程是一些PHP知识。
  php class snoopy是什么?
  snoopy是模拟Web浏览器功能的PHP类,它可以检索网页以发送任务的表单和内容。
  snoopy php类的一些功能:
  *轻松获取页面的内容
  *易于获取文本页面(HTML标记删除)
  *轻松获取链接页面
  *支持代理主机
  *支持基本用户名/密码身份验证
  *支持设置user_agent,rioter(原点),cookie和header内容(标题)
  *支持浏览器重定向,并控制重定向深度
  *网页链接可以扩展到高质量的URL(默认)
  *便于提交数据并获取返回值
  *跟踪支持HTML帧(V 0. 92增加)
  *当转向支持重新传输饼干时(v 0. 92增加)
  PHP类Snoopy您的服务器的正确操作需要PHP版本4或以上并支持PCRE(Perl兼容的正则表达式),基本灯泡服务支持。
  它提供以下接口或方法:
  获取($ uri)
  此方法正在爬行Web内容,$ URI是网页的URL爬网,爬过的结果存储在$ this-&gt;结果。如果您抓取该框架,这将爬行每帧,结果将保存到数组。
  fetchtext($ uri)
  此方法和fetch()基本相同,除了结果是文本,HTML标签并删除其他无关信息。
  fetchform($ uri)
  此方法仅返回爬网元素的页面。
  fetchlinks($ uri)
  此方法仅返回页面上的链接以获取,返回默认链接收录指向域名的链接。
  提交($ uri,$ formvars)
  此方法是提交给指定$ uri的表单。 $ formvars是传递形式变量数组。
  submittext($ uri,$ formvars)
  此方法和提交()基本相同,但它返回文本,删除HTML标记和其他无关数据。
  submitlinks($ uri)
  此方法返回链接。
  这些是演示文稿的PHP类史努比整个内容,我们想帮助。 查看全部

  snoopy php网页抓取工具(PHP类Snoopy是什么?PHP语言中的功能强大的函数)
  我们都知道,在PHP语言中,有许多强大的功能来帮助程序员完成各种功能要求。今天我们想介绍史努比的课程是一些PHP知识。
  php class snoopy是什么?
  snoopy是模拟Web浏览器功能的PHP类,它可以检索网页以发送任务的表单和内容。
  snoopy php类的一些功能:
  *轻松获取页面的内容
  *易于获取文本页面(HTML标记删除)
  *轻松获取链接页面
  *支持代理主机
  *支持基本用户名/密码身份验证
  *支持设置user_agent,rioter(原点),cookie和header内容(标题)
  *支持浏览器重定向,并控制重定向深度
  *网页链接可以扩展到高质量的URL(默认)
  *便于提交数据并获取返回值
  *跟踪支持HTML帧(V 0. 92增加)
  *当转向支持重新传输饼干时(v 0. 92增加)
  PHP类Snoopy您的服务器的正确操作需要PHP版本4或以上并支持PCRE(Perl兼容的正则表达式),基本灯泡服务支持。
  它提供以下接口或方法:
  获取($ uri)
  此方法正在爬行Web内容,$ URI是网页的URL爬网,爬过的结果存储在$ this-&gt;结果。如果您抓取该框架,这将爬行每帧,结果将保存到数组。
  fetchtext($ uri)
  此方法和fetch()基本相同,除了结果是文本,HTML标签并删除其他无关信息。
  fetchform($ uri)
  此方法仅返回爬网元素的页面。
  fetchlinks($ uri)
  此方法仅返回页面上的链接以获取,返回默认链接收录指向域名的链接。
  提交($ uri,$ formvars)
  此方法是提交给指定$ uri的表单。 $ formvars是传递形式变量数组。
  submittext($ uri,$ formvars)
  此方法和提交()基本相同,但它返回文本,删除HTML标记和其他无关数据。
  submitlinks($ uri)
  此方法返回链接。
  这些是演示文稿的PHP类史努比整个内容,我们想帮助。

snoopy php网页抓取工具(考研屋提供各大机构考研、公务员、四六级辅导视频课程)

网站优化优采云 发表了文章 • 0 个评论 • 78 次浏览 • 2021-09-23 12:12 • 来自相关话题

  snoopy php网页抓取工具(考研屋提供各大机构考研、公务员、四六级辅导视频课程)
  调查房屋提供重大的机构研究,公务员,四级或六级辅导视频课程在路线测试路上必须是网站 ----考试屋最近学识到PHP 采集程序,发现了一个好的采集类库,它的名字是史努比。 Sorceforge上有一个下载地址:它可以模拟您的浏览器获取Web内容,甚至可以在GET或POST中发送表单数据。 Snoopy功能:1爬网Content Fetch2抓取网页的文本内容(删除HTML标记)fetchtext3抓取链接,表单fetchlinks fetchform4支持代理主机5支持基本用户名/密码验证6支持SET USER_AGENT,REFERER(交换机),Cookie HeaderContent(标题)7支持浏览器重定向,并控制重定向深度8以将网页中的链接扩展为高质量的URL(默认值)9提交的数据并获得返回值10支持跟踪HTML框11支持重定向,传递Cookie询问PHP4或更多,因为它是PHP的最佳选择,不需要展开服务器不支持服务器,类方法:获取($ uri)----这是如何使用内容网页。
  $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。如果您是副价是一个框架,史努比将每个框架存储到数组中,然后存入$ this-&gt;结果。 fetchtext($ uri)----此方法类似于fetch(),而且此方法只删除HTML标记和其他独立数据,只能返回网页中的文本内容。 fetchform($ uri)-----此方法类似于fetch(),唯一的区别是此方法删除html fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据返回网页提交($ uri,$ formvars)-------此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。 submittext($ uri,$ formvars)--------此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回登录中的文本内容。 submitlinks ------此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。
  默认情况下,将自动完成相对链接,转换为完整的URL。类属性:(括号中的默认值)$ HOST CONNECTION HOST $端口连接端口$ PROXY_HOST使用代理主机(如果有)如果有代理主机端口,如果有的话,如果有的话,则$代理用户代理伪装(snoopy v 0.1) $推荐信息信息信息信息信息来源信息来话最信息信息重重头息重重重重重重重重重重重重重重重重重重重重重重重重5) $ offsiteok是否alplactredirects offste。(true)$ odernlinks完成链接到完整地址(true)$用户认证的用户名,如果有的话,如果有任何$接受http接受类型(图像/ gif,图像/ x-xbitmap,image / jpeg,image / pjpeg,* / *)$ errat在哪里错误,如果有的话,如果有的话,从响应代码返回的服务器$ headers从服务器返回$ maxlength数据长度$ read_timeout read操作超时(需要PHP Postgraduate House:提供重大的制度研究,公务员,46个咨询视频课程 查看全部

  snoopy php网页抓取工具(考研屋提供各大机构考研、公务员、四六级辅导视频课程)
  调查房屋提供重大的机构研究,公务员,四级或六级辅导视频课程在路线测试路上必须是网站 ----考试屋最近学识到PHP 采集程序,发现了一个好的采集类库,它的名字是史努比。 Sorceforge上有一个下载地址:它可以模拟您的浏览器获取Web内容,甚至可以在GET或POST中发送表单数据。 Snoopy功能:1爬网Content Fetch2抓取网页的文本内容(删除HTML标记)fetchtext3抓取链接,表单fetchlinks fetchform4支持代理主机5支持基本用户名/密码验证6支持SET USER_AGENT,REFERER(交换机),Cookie HeaderContent(标题)7支持浏览器重定向,并控制重定向深度8以将网页中的链接扩展为高质量的URL(默认值)9提交的数据并获得返回值10支持跟踪HTML框11支持重定向,传递Cookie询问PHP4或更多,因为它是PHP的最佳选择,不需要展开服务器不支持服务器,类方法:获取($ uri)----这是如何使用内容网页。
  $ URI参数是网页捕获的URL地址。捕获的结果存储在$ this-和gt;结果。如果您是副价是一个框架,史努比将每个框架存储到数组中,然后存入$ this-&gt;结果。 fetchtext($ uri)----此方法类似于fetch(),而且此方法只删除HTML标记和其他独立数据,只能返回网页中的文本内容。 fetchform($ uri)-----此方法类似于fetch(),唯一的区别是此方法删除html fetch(),唯一的区别是此方法将删除HTML标记和其他不相关的数据返回网页提交($ uri,$ formvars)-------此方法将确认表单发送到$ URL指定的链接地址。 $ formvars是一系列存储的表单个参数。 submittext($ uri,$ formvars)--------此方法类似于提交(),唯一的区别是此方法将删除HTML标记和其他不相关的数据,只返回登录中的文本内容。 submitlinks ------此方法类似于提交(),唯一的区别是此方法删除HTML标记和其他不相关的数据,只返回到网页中的链接(链接)。
  默认情况下,将自动完成相对链接,转换为完整的URL。类属性:(括号中的默认值)$ HOST CONNECTION HOST $端口连接端口$ PROXY_HOST使用代理主机(如果有)如果有代理主机端口,如果有的话,如果有的话,则$代理用户代理伪装(snoopy v 0.1) $推荐信息信息信息信息信息来源信息来话最信息信息重重头息重重重重重重重重重重重重重重重重重重重重重重重重5) $ offsiteok是否alplactredirects offste。(true)$ odernlinks完成链接到完整地址(true)$用户认证的用户名,如果有的话,如果有任何$接受http接受类型(图像/ gif,图像/ x-xbitmap,image / jpeg,image / pjpeg,* / *)$ errat在哪里错误,如果有的话,如果有的话,从响应代码返回的服务器$ headers从服务器返回$ maxlength数据长度$ read_timeout read操作超时(需要PHP Postgraduate House:提供重大的制度研究,公务员,46个咨询视频课程

snoopy php网页抓取工具(所见即所得网页编辑软件是较佳的选择吗)

网站优化优采云 发表了文章 • 0 个评论 • 68 次浏览 • 2021-09-22 04:06 • 来自相关话题

  snoopy php网页抓取工具(所见即所得网页编辑软件是较佳的选择吗)
  请参阅网页编辑软件:这是指微软SharePoint设计。 Macromedia的Dreamweaver中。 GoLive中的Adobe。纳摩WebEditor等网页编辑软件,其优点是可以让你通过图形界面,使网页设计,那么它会自动生成HTML及时。 CSS。的JavaScript或PHP等的源代码,图1-32示出的Dreamweaver
  文本匹配软件:这是指内置记事本,用UltraEdit或EmEditor中,等等。当使用这种类型的软件来写一个PHP页面的新的笔记本,你必须写HTML。 CSS。 JavaSript或PUP和其他来源的代码,它的优点是所有的源代码输入你自己,这样你就不会产生额外的垃圾代码,占用的空间该网页会很小。
  对于那些谁想要快速编辑网页,我不想深入到暂时的学习语法,我会看到最好的网页编辑软件,因为它R的绝对相关程序语法,即使用户不具备程序设计知识,同样最好是设计一个图片的图片和编辑网页:相反,对于谁想要了解扬声器语法的人,使用纯文本编辑软件,因为它使用户能够专注于程序,并不像他们所获得的Web文件的软件会产生多余的程序代码,造成麻烦。 查看全部

  snoopy php网页抓取工具(所见即所得网页编辑软件是较佳的选择吗)
  请参阅网页编辑软件:这是指微软SharePoint设计。 Macromedia的Dreamweaver中。 GoLive中的Adobe。纳摩WebEditor等网页编辑软件,其优点是可以让你通过图形界面,使网页设计,那么它会自动生成HTML及时。 CSS。的JavaScript或PHP等的源代码,图1-32示出的Dreamweaver
  文本匹配软件:这是指内置记事本,用UltraEdit或EmEditor中,等等。当使用这种类型的软件来写一个PHP页面的新的笔记本,你必须写HTML。 CSS。 JavaSript或PUP和其他来源的代码,它的优点是所有的源代码输入你自己,这样你就不会产生额外的垃圾代码,占用的空间该网页会很小。
  对于那些谁想要快速编辑网页,我不想深入到暂时的学习语法,我会看到最好的网页编辑软件,因为它R的绝对相关程序语法,即使用户不具备程序设计知识,同样最好是设计一个图片的图片和编辑网页:相反,对于谁想要了解扬声器语法的人,使用纯文本编辑软件,因为它使用户能够专注于程序,并不像他们所获得的Web文件的软件会产生多余的程序代码,造成麻烦。

snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)

网站优化优采云 发表了文章 • 0 个评论 • 74 次浏览 • 2021-09-17 01:10 • 来自相关话题

  snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  史努比是一只猫php采集Class模拟浏览器以获取web内容并发送表单
  以下是史努比的一些功能:
  易于抓取web内容
  易于抓取页面文本(删除HTML标记)
  易于抓取网页中的链接
  支持代理抓取
  支持基本用户名和密码认证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器转向和控制转向深度
  可以将页面中的链接转换为高质量链接
  方便的数据提交和返回值
  可以跟踪HTML框架
  支持重定向时传输cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法$URI参数是已爬网网页的URL地址。获取的结果存储在$this->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比)v0.1)
  $referer源信息(如果有)
  $cookies(如有)
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向次数,0=不允许(5))@
  $offsiteok是否允许场外重定向。(对)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有) 查看全部

  snoopy php网页抓取工具(Snoopy模拟浏览器获取网页内容和发送表单的方法和使用方法)
  史努比是一只猫php采集Class模拟浏览器以获取web内容并发送表单
  以下是史努比的一些功能:
  易于抓取web内容
  易于抓取页面文本(删除HTML标记)
  易于抓取网页中的链接
  支持代理抓取
  支持基本用户名和密码认证
  支持设置用户代理、引用、cookie和标题内容
  支持浏览器转向和控制转向深度
  可以将页面中的链接转换为高质量链接
  方便的数据提交和返回值
  可以跟踪HTML框架
  支持重定向时传输cookie
  史努比类,方法:
  获取($URI)
  用于抓取网页内容的方法$URI参数是已爬网网页的URL地址。获取的结果存储在$this->results中。如果您正在抓取一帧,Snoopy将跟踪每个帧并将其存储在数组中,然后存储$this->results
  fetchtext($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的文本内容
  fetchform($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他不相关的数据,并且只返回网页中的表单内容
  获取链接($URI)
  此方法类似于fetch()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  提交($URI,$formvars)
  此方法向$URL指定的链接地址发送确认表单$Formvars是存储表单参数的数组
  submittext($URI,$formvars)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且仅在登录后返回网页中的文本内容
  提交链接($URI)
  此方法类似于submit()。唯一的区别是,此方法将删除HTML标记和其他无关数据,并且只返回网页中的链接。默认情况下,相对链接会自动完成并转换为完整URL
  Class属性:(默认值在括号中)
  $host连接的主机
  $port连接端口
  $proxy\主机使用的代理主机(如果有)
  $proxy\端口使用代理主机端口(如果有)
  $agent用户代理伪装(史努比)v0.1)
  $referer源信息(如果有)
  $cookies(如有)
  $rawheads其他标题信息(如有)
  $maxredrs最大重定向次数,0=不允许(5))@
  $offsiteok是否允许场外重定向。(对)
  $expandlinks是否完成指向完整地址的所有链接(true)
  $user authentication username(如果有)
  $pass身份验证用户名(如果有)

snoopy php网页抓取工具(PHP模拟浏览器的特点:Snoopy(来路)、Snoopy、header)

网站优化优采云 发表了文章 • 0 个评论 • 111 次浏览 • 2021-09-13 11:08 • 来自相关话题

  snoopy php网页抓取工具(PHP模拟浏览器的特点:Snoopy(来路)、Snoopy、header)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的特点:
  1、抓取网页内容抓取
  2、Fetch 网页的文字内容(去掉 HTML 标签)fetchtext
  3、抓取网页链接,表单fetchlinks fetchform
  4、支持代理主机
  5、 支持基本的用户名/密码验证
  6、 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7、支持浏览器重定向,可以控制重定向的深度
  8、可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、 支持重定向时传递 cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  ================================================ ======================================
  file_get_contents()
  file_get_contents 是 fsockopen 函数的一个简单封装,效率较低,但是爬取成功率很高,所以我一般都是在 snoopy 有问题的时候让他来。 5.0.0 添加了对上下文的支持。借助上下文,他还可以发送标头信息,并自定义用户代理、引用者和 cookie。 5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,不过需要开启curl扩展。
  cURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集。
  有些cms会使用curl功能,需要在服务器上启用CURL扩展。下面介绍具体方法:
  1、将PHP ext目录下的三个文件:php_curl.dll、libeay32.dll和ssleay32.dll复制到系统system32目录下。
  2、将php.ini in
  ;extension=php_curl.dll 去掉前面的分号
  3、重启 IIS 或 Apache
  4、测试代码 查看全部

  snoopy php网页抓取工具(PHP模拟浏览器的特点:Snoopy(来路)、Snoopy、header)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的特点:
  1、抓取网页内容抓取
  2、Fetch 网页的文字内容(去掉 HTML 标签)fetchtext
  3、抓取网页链接,表单fetchlinks fetchform
  4、支持代理主机
  5、 支持基本的用户名/密码验证
  6、 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7、支持浏览器重定向,可以控制重定向的深度
  8、可以将网页中的链接扩展为高质量的url(默认)
  9、提交数据并获取返回值
  10、支持跟踪HTML框架
  11、 支持重定向时传递 cookie
  需要php4以上,因为是php类,不需要扩展支持,服务器不支持curl时的最佳选择。
  ================================================ ======================================
  file_get_contents()
  file_get_contents 是 fsockopen 函数的一个简单封装,效率较低,但是爬取成功率很高,所以我一般都是在 snoopy 有问题的时候让他来。 5.0.0 添加了对上下文的支持。借助上下文,他还可以发送标头信息,并自定义用户代理、引用者和 cookie。 5.1.0 增加了offset和maxlen参数,只能读取文件的一部分。
  卷曲()
  最强大的功能,几乎可以模拟浏览器的方方面面,几乎可以造假。效率也很高,支持多线程,不过需要开启curl扩展。
  cURL 是一种使用 URL 语法传输文件和数据的工具。它支持多种协议,如HTTP、FTP、TELNET等。PHP还支持cURL库,我们经常用于远程页面爬取和采集
  有些cms会使用curl功能,需要在服务器上启用CURL扩展。下面介绍具体方法:
  1、将PHP ext目录下的三个文件:php_curl.dll、libeay32.dll和ssleay32.dll复制到系统system32目录下。
  2、将php.ini in
  ;extension=php_curl.dll 去掉前面的分号
  3、重启 IIS 或 Apache
  4、测试代码

snoopy php网页抓取工具(php类模拟浏览器的功能,Snoopy($URI))

网站优化优采云 发表了文章 • 0 个评论 • 69 次浏览 • 2021-09-13 11:03 • 来自相关话题

  snoopy php网页抓取工具(php类模拟浏览器的功能,Snoopy($URI))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置 user_agent、referer(传入路由)、cookies 和 headercontent(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  snoopy php网页抓取工具(php类模拟浏览器的功能,Snoopy($URI))
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容并发送表单。
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置 user_agent、referer(传入路由)、cookies 和 headercontent(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))

网站优化优采云 发表了文章 • 0 个评论 • 83 次浏览 • 2021-09-13 11:01 • 来自相关话题

  snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))
  Snoopy 是一个php类,用来模拟浏览器的功能,可以获取网页内容并发送表单。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。
  一、Snoopy 的一些特点:
  1. 抓取网页内容 fetch
  2.Fetch 网页的文字内容(去除 HTML 标签)fetchtext
  3.抓取网页链接,表单fetchlinks fetchform
  4.支持代理主机
  5. 支持基本的用户名/密码验证
  6. 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7.支持浏览器重定向,可以控制重定向的深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookies,要求php4以上。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、Class 方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  snoopy php网页抓取工具(Snoopy的Snoopy服务都支持(PerlCompatibleRegularExpressionsExpressions))
  Snoopy 是一个php类,用来模拟浏览器的功能,可以获取网页内容并发送表单。 Snoopy 需要您服务器的 PHP 版本 4 或更高版本才能正确运行,并且支持 PCRE(Perl Compatible Regular Expressions),并且支持所有基本的 LAMP 服务。
  一、Snoopy 的一些特点:
  1. 抓取网页内容 fetch
  2.Fetch 网页的文字内容(去除 HTML 标签)fetchtext
  3.抓取网页链接,表单fetchlinks fetchform
  4.支持代理主机
  5. 支持基本的用户名/密码验证
  6. 支持设置 user_agent、referer(来源)、cookies 和 header 内容(头文件)
  7.支持浏览器重定向,可以控制重定向的深度
  8.可以将网页中的链接扩展为高质量的url(默认)
  9.提交数据并获取返回值
  10.支持跟踪HTML框架
  11.支持重定向时传递cookies,要求php4以上。既然是php类,就不需要扩展支持了,服务器不支持curl时的最佳选择。
  二、Class 方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。 $URI 参数是被爬取的网页的 URL 地址。获取的结果存储在 $this->results 中。如果你正在抓取一帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  三、Class 属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。(true)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

snoopy php网页抓取工具(php一个类无需扩支持服务器的一些特点:1抓取网页)

网站优化优采云 发表了文章 • 0 个评论 • 63 次浏览 • 2021-09-12 09:01 • 来自相关话题

  snoopy php网页抓取工具(php一个类无需扩支持服务器的一些特点:1抓取网页)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载史努比
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话 查看全部

  snoopy php网页抓取工具(php一个类无需扩支持服务器的一些特点:1抓取网页)
  Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页的内容,并发送表单。
  下载史努比
  史努比的一些特点:
  1 fetch 网页内容 fetch
  2 获取网页的文本内容(去除HTML标签)fetchtext
  3 获取网页链接,表单 fetchlinks fetchform
  4 支持代理主机
  5 支持基本的用户名/密码验证
  6 支持设置user_agent、referer(传入路由)、cookies和header内容(头文件)
  7 支持浏览器重定向,可以控制重定向的深度
  8 可以将网页中的链接扩展为高质量的url(默认)
  9 提交数据并获取返回值
  10 支持跟踪 HTML 框架
  11 支持重定向时传递 cookie
  需要 php4 或更高版本。既然是php的一个类,就不需要扩展支持了。服务器不支持curl时的最佳选择,
  类方法:
  获取($URI)
  ——————
  这是用来抓取网页内容的方法。
  $URI 参数是被抓取网页的 URL 地址。
  获取的结果存储在 $this->results 中。
  如果你正在抓取一个帧,史努比会跟踪每一帧并将其存储在一个数组中,然后将其存储在 $this->results 中。
  fetchtext($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的文本内容。
  fetchform($URI)
  —————
  该方法与fetch()类似,唯一不同的是该方法会去除HTML标签等无关数据,只返回网页中的表单内容(form)。
  fetchlinks($URI)
  —————-
  这个方法和fetch()类似,唯一不同的是这个方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  提交($URI,$formvars)
  ———————-
  此方法向$URL 指定的链接地址发送确认表单。 $formvars 是一个存储表单参数的数组。
  提交文本($URI,$formvars)
  ——————————
  该方法与submit()类似,唯一不同的是,该方法会去除HTML标签等无关数据,登录后只返回网页中的文本内容。
  提交链接($URI)
  —————-
  这个方法类似于submit()。唯一不同的是,该方法会去除HTML标签等无关数据,只返回网页中的链接。
  默认情况下,相对链接会自动补全并转换成完整的网址。
  类属性:(括号内为默认值)
  $host 连接的主机
  $port 连接的端口
  $proxy_host 使用的代理主机,如果有的话
  $proxy_port 使用的代理主机端口,如果有的话
  $agent 用户代理伪装(史努比 v0.1)
  $referer 传入信息,如果有的话
  $cookies cookies,如果有的话
  $rawheaders 其他头信息,如果有的话
  $maxredirs 最大重定向次数,0=不允许 (5)
  $offsiteok 是否允许异地重定向。 (真实)
  $expandlinks 是否完成所有链接以完成地址(真实)
  $user 认证用户名,如果有的话
  $pass 认证用户名,如果有的话

snoopy php网页抓取工具(不是($URI)PHP一个类类类代码)

网站优化优采云 发表了文章 • 0 个评论 • 75 次浏览 • 2021-09-09 01:02 • 来自相关话题

  snoopy php网页抓取工具(不是($URI)PHP一个类类类代码)
  好吧,我不再谈论卡通史努比了。它是一个 PHP 类。它可以用来模仿网页浏览器的功能,完成获取网页内容和发送表单的任务。可以向其官方网站学习:
  快速轻松地抓取网页的内容、文本(无 Html 标签)和链接。支持代理服务器、基本用户/密码认证方式、内容。支持浏览器重定向和控制深度。将获取到的链接扩展为带域名的链接(默认),可以提交表单数据并获取结果。支持跟踪 HTML 框架(添加了0.92 版本)。支持在重定向(添加0.92 版本)结果时传递 cookie。如果是抓取帧,则每帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  该方法与fetch()大致相同,只是结果是文本,不包括HTML标签等无关信息。
  fetchform($URI)
  该方法只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  该方法只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  此方法将表单提交到指定的 $URI。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  此方法返回链接。
  在WordPress中,已经收录了这个类,而且在前面提到的RSS解析类MagpieRSS中,这个类也是用来获取RSS的。最新版的 WordPress 2.5 使用 Snoopy 下载文件来更新插件。使用的史努比类的代码是:
  
function download_url( $url ) {
    if( ! $url )
        return false;
 
    $tmpfname = tempnam(get_temp_dir(), 'wpupdate'); //获取临时文件名
    if( ! $tmpfname )
        return false;
 
    $handle = fopen($tmpfname, 'w'); //以写的方式打开临时文件
    if( ! $handle )
        return false;
 
    require_once( ABSPATH . 'wp-includes/class-snoopy.php' ); //引入 Snoopy 类
    $snoopy = new Snoopy();   
    $snoopy->fetch($url); //抓取指定的网页
 
    fwrite($handle, $snoopy->results); //把抓取得内容写到 临时文件中
    fclose($handle);
 
    return $tmpfname;
}
  ©我爱水煮鱼,本站推荐主机:阿里云。国外主机推荐使用 BlueHost。 查看全部

  snoopy php网页抓取工具(不是($URI)PHP一个类类类代码)
  好吧,我不再谈论卡通史努比了。它是一个 PHP 类。它可以用来模仿网页浏览器的功能,完成获取网页内容和发送表单的任务。可以向其官方网站学习:
  快速轻松地抓取网页的内容、文本(无 Html 标签)和链接。支持代理服务器、基本用户/密码认证方式、内容。支持浏览器重定向和控制深度。将获取到的链接扩展为带域名的链接(默认),可以提交表单数据并获取结果。支持跟踪 HTML 框架(添加了0.92 版本)。支持在重定向(添加0.92 版本)结果时传递 cookie。如果是抓取帧,则每帧都会被抓取,结果保存在一个数组中。
  fetchtext($URI)
  该方法与fetch()大致相同,只是结果是文本,不包括HTML标签等无关信息。
  fetchform($URI)
  该方法只返回被抓取网页上的表单元素。
  fetchlinks($URI)
  该方法只返回被抓取网页上的链接。默认返回的链接都是收录域名的链接。
  提交($URI,$formvars)
  此方法将表单提交到指定的 $URI。 $formvars 是要传递的表单变量数组。
  提交文本($URI,$formvars)
  该方法与submit()基本相同,只是返回文本,不包括html标签等无关数据。
  提交链接($URI)
  此方法返回链接。
  在WordPress中,已经收录了这个类,而且在前面提到的RSS解析类MagpieRSS中,这个类也是用来获取RSS的。最新版的 WordPress 2.5 使用 Snoopy 下载文件来更新插件。使用的史努比类的代码是:
  
function download_url( $url ) {
    if( ! $url )
        return false;
 
    $tmpfname = tempnam(get_temp_dir(), 'wpupdate'); //获取临时文件名
    if( ! $tmpfname )
        return false;
 
    $handle = fopen($tmpfname, 'w'); //以写的方式打开临时文件
    if( ! $handle )
        return false;
 
    require_once( ABSPATH . 'wp-includes/class-snoopy.php' ); //引入 Snoopy 类
    $snoopy = new Snoopy();   
    $snoopy->fetch($url); //抓取指定的网页
 
    fwrite($handle, $snoopy->results); //把抓取得内容写到 临时文件中
    fclose($handle);
 
    return $tmpfname;
}
  ©我爱水煮鱼,本站推荐主机:阿里云。国外主机推荐使用 BlueHost。

官方客服QQ群

微信人工客服

QQ人工客服


线