snoopy php网页抓取工具(snoopy_get_contents()、file..php优缺点curl)

优采云 发布时间: 2022-03-28 19:10

  snoopy php网页抓取工具(snoopy_get_contents()、file..php优缺点curl)

  源码下载 DD cURL、文件获取内容、snoopy.class.php 优缺点 curl()、file_get_contents(),这三个用于远程页面爬取的工具还是采集,它们的功能是等价的,到底是优缺点如下: snoopy fsockopen开发的一个类,效率高,不需要服务器特定的配置支持。可以在普通的虚拟主机上使用,但是经常会出现问题。官网:/projects Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。Snoopy的特点: 1、 抓取网页内容fetch 2、 抓取网页文本内容(去掉HTML标签) fetchtext 3、 抓取网页链接,form fetchlinks fetchform 4、@ >支持代理主机5、支持基本用户名/密码认证6、支持设置user_agent、referer(返回)、cookies headercontent(头文件)7、支持浏览器重定向,并且可以控制重定向深度8、可以将网页中的链接展开成高质量的url(默认)9、提交数据并获取返回值10、支持跟踪HTML frame11、@ > 支持重定向时传递 cookie 需要 php4 或更高版本。由于是php的一个类,所以不需要扩展,服务器也不支持curl的最佳选择。支持浏览器重定向,并且可以控制重定向深度8、可以将网页中的链接展开成高质量的url(默认)9、提交数据并获取返回值10、支持跟踪HTML frame11、 支持重定向时传递 cookie 需要 php4 或更高版本。由于是php的一个类,所以不需要扩展,服务器也不支持curl的最佳选择。支持浏览器重定向,并且可以控制重定向深度8、可以将网页中的链接展开成高质量的url(默认)9、提交数据并获取返回值10、支持跟踪HTML frame11、 支持重定向时传递 cookie 需要 php4 或更高版本。由于是php的一个类,所以不需要扩展,服务器也不支持curl的最佳选择。

  file_get_contents() file_get_contents fsockopen函数打包简单,效率稍低,但是捕获成功率很高,所以我一般在snoopy有问题的时候给他打电话。增加了对context的支持,有了context,他还可以发送header信息,自定义user agent,referer,cookies都有。添加了 offset maxlen 参数以只读文件的一部分。curl() 是最强大的,几乎可以模拟浏览器的每个方面,几乎就像是真实的一样。效率也很高,支持多线程,但是需要开启curl扩展。cURL 是一个使用 URL 语法规范传输文件和数据的工具,支持多种协议等。PHP 支持 cURL 库,我们经常使用它进行远程页面抓取和 采集。源码下载 DD 有的cms会用到curl功能,需要服务器开启CURL扩展。具体方法如下: 1、将PHP的ext目录下的三个文件:、、、和三个文件复制到系统system32目录下。;extension=去掉前面的分号3、重启IIS或者Apache4、@>测试代码

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线