全方面的采集神器(一下file_get_contents函数可以获取远程链接数据的方法)

优采云 发布时间: 2021-09-19 03:17

  全方面的采集神器(一下file_get_contents函数可以获取远程链接数据的方法)

  对于那些在k11上做过数据处理的人来说,curl肯定不是陌生人。虽然PHP_uuget_uu中有一个文件,但contents函数可以获取远程链接数据,但其可控性太差。对于各种复杂的采集场景,文件获取内容似乎有点无能为力。因此,本文将向您介绍采集artifact curl的使用

  让我们先添加一些东西\uGet\uContent函数可以获取远程链接数据的方法

  这段代码将直接使用curl显示文件内容,但问题是curl是PHP的扩展。为了安全起见,有些主机将使用curl。在本地调试ningwai PHP时,也会关闭Curl,因此会报告错误。因此,这段代码是不可取的,所以云洛重写了它

  修改后的版本是判断curl扩展,看服务器是否打开了curl扩展。如果打开,文件将直接显示。如果未打开,将显示提示文本

  虽然问题已经解决,但还有另一个问题。我只是显示一段文字。我什么都不做,为什么我要写这么多代码

  经过一些无意义的测试后,发现get uContents在获取远程文件的内容方面并不比curl慢,而且在某些情况下可能比curl extension快得多,因为文件很少,所以我再次重写了代码

  工具

  Firefox+firebug

  “如果你想做好工作,你必须首先磨砺你的工具。”在分析案例之前,让我们学习如何使用工件firebug来获得必要的信息

  用F12打开firebug,我们可以得到如下(一)interface:

  1、箭头图标是“元素选择”工具,点击一次将突出显示该图标,同时在页面中移动鼠标将在HTML菜单中选择相应的内容,此时点击该内容意味着选中该元素并取消图标突出显示,如图所示(二):

  Firebug视图元素

  

  2、控制台

  JS中console.log系列函数的打印输出在这里

  3、HTML

  HTML内容。请注意,您在此处看到的内容不一定是采集需要解析的内容。在采集对内容的分析始终基于查看源代码(Ctrl+U)。在这里,您可以快速定位元素的结构,然后选择一个特殊的引用来定位源代码中相应的位置

  例如,您在HTML中看到一个标记

  演示

  但是当您查看源代码时看到的可能是

  演示

  ,如果根据前者对采集内容进行常规匹配,则不会得到结果

  4、CSS

  下面是CSS文件的内容

  5、script

  下面是JavaScript文件内容

  6、DOM

  DOM节点内容

  7、网络

  这就是我们采集需要关注和分析每个请求链接的数据的地方。它可以显示参数、请求头、cookie数据等。当页面提交刷新时,您需要在刷新后使用hold将页面请求内容保存在控制台中,如图所示(三):

  

  此外,Firefox有一个篡改数据扩展,也可以获取请求的数据,必要时可以安装和使用

  8、Cookies

  Cookie数据

  在图(一))中,我们还可以看到下面有许多可选的小菜单项。我们应该注意维护。选择它时,即使提交表单刷新页面,也会保留以下内容区域中的数据,这对于分析提交的数据尤为关键

  总结

  在分析采集请求时,我们主要关注“网络”菜单中的请求数据。如果需要,可以使用“保持”查看刷新页面的请求数据。在请求之前,您可以使用“清除”清除以下内容

  案例分析

  一、simple采集

  这里简单的采集是指单个页面get请求的采集。它非常简单,即使通过file_get_contents函数也可以轻松获得页面返回结果

  文件\u获取\u代码段的内容

<p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线