全方面的采集神器(一下file_get_contents函数可以获取远程链接数据的方法)
优采云 发布时间: 2021-09-19 03:17全方面的采集神器(一下file_get_contents函数可以获取远程链接数据的方法)
对于那些在k11上做过数据处理的人来说,curl肯定不是陌生人。虽然PHP_uuget_uu中有一个文件,但contents函数可以获取远程链接数据,但其可控性太差。对于各种复杂的采集场景,文件获取内容似乎有点无能为力。因此,本文将向您介绍采集artifact curl的使用
让我们先添加一些东西\uGet\uContent函数可以获取远程链接数据的方法
这段代码将直接使用curl显示文件内容,但问题是curl是PHP的扩展。为了安全起见,有些主机将使用curl。在本地调试ningwai PHP时,也会关闭Curl,因此会报告错误。因此,这段代码是不可取的,所以云洛重写了它
修改后的版本是判断curl扩展,看服务器是否打开了curl扩展。如果打开,文件将直接显示。如果未打开,将显示提示文本
虽然问题已经解决,但还有另一个问题。我只是显示一段文字。我什么都不做,为什么我要写这么多代码
经过一些无意义的测试后,发现get uContents在获取远程文件的内容方面并不比curl慢,而且在某些情况下可能比curl extension快得多,因为文件很少,所以我再次重写了代码
工具
Firefox+firebug
“如果你想做好工作,你必须首先磨砺你的工具。”在分析案例之前,让我们学习如何使用工件firebug来获得必要的信息
用F12打开firebug,我们可以得到如下(一)interface:
1、箭头图标是“元素选择”工具,点击一次将突出显示该图标,同时在页面中移动鼠标将在HTML菜单中选择相应的内容,此时点击该内容意味着选中该元素并取消图标突出显示,如图所示(二):
Firebug视图元素
2、控制台
JS中console.log系列函数的打印输出在这里
3、HTML
HTML内容。请注意,您在此处看到的内容不一定是采集需要解析的内容。在采集对内容的分析始终基于查看源代码(Ctrl+U)。在这里,您可以快速定位元素的结构,然后选择一个特殊的引用来定位源代码中相应的位置
例如,您在HTML中看到一个标记
演示
但是当您查看源代码时看到的可能是
演示
,如果根据前者对采集内容进行常规匹配,则不会得到结果
4、CSS
下面是CSS文件的内容
5、script
下面是JavaScript文件内容
6、DOM
DOM节点内容
7、网络
这就是我们采集需要关注和分析每个请求链接的数据的地方。它可以显示参数、请求头、cookie数据等。当页面提交刷新时,您需要在刷新后使用hold将页面请求内容保存在控制台中,如图所示(三):
此外,Firefox有一个篡改数据扩展,也可以获取请求的数据,必要时可以安装和使用
8、Cookies
Cookie数据
在图(一))中,我们还可以看到下面有许多可选的小菜单项。我们应该注意维护。选择它时,即使提交表单刷新页面,也会保留以下内容区域中的数据,这对于分析提交的数据尤为关键
总结
在分析采集请求时,我们主要关注“网络”菜单中的请求数据。如果需要,可以使用“保持”查看刷新页面的请求数据。在请求之前,您可以使用“清除”清除以下内容
案例分析
一、simple采集
这里简单的采集是指单个页面get请求的采集。它非常简单,即使通过file_get_contents函数也可以轻松获得页面返回结果
文件\u获取\u代码段的内容
<p>