php抓取网页内容(*敏*感*词*消费记录批量导进随手记但是学校的语言选择)
优采云 发布时间: 2021-09-22 03:33php抓取网页内容(*敏*感*词*消费记录批量导进随手记但是学校的语言选择)
一、背景
准备将卡通消费记录引入一个转速器,但学校的卡片消费查询系统不支持数据导出,请我在Excel一页复制数据?这是一个重复无聊的东西应该由一台擅长做这些东西的计算机解决吗?所以我开始写入一个脚本一个按钮来抓住我的卡消耗记录。
二、分析
首先打开消费者记录查询的网页,取出开发人员工具,遵守此页面,找到我们的目标,是表格标记。
寻找如何生成此标签,是直接从服务器后端生成的网页,或者前端Ajax访问后端获取数据和渲染?单击“网络”选项卡并刷新网页。发现网页没有异步请求,每个页面都是一个新的网页,所以前者的情况。并且每个页面的URL是[页面],所以我只让程序访问此URL并解决HTML,获取表中的数据,然后通过某种方式采集目标。
将结果导入Excel,这是一种简单方便的表文件格式。 CSV,基本上CSV表文件只是一个文本文件,它将表与逗号等距离分隔符分隔,每行的表单数据被一行中断分隔(在Excel中,换行符是“RN”)
字段1,字段2,字段3,字段4
A,B,C,D
1,2,3,4
很简单!对于任何程序,只是一个简单的字符串拼接可以生成CSV格式的表。
在我的测试之后,我自本学期以来只有50多页,所以爬虫需要爬升的数据量很小,它完全没有关注,所有这些都是直接保存结果的。
对于爬行动物程序的语言选择,我没有什么可说的,我更熟悉php,所以我也完成了php。
三、执行行行
首先确定我应该如何模拟系统,在这里我们应该知道,http是一个无状态协议,所以服务器想要确定谁是当前请求,必须通过HTTP所请求的cookie保存。确定信息。因此,如果我们想要让服务器知道爬虫的HTTP请求是我的单词,你应该让HTTP请求爬网关携带这个cookie,在这里,我们可以从Chrome复制这个cookie,将其值保存在某种替代在变量中。
查看浏览器访问此页面的标题,发现cookie仅为JSessionId。
下一个,写入循环,将每个页面的结果添加到保存的结果的字符串中,跳出循环,保存结果,以及查找数据时的结果。
我在提取数据时使用simple_html_dom,一个简单方便的库,可以在HTML中解析DOM结构。
将字符串中的内容保存到结果。
代码如下:
运行结果:
实践证明,在CLI模式下运行的PHP仍然非常强大^ _ ^
参考:
1、使用PHP爬行个人卡消耗记录