抓取ajax动态网页java(李凯旋创建快速动态网页的索引页分析及解决办法)
优采云 发布时间: 2022-01-01 14:04抓取ajax动态网页java(李凯旋创建快速动态网页的索引页分析及解决办法)
1043-Python-群:李凯旋
工具:
先解释Ajax
Ajax 是一种用于创建快速动态网页的技术。通过在后台与服务器交换少量数据,Ajax 可以使网页异步更新。就像打开某个网页,用鼠标往下拉,就增加了网页的一部分内容。在这个过程中,只加载了多余的部分内容,并没有重新加载整个页面内容。这样的技术是 Ajax 创造的快速动态。网络技术。
例如:
Ajax 异步加载
鼠标下拉时,加载样式为Ajax异步加载。
目标站点分析
输入网址网址为“街拍”
我们的目标是抓取街拍图集,返回图集的标题,并将每个图集的每个子图保存到项目根目录:
索引页
索引页详情页
点击图库后会出现详细信息页面。这是我们想要得到的图片之一。
分析详情页索引页下的网页源码(按F12)
首先动态加载肯定不在Doc目录下,所以应该在XHR(异步)下搜索
索引页分析1
根据观察,向下滚动网页,我们会发现有一个?offset标签被刷新了,每次增加20个。然后我们找到Preview找到响应的代码,里面收录data标签下的图片和标题。
图片中的标题是我们需要的图集的标题,url是我们需要的图集的链接。
Index page analysis 2 详情页源码分析(按F12)
详情页分析1
这组图片下有8张图片,每张图片的链接都收录gallery的变量字典。
下一节,我们开始获取索引页并解析索引页。