抓取ajax动态网页java(李凯旋创建快速动态网页的索引页分析及解决办法)

优采云 发布时间: 2022-01-01 14:04

  抓取ajax动态网页java(李凯旋创建快速动态网页的索引页分析及解决办法)

  1043-Python-群:李凯旋

  工具:

  先解释Ajax

  Ajax 是一种用于创建快速动态网页的技术。通过在后台与服务器交换少量数据,Ajax 可以使网页异步更新。就像打开某个网页,用鼠标往下拉,就增加了网页的一部分内容。在这个过程中,只加载了多余的部分内容,并没有重新加载整个页面内容。这样的技术是 Ajax 创造的快速动态。网络技术。

  例如:

  

  Ajax 异步加载

  鼠标下拉时,加载样式为Ajax异步加载。

  目标站点分析

  输入网址网址为“街拍”

  我们的目标是抓取街拍图集,返回图集的标题,并将每个图集的每个子图保存到项目根目录:

  索引页

  

  索引页详情页

  点击图库后会出现详细信息页面。这是我们想要得到的图片之一。

  

  分析详情页索引页下的网页源码(按F12)

  首先动态加载肯定不在Doc目录下,所以应该在XHR(异步)下搜索

  

  索引页分析1

  根据观察,向下滚动网页,我们会发现有一个?offset标签被刷新了,每次增加20个。然后我们找到Preview找到响应的代码,里面收录data标签下的图片和标题。

  图片中的标题是我们需要的图集的标题,url是我们需要的图集的链接。

  

  Index page analysis 2 详情页源码分析(按F12)

  

  详情页分析1

  这组图片下有8张图片,每张图片的链接都收录gallery的变量字典。

  下一节,我们开始获取索引页并解析索引页。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线