抓取ajax动态网页java(北京大学介绍如何解决ajax动态加载页面的问题(图))

优采云 发布时间: 2021-11-15 05:12

  抓取ajax动态网页java(北京大学介绍如何解决ajax动态加载页面的问题(图))

  1、遇到的问题描述

  最近需要爬取网站中的一个内容。网页中的内容有下拉选项,如图:

  

  笔者一直以为这是一个下拉框选项,打开网页的“视图元素”,如下图:

  

  作者搜索的下拉框中没有选项。我很困惑。在我意识到这是一个Ajax动态加载页面之前,我向其他人描述了这个问题。于是我去搜集资料解决问题。

  2、问题解决

  搜了一篇《通过Ajax动态加载页面(实时监控*敏*感*词*新闻和新闻)(url:)》的文章,介绍了ajax动态加载页面。用户每次发送请求时,页面都会不时发生变化,但其 URL 不会发生变化。接下来我自己来抓一把:在中国教育在线,以北大不同学科、不同批次的各省录取分数线为例,介绍如何解决ajax动态加载页面的问题。

  打开网页--->'查看元素'--->'网络'--->刷新页面:

  

  在这张图片中,点击左栏可以找到你需要的信息。在右栏中,您可以获取相应的网页源 URL 和响应头信息。可以从请求 URL 中获取作者需要的内容:

  

  图中的网站,北京大学,向该网站查询了北京一批理科录取分数线。发现网站上的数字是有规律的,于是修改了网站上的数字,得到了外省的录取分数线。

  3、 根据规则抓取网页

  剩下的部分是静态页面获取和提取需要的信息。当然,除了发现 URL 规则和修改规则之外,还有一种发送请求响应的方式。这部分笔者不做解释,有兴趣的读者自行查找资料。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线