htmlunit抓取动态网页(2019独角兽企业重金招聘Python工程师标准(原网页+Javascript返回数据))

优采云 发布时间: 2022-03-24 09:03

  htmlunit抓取动态网页(2019独角兽企业重金招聘Python工程师标准(原网页+Javascript返回数据))

  2019独角兽企业招聘Python工程师标准>>>

  

  我在做人人网页爬虫的时候,爬人人新新闻搜索页源码的时候,改curpage=后面的数字后,爬到的内容竟然是一样的,每次都是第一页。在不同的页面右击“查看页面源代码”,发现确实是第一页的新内容,并没有什么变化。

  然后右击火狐和“查看元素”,发现每次翻页时只有新闻版块的HTML标签发生变化(闪烁橙色)。估计是用 JAVASCRIPT 来动态更新/加载数据,而不是重新请求一个新的 URL。关联

  知道问题后,开始百度,发现这样一篇文章文章:Java抓取网页数据(原网页+Javascript返回数据)

  有时网站为了保护自己的数据,不是直接在网页源代码中返回数据,而是采用异步方式用JS返回数据,这样可以避免搜索引擎等工具从网站 数据捕获。

  按照博文的方法,一步一步,用火狐查看元素中的“网络”进行分析,发现果然如预期,当页面发生变化时,使用js异步返回数据,而真正的请求的链接自然和你在浏览器中看到的一样。不同的到达。如下所示:

  

  查看响应内容:

  

  真的!正是您正在寻找的!一共10个新故事,一个还不错,正是我们想要的页码

  之后,只需将原来爬取HTML页面的java爬虫代码的url改成这个真实的请求地址(而不是在浏览器地址栏中看清楚),其他什么都不需要改。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线