htmlunit抓取动态网页(2019独角兽企业重金招聘Python工程师标准(原网页+Javascript返回数据))

优采云发布时间: 2022-03-24 09:03

　　2019独角兽企业招聘Python工程师标准>>>

　　我在做人人网页爬虫的时候，爬人人新新闻搜索页源码的时候，改curpage=后面的数字后，爬到的内容竟然是一样的，每次都是第一页。在不同的页面右击“查看页面源代码”，发现确实是第一页的新内容，并没有什么变化。

　　然后右击火狐和“查看元素”，发现每次翻页时只有新闻版块的HTML标签发生变化（闪烁橙色）。估计是用 JAVASCRIPT 来动态更新/加载数据，而不是重新请求一个新的 URL。关联

　　知道问题后，开始百度，发现这样一篇文章文章：Java抓取网页数据（原网页+Javascript返回数据）

　　有时网站为了保护自己的数据，不是直接在网页源代码中返回数据，而是采用异步方式用JS返回数据，这样可以避免搜索引擎等工具从网站数据捕获。

　　按照博文的方法，一步一步，用火狐查看元素中的“网络”进行分析，发现果然如预期，当页面发生变化时，使用js异步返回数据，而真正的请求的链接自然和你在浏览器中看到的一样。不同的到达。如下所示：

　　查看响应内容：

　　真的！正是您正在寻找的！一共10个新故事，一个还不错，正是我们想要的页码

　　之后，只需将原来爬取HTML页面的java爬虫代码的url改成这个真实的请求地址（而不是在浏览器地址栏中看清楚），其他什么都不需要改。

0

2022-03-24

htmlunit抓取动态网页

0 个评论

要回复文章请先登录或注册