java爬虫抓取动态网页(开源java页面分析工具启动htmlunit之后会启动一个无界面浏览器)

优采云发布时间: 2021-09-26 01:22

　　Htmlunit是一个开源Java页面分析工具。启动htmlunit后，底层将启动一个没有界面的浏览器。用户可以指定浏览器类型：Firefox、ie等。如果未指定，默认为Internet\uExplorer\u7：

　　WebClient WebClient=新的WebClient（BrowserVersion.FIREFOX\u36)

　　通过一个简单的电话：

　　HtmlPage=webClient.getPage（url）

　　可通过以下方式获取页面的HTML页面表示：

　　InputStream is=targetPage.getWebResponse（）.getContentAsStream（）

　　您可以获取页面的输入流，从而获取页面的源代码，这对于web爬虫项目非常有用

　　当然，您也可以从页面中获取更多页面元素

　　htmlunit为执行javascript提供支持非常重要：

　　page.executeJavaScript（javascript）

　　执行JS后，返回一个scriptresult对象，通过该对象可以得到执行JS后的页面等信息，默认情况下，内部浏览器会跳转到执行JS后生成的新页面，如果执行JS失败，则不会执行页面跳转

0

2021-09-26

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册