java爬虫抓取动态网页(开源java页面分析工具启动htmlunit之后会启动一个无界面浏览器)
优采云 发布时间: 2021-09-26 01:22java爬虫抓取动态网页(开源java页面分析工具启动htmlunit之后会启动一个无界面浏览器)
Htmlunit是一个开源Java页面分析工具。启动htmlunit后,底层将启动一个没有界面的浏览器。用户可以指定浏览器类型:Firefox、ie等。如果未指定,默认为Internet\uExplorer\u7:
WebClient WebClient=新的WebClient(BrowserVersion.FIREFOX\u36)
通过一个简单的电话:
HtmlPage=webClient.getPage(url)
可通过以下方式获取页面的HTML页面表示:
InputStream is=targetPage.getWebResponse().getContentAsStream()
您可以获取页面的输入流,从而获取页面的源代码,这对于web爬虫项目非常有用
当然,您也可以从页面中获取更多页面元素
htmlunit为执行javascript提供支持非常重要:
page.executeJavaScript(javascript)
执行JS后,返回一个scriptresult对象,通过该对象可以得到执行JS后的页面等信息,默认情况下,内部浏览器会跳转到执行JS后生成的新页面,如果执行JS失败,则不会执行页面跳转